ثغرة في ChatGPT تتيح إنتاج محتوى محظور

كتب: إسلام السقا

أكد خبراء أمنيون في شركة Mindgard البريطانية وجود ثغرات في الإصدار الحالي من ChatGPT، تتيح امكانية التلاعب بالمنصة لإنتاج صور تحتوي على محتوى عنيف أو جنسي صريح. جاء ذلك بعد جهود ناجحة للوصول إلى هذه الثغرات عبر إجراء تعديلات طفيفة على أوامر الإدخال.

أساليب التحايل على الأمان

وفقاً لتقرير نشرته هيئة الإذاعة البريطانية BBC، استخدم الباحثون صيغة نصية شائعة، تم تصميمها في الأصل لأغراض فكاهية. لكن بعد إدخال تغييرات بسيطة، استطاعوا إقناع ChatGPT بتوليد محتوى يتعارض مع قيود السلامة المفروضة. وقد أكدت شركة OpenAI أنها قامت بتطبيق إجراءات أمان إضافية، إلا أن الباحثين لاحظوا أن التعديلات المحدودة لا تزال قادرة على تضليل النظام.

نتائج البحث

وقد جاءت تلك النتائج خلال عمليات اختبارات تعرف باسم “اختبار الاختراق الأخلاقي” أو “Red Teaming”، حيث يسعى مختصون لاكتشاف الثغرات لمساعدة المطورين في معالجتها. وأفاد جيم نايتينغيل، الباحث في Mindgard، بأن بعض الصور التي تم توليدها كانت صادمة، حيث تضمنت مشاهد عنف دموية ومحتوى يمس بالعنف الجنسي، بالإضافة إلى صور لأشخاص مصابين بجروح خطيرة.

التحديات المستمرة

تمكن الباحثون من دفع النظام أيضاً لإنشاء صور مزيفة عارية، تعرف باسم “Deepfakes”، لأشخاص حقيقيين، بالرغم من تأكيدات OpenAI بأنها عملت على معالجة هذه المسألة. وبرزت هذه المخاوف من طبيعة البيانات الضخمة المستخدمة في تدريب نماذج الذكاء الاصطناعي، حيث يتم جمع جزء كبير منها من الإنترنت، مما قد يؤدي إلى إعادة إنتاج أنماط ومحتويات ضارة.

جهود OpenAI والإجراءات المتبعة

أكدت OpenAI أنها تعتمد على مزيج من المراجعة البشرية والفلاتر الآلية لمنع ظهور المحتوى المخالف لسياساتها، التي تحظر بوضوح المشاهد الإباحية والدموية. ومع ذلك، يرى عدد من الخبراء أن تأمين أنظمة الذكاء الاصطناعي بشكل كامل لا يزال يمثل تحدياً كبيراً، حيث تتطور أساليب التحايل باستمرار.

تحديات الأمن التكنولوجي

تستمر هذه التحديات في الارتفاع، إذ لا تقتصر على منصة واحدة فقط، فقد أعلن معهد سلامة الذكاء الاصطناعي البريطاني عن اكتشاف أساليب كسر للحماية في جميع أنظمة الذكاء الاصطناعي التي تم اختبارها، مما يسمح للمستخدمين بالالتفاف على بروتوكولات السلامة المقررة.

يمكنك قراءة المزيد في المصدر.

لمزيد من التفاصيل اضغط هنا.

Post Views: 67٬933