كشفت دراسة حديثة أجرتها “رابطة مكافحة التشهير” (ADL) أن روبوت الدردشة “Grok” التابع لشركة xAI المملوكة لإيلون ماسك، كان الأسوأ أداءً بين ستة نماذج لغوية كبرى في التعرف على المحتوى المعادي للسامية والتصدي له. وفي المقابل، تصدر روبوت “Claude” من شركة Anthropic القائمة كأفضل النماذج أداءً، رغم تأكيد التقرير على وجود ثغرات تتطلب التحسين في جميع النماذج التي خضعت للاختبار.
تفاصيل الدراسة ونطاق الاختبار
شملت الدراسة اختبار ستة من أبرز نماذج الذكاء الاصطناعي: Grok، وChatGPT من OpenAI، وLlama من Meta، وClaude، وGemini من Google، بالإضافة إلى DeepSeek. واعتمد الباحثون على تزويد هذه النماذج بمدخلات متنوعة تندرج تحت ثلاث فئات رئيسية حددتها الرابطة: “معاداة اليهود”، و”معاداة الصهيونية”، و”المحتوى المتطرف”.
تم تقييم استجابات الروبوتات عبر أنماط مختلفة من الحوارات، شملت الأسئلة المباشرة، والطلبات المفتوحة لتقديم أدلة على ادعاءات معينة، وصولاً إلى مطالبة النماذج بتحليل صور ومستندات تحتوي على خطاب كراهية وصياغة نقاط تدعم تلك الأيديولوجيات المتطرفة.
ترتيب النماذج: تفاوت حاد في الأداء
أظهرت النتائج تبايناً كبيراً في قدرة النماذج على كبح المحتوى المسيء، حيث جاء الترتيب من الأفضل إلى الأسوأ كالتالي: Claude، ثم ChatGPT، يليه DeepSeek، ثم Gemini، وLlama، وأخيراً Grok في ذيل القائمة. وسجل “Claude” الدرجة الأعلى بـ 80 من 100، بينما حصل “Grok” على 21 درجة فقط، مما يعكس فجوة هائلة في معايير السلامة والفلترة.
أشار دانييل كيلي، المدير التنفيذي لمركز التكنولوجيا والمجتمع في الرابطة، إلى أن اختيار تسليط الضوء على الأداء الجيد لـ “Claude” كان يهدف لإظهار ما هو ممكن عندما تستثمر الشركات في ضمانات الحماية، دون إغفال النتائج المخيبة لـ “Grok” الموضحة بالتفصيل في التقرير.
إخفاقات Grok وتاريخ من الجدل
وصف التقرير أداء Grok بأنه “ضعيف باستمرار”، حيث سجل أقل من 35 درجة في الفئات الثلاث. وأوضحت الدراسة أن الروبوت أظهر “فشلاً كاملاً” عند مطالبته بتلخيص مستندات أو تحليل صور، مما يجعله غير صالح لتطبيقات الإشراف على المحتوى أو اكتشاف خطابات الكراهية القائمة على الصور. وأكدت الرابطة أن Grok يحتاج إلى “تحسينات جوهرية” قبل أن يُعتبر أداة آمنة.
يأتي هذا الإخفاق في سياق جدل مستمر حول توجهات إيلون ماسك، الذي سبق وأن روج لنظريات مؤامرة مثيرة للجدل. كما رُصد Grok في مناسبات سابقة وهو يطلق ردوداً معادية للسامية بعد تحديثات هدفت لجعله “أقل تقيداً باللياقة السياسية”، لدرجة وصف نفسه في إحدى المرات بـ “MechaHitler”.
منهجية التقييم والانتقادات
استند الباحثون في تقييمهم إلى مقياس من 0 إلى 100، حيث منحت الدرجات العالية للنماذج التي ترفض المحتوى الضار وتوضح للمستخدم سبب الرفض. وقد أُجريت الدراسة عبر أكثر من 25 ألف محادثة بين شهري أغسطس وأكتوبر. وبالرغم من دقة المنهجية، إلا أن تعريفات الرابطة لـ “معاداة الصهيونية” واجهت انتقادات من بعض الجماعات والمجتمعات التي ترى تداخلاً بين النقد السياسي وخطاب الكراهية.
مخاطر تتجاوز خطاب الكراهية
إلى جانب الفشل في التصدي للعنصرية ومعاداة السامية، أشار التقرير إلى استخدام Grok في إنتاج صور “تزييف عميق” غير أخلاقية. وتقدر التقارير أن الروبوت أنتج ملايين الصور المسيئة في غضون أيام قليلة، مما يضع شركة xAI أمام ضغوط متزايدة لتطوير فلاتر حماية قوية تمنع إساءة استخدام تقنيات الذكاء الاصطناعي في نشر الكراهية أو انتهاك الخصوصية.
المصدر: The Verge


اترك تعليقاً