الذكاء الاصطناعي يخدع صانعيه: رصد مراجع وهمية في أبحاث مؤتمر NeurIPS المرموق

مفارقة في قلب مجتمع الذكاء الاصطناعي

يُعد قبول ورقة بحثية في مؤتمر معالجة المعلومات العصبية (NeurIPS) إنجازاً مهنياً رفيعاً يضاهي أرقى الجوائز في عالم التكنولوجيا. ومع تصدر هؤلاء الباحثين لمشهد الابتكار في الذكاء الاصطناعي، كان من المتوقع أن يبرعوا في استخدام النماذج اللغوية الكبيرة (LLMs) لأتمتة المهام الروتينية مثل كتابة المراجع، لكن النتائج الأخيرة جاءت مخيبة للتوقعات ومثيرة للسخرية في آن واحد.

نتائج صادمة من “GPTZero”

كشفت دراسة أجرتها شركة GPTZero — وهي شركة ناشئة متخصصة في تطوير أدوات لكشف المحتوى المولد بواسطة الذكاء الاصطناعي — عن وجود 100 مرجع وهمي (Hallucinated Citations) موزعة على 51 ورقة بحثية مقبولة في المؤتمر. وعلى الرغم من أن هذا الرقم قد لا يبدو كبيراً من الناحية الإحصائية مقارنة بعشرات الآلاف من المراجع الصحيحة، إلا أن دلالته الرمزية أعمق بكثير.

وقد علق منظمو مؤتمر NeurIPS على هذه النتائج موضحين أن وجود مراجع غير دقيقة في 1.1% من الأوراق لا يعني بالضرورة بطلان البحث العلمي نفسه، مؤكدين أن المحتوى الأساسي يظل محتفظاً بقيمته العلمية.

المراجع كـ “عملة” أكاديمية

لماذا يثير هذا الأمر كل هذا الجدل؟ في الوسط الأكاديمي، تُعتبر المراجع نوعاً من العملة التي تقيس مدى تأثير الباحث ومصداقية عمله. وتعتمد سمعة NeurIPS على “النشر العلمي الصارم”، حيث تخضع كل ورقة لمراجعة دقيقة من قبل خبراء مكلفين برصد أي خلل أو تزييف.

تُستخدم المراجع كمقياس للمسار المهني ومدى نفوذ الباحث بين أقرانه.
توليد الذكاء الاصطناعي لمراجع وهمية يضعف من قيمة العمل البحثي ككل.
فشل المراجعين في رصد هذه الأخطاء يشير إلى فجوة تقنية وبشرية متزايدة.

أزمة “تسونامي” الطلبات وضغط المراجعة

دافعت شركة GPTZero عن مراجعي الأقران، مشيرة إلى أن الهدف من دراستها هو تسليط الضوء على كيفية تسلل “النفايات الرقمية” الناتجة عن الذكاء الاصطناعي عبر ما وصفته بـ “تسونامي الطلبات”. هذا التدفق الهائل للأوراق البحثية وضع أنظمة المراجعة في المؤتمرات الكبرى تحت ضغط هائل وصل إلى نقطة الانهيار.

وأشارت الشركة إلى ورقة بحثية مرتقبة بعنوان “أزمة مراجعة الأقران في مؤتمرات الذكاء الاصطناعي”، والتي تناقش كيف أصبحت المؤتمرات الكبرى، بما في ذلك NeurIPS، عاجزة عن مواكبة حجم الإنتاج المدعوم بالذكاء الاصطناعي.

تساؤلات حول المستقبل

يبقى السؤال الجوهري قائماً: لماذا لم يقم الباحثون أنفسهم بالتحقق من دقة النتائج التي قدمتها النماذج اللغوية؟ من المفترض أن هؤلاء الخبراء هم الأكثر دراية بقائمة الأبحاث التي استندوا إليها في عملهم.

إن هذه الواقعة تحمل رسالة هامة للعالم؛ فإذا كان كبار خبراء الذكاء الاصطناعي في العالم، والذين يضعون سمعتهم على المحك، غير قادرين على ضمان دقة استخدامهم للنماذج اللغوية في التفاصيل الدقيقة، فما الذي يعنيه ذلك لبقية المستخدمين في القطاعات الأخرى؟

المصدر: TechCrunch