تحديات الموثوقية العلمية في الذكاء الاصطناعي التوليدي: دراسة تكشف فجوات في أداء ChatGPT

مقدمة: هل يمكن الوثوق بالذكاء الاصطناعي كحكم علمي؟

في ظل الطفرة المتسارعة التي تشهدها تقنيات الذكاء الاصطناعي التوليدي، أصبح الاعتماد على أدوات مثل ChatGPT في تلخيص الأبحاث وتحليل الفرضيات العلمية أمراً شائعاً. ومع ذلك، تثير دراسة حديثة قادها البروفيسور مسعود جيجك من جامعة ولاية واشنطن (WSU) تساؤلات جوهرية حول مدى قدرة هذه النماذج على إدراك الحقيقة العلمية. تسلط الدراسة الضوء على الفجوة المقلقة بين قدرة الآلة على صياغة نصوص مقنعة وبين قدرتها الفعلية على التمييز بين الفرضيات الصحيحة والخاطئة.

المنهجية: اختبار الصرامة والاستمرارية

لتقييم أداء النموذج، قام الفريق البحثي بإخضاع ChatGPT لاختبار منهجي مكثف شمل 719 فرضية علمية مستمدة من أبحاث منشورة في مجلات إدارة الأعمال المرموقة منذ عام 2021. تميزت هذه الدراسة ببروتوكول صارم؛ حيث لم يكتفِ الباحثون بطرح السؤال مرة واحدة، بل كرروا كل سؤال 10 مرات متتالية لقياس مدى اتساق الإجابات.

شملت التجارب نسختين من النموذج: ChatGPT-3.5 في عام 2024، والنسخة المحدثة ChatGPT-5 mini في عام 2025. كان الهدف هو رصد التطور في القدرة التحليلية وما إذا كان التحديث التقني يترجم إلى دقة علمية أعلى في التعامل مع القضايا المعقدة التي تتطلب استنتاجاً منطقياً بدلاً من مجرد استرجاع المعلومات.

نتائج الأداء: دقة مضللة ومعدلات نجاح ضعيفة

كشفت النتائج الأولية أن ChatGPT أجاب بشكل صحيح بنسبة 76.5% في عام 2024، وارتفعت هذه النسبة طفيفاً إلى 80% في عام 2025. ومع ذلك، يؤكد الباحثون أن هذه الأرقام قد تكون مخادعة؛ فعند ضبط النتائج لاستبعاد عامل «التخمين العشوائي» (Random Guessing)، انخفض مستوى الأداء الفعلي ليصبح أفضل بنسبة 60% فقط من الصدفة البحتة، وهو ما يعادل تقييماً أكاديمياً منخفضاً (Low D).

أبرز نقاط الضعف تجلت في قدرة النموذج على كشف «الادعاءات الزائفة»؛ حيث نجح في تحديد الفرضيات الخاطئة بنسبة ضئيلة لم تتجاوز 16.4%. علاوة على ذلك، أظهرت الدراسة تذبذباً حاداً في الإجابات؛ فرغم ثبات نص السؤال، قدم النموذج إجابات متناقضة (نعم ولا) لنفس الفرضية في عدة حالات، مما يعكس غياب القواعد المنطقية الثابتة في معالجة البيانات.

الأهمية العلمية: الطلاقة اللغوية لا تعني الفهم

تكمن الأهمية العلمية لهذه الدراسة في نقض المفهوم السائد بأن الطلاقة اللغوية للذكاء الاصطناعي تعكس فهماً إدراكياً. يوضح البروفيسور جيجك أن النماذج الحالية لا تمتلك «عقلاً» يحلل العالم كما نفعل نحن، بل هي أنظمة تعتمد على الأنماط الإحصائية وحفظ البيانات. إن قدرة النموذج على كتابة مقال علمي منمق لا تعني بالضرورة قدرته على استيعاب المفاهيم المتضمنة فيه.

هذه النتائج، المنشورة في دورية Rutgers Business Review، تعيد صياغة التوقعات حول «الذكاء الاصطناعي العام» (AGI)؛ إذ تشير إلى أن الوصول إلى آلة قادرة على التفكير النقدي والمنطقي الحقيقي لا يزال بعيد المنال أكثر مما يتوقعه الكثيرون في الوسط التقني.

الآفاق المستقبلية وضرورة الحذر الرقمي

توصي الدراسة بضرورة توخي الحذر الشديد عند دمج الذكاء الاصطناعي في عمليات اتخاذ القرار الاستراتيجي أو البحث العلمي الأكاديمي. يجب على قادة الأعمال والباحثين التعامل مع مخرجات هذه الأدوات كمسودات أولية تحتاج دائماً إلى مراجعة بشرية دقيقة.

وفي الختام، يشدد الباحثون على أهمية التعليم والتدريب لفهم حدود الذكاء الاصطناعي؛ فالتحدي القادم ليس في كيفية استخدام هذه الأدوات فحسب، بل في كيفية الحفاظ على الشك المنهجي تجاه مخرجاتها. وكما صرح جيجك: “كن متشككاً دائماً.. أنا أستخدم الذكاء الاصطناعي، لكن عليك أن تكون حذراً للغاية عند الاعتماد عليه في استنتاج الحقائق”.

المصدر العلمي: ScienceDaily