فجوة بين التوقعات والواقع: هل وكلاء الذكاء الاصطناعي مستعدون لدخول سوق العمل الاحترافي؟

فجوة بين التوقعات والواقع: هل وكلاء الذكاء الاصطناعي مستعدون لدخول سوق العمل الاحترافي؟

تحديات أتمتة الوظائف المرموقة في ظل المعايير الجديدة

مرت قرابة سنتين منذ أن توقع ساتيا ناديا، الرئيس التنفيذي لشركة مايكروسوفت، أن الذكاء الاصطناعي سيحل محل العمل المعرفي، وهي الوظائف التي يشغلها المحامون، والمصرفيون الاستثماريون، والمحاسبون، وغيرهم من ذوي الياقات البيضاء. ومع ذلك، ورغم التطور المذهل للنماذج اللغوية الكبيرة، لا يزال التغيير الجذري في هذه القطاعات يسير بخطى وئيدة.

أظهرت أبحاث جديدة صادرة عن شركة Mercor — وهي شركة تقنية ناشئة متخصصة في توفير بيانات التدريب عالية الجودة وتدير سوقاً لربط الخبراء بالشركات — إجابات حول سبب هذا التباطؤ. من خلال دراستها لكيفية أداء النماذج الرائدة في مهام واقعية مستمدة من مجالات الاستشارات، والخدمات المصرفية الاستثمارية، والقانون، أطلقت الشركة معياراً جديداً أسمته APEX-Agents.

نتائج مخيبة للآمال لكبرى مختبرات الذكاء الاصطناعي

وفقاً للمعيار الجديد، رسبت جميع مختبرات الذكاء الاصطناعي الكبرى في الاختبار حتى الآن. فلدى مواجهتها باستفسارات حقيقية من مهنيين متخصصين، كافحت أفضل النماذج لتتجاوز نسبة 25% من الإجابات الصحيحة. وفي معظم الحالات، قدمت النماذج إجابات خاطئة أو لم تقدم إجابة على الإطلاق.

وأوضح الباحث بريندان فودي، الذي شارك في إعداد الدراسة، أن نقطة الضعف الكبرى للنماذج تكمن في تتبع المعلومات عبر نطاقات متعددة، وهو أمر جوهري في معظم الأعمال المعرفية التي يقوم بها البشر. اعتمدت السيناريوهات المطروحة في الاختبار على مهنيين حقيقيين من منصة Mercor، حيث صاغوا الأسئلة ووضعوا معايير الاستجابة الناجحة.

  • التعقيد القانوني: تضمن الاختبار أسئلة تتطلب تقييماً عميقاً لسياسات الشركات وقوانين الخصوصية المعقدة، مثل اللائحة العامة لحماية البيانات (GDPR) في الاتحاد الأوروبي.
  • القدرة على الربط: فشلت النماذج في ربط البيانات المبعثرة للوصول إلى استنتاج مهني سليم.

الفارق بين APEX-Agents ومعايير OpenAI

بينما حاولت OpenAI قياس المهارات المهنية عبر معيارها الخاص GDPVal، يختلف معيار APEX-Agents في جوانب جوهرية. فبينما يختبر GDPVal المعرفة العامة عبر مجموعة واسعة من المهن، يركز APEX على قدرة النظام على تنفيذ مهام مستمرة ومعقدة في مجموعة ضيقة من المهن عالية القيمة. هذا يجعل الاختبار أكثر صعوبة، ولكنه أيضاً أكثر ارتباطاً بمدى إمكانية أتمتة هذه الوظائف فعلياً.

من يتصدر السباق رغم التراجع؟

رغم أن النتائج لم تكن كافية لإحلال الذكاء الاصطناعي محل المصرفيين الاستثماريين، إلا أن بعض النماذج كانت أقرب للهدف من غيرها:

  • Gemini 3 Flash: تصدر القائمة بدقة بلغت 24%.
  • GPT-5.2: جاء في المركز الثاني بنسبة 23%.
  • Opus 4.5 وGPT-5: سجلت هذه النماذج دقة بلغت حوالي 18%.

تاريخياً، اعتاد قطاع الذكاء الاصطناعي على تجاوز المعايير الصعبة بسرعة. ومع طرح اختبار APEX للعلن، بات التحدي مفتوحاً أمام المختبرات التي تعتقد بقدرتها على تقديم أداء أفضل، وهو أمر يتوقع فودي حدوثه في الأشهر القليلة القادمة.

المصدر: TechCrunch

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *