عام وكلاء الذكاء الاصطناعي: طفرة في الأداء وصمت في الأمان
يعيش مجال “وكلاء الذكاء الاصطناعي” (AI Agents) حالياً لحظة فارقة. فبين الانتشار الواسع لمشاريع مثل OpenClaw وMoltbook، وخطط شركة OpenAI لرفع ميزات وكلائها إلى مستويات غير مسبوقة، قد يكون عام 2024 هو بامتياز “عام الوكيل”.
السبب وراء هذا الزخم واضح؛ فهذه الأنظمة تمتلك القدرة على التخطيط، كتابة البرمجيات، تصفح الويب، وتنفيذ مهام متعددة الخطوات بحد أدنى من الإشراف البشري، بل إن بعضها يعد بإدارة سير عملك بالكامل، بينما يتولى البعض الآخر التنسيق بين الأدوات والأنظمة المختلفة على سطح مكتبك.
لكن خلف هذا الجذب الواضح تكمن معضلة؛ فهذه الأنظمة لا تكتفي بالرد على استفساراتك، بل “تتصرف” نيابة عنك. وعندما قام الباحثون في مؤشر معهد ماساتشوستس للتكنولوجيا لوكلاء الذكاء الاصطناعي (MIT AI Agent Index) بتصنيف 67 نظاماً من الوكلاء المنتشرين، وجدوا أمراً مثيراً للقلق.
فجوة في التوثيق والتقييمات الخارجية
يبدو المطورون متحمسين للغاية لوصف ما يمكن لوكلائهم فعله، لكنهم أقل حماساً بكثير لوصف مدى أمان هذه الأنظمة. كتب الباحثون في ورقتهم العلمية: “يقوم مطورو الذكاء الاصطناعي والشركات الناشئة الرائدة بنشر أنظمة وكلاء بشكل متزايد، ولكن لا يوجد حالياً إطار عمل منظم لتوثيق ميزات الأمان لهذه الأنظمة”.
تظهر هذه الفجوة بوضوح في الأرقام؛ فحوالي 70% من الوكلاء الذين شملهم المؤشر يوفرون وثائق تقنية، ونحو نصفهم ينشر الكود المصدري. ومع ذلك، فإن 19% فقط يفصحون عن سياسة أمان رسمية، وأقل من 10% يقدمون تقارير حول تقييمات أمان خارجية.
تؤكد الأبحاث أنه بينما يسارع المطورون للتباهي بالقدرات والتطبيقات العملية لأنظمة الوكلاء، فإنهم يقدمون معلومات محدودة للغاية فيما يتعلق بالمخاطر، مما ينتج عنه نوع من “الشفافية غير المتوازنة”.
ما الذي يجعل “الوكيل” مختلفاً عن روبوت الدردشة؟
كان الباحثون دقيقين في اختيار الأنظمة التي خضعت للدراسة؛ فليس كل روبوت دردشة (Chatbot) يعتبر وكيلاً. لكي يتم إدراج النظام، يجب أن يعمل بأهداف غير محددة بدقة، ويسعى لتحقيقها بمرور الوقت، كما يجب أن يتخذ إجراءات تؤثر في البيئة الرقمية بحد أدنى من التدخل البشري.
هذه الأنظمة هي التي تقرر الخطوات الوسيطة لنفسها، حيث يمكنها تقسيم التعليمات الواسعة إلى مهام فرعية، واستخدام الأدوات، والتخطيط، والتنفيذ، والتكرار. هذه الاستقلالية هي ما يمنحها القوة، وهي أيضاً ما يرفع سقف المخاطر.
مخاطر تتجاوز مجرد النصوص الخطأ
عندما يخطئ نموذج لغوي يولد النصوص، فإن فشله يقتصر عادةً على تلك المخرجات النصية. ولكن عندما يتمكن وكيل الذكاء الاصطناعي من الوصول إلى الملفات، أو إرسال رسائل البريد الإلكتروني، أو إجراء عمليات شراء، أو تعديل المستندات، فإن الأخطاء والثغرات قد تكون مدمرة وتنتشر عبر خطوات متسلسلة. ومع ذلك، وجد الباحثون أن معظم المطورين لا يفصحون علناً عن كيفية اختبارهم لهذه السيناريوهات.
النمط الأكثر وضوحاً في الدراسة هو أن المطورين مرتاحون لمشاركة العروض التوضيحية (Demos) واختبارات الأداء (Benchmarks) وسهولة الاستخدام، لكنهم يفتقرون للاتساق في مشاركة تقييمات الأمان، أو إجراءات الاختبار الداخلي، أو عمليات تدقيق المخاطر من قبل طرف ثالث.
يختتم تقرير MIT بالتأكيد على أن التكنولوجيا تتسارع بشكل مذهل، ولكن “حواجز الحماية” (Guardrails) -على الأقل المعلن عنها- لا تزال بعيدة عن مواكبة هذا التسارع، مما يجعل الشفافية حول الأمان ضرورة ملحة مع انتقال هذه الأنظمة من مجرد نماذج تجريبية إلى جهات فاعلة رقمية مدمجة في صميم أعمالنا الحساسة.
المصدر: CNET


اترك تعليقاً