نماذج Voxtral الجديدة من Mistral AI: ثورة في الخصوصية والسرعة للنسخ الصوتي

نماذج Voxtral الجديدة من Mistral AI: ثورة في الخصوصية والسرعة للنسخ الصوتي

في كثير من الأحيان، قد ترغب في تحويل مقطع صوتي إلى نص مكتوب، لكنك تتردد في رفع بياناتك على الإنترنت خوفاً من وصول المتسللين إليها. قد تكون هذه البيانات محادثة مع طبيبك أو محاميك، أو ربما تكون صحفياً تجري مقابلة حساسة؛ وهنا تبرز أهمية الخصوصية والتحكم الكامل في البيانات.

هذه الرغبة في الخصوصية كانت المحرك الأساسي للمطور الفرنسي Mistral AI لبناء أحدث نماذج النسخ الصوتي (Transcription Models) لتكون صغيرة بما يكفي لتعمل محلياً على الأجهزة، سواء كان ذلك على هاتفك الذكي، حاسوبك المحمول، أو حتى في السحابة.

نماذج Voxtral: أحجام صغيرة وإمكانيات كبيرة

أعلنت الشركة يوم الأربعاء عن نموذج Voxtral Mini Transcribe 2، والذي وصفه بيير ستوك، نائب رئيس عمليات العلوم في Mistral، بأنه نموذج “صغير للغاية”. كما كشفت الشركة عن نموذج آخر وهو Voxtral Realtime، المصمم لأداء نفس المهام ولكن بشكل مباشر وفوري، تماماً مثل ميزة الترجمة المصاحبة (Closed Captioning).

لكن الخصوصية ليست السبب الوحيد الذي دفع الشركة لتطوير هذه النماذج مفتوحة المصدر وصغيرة الحجم. فمن خلال العمل مباشرة على الجهاز الذي تستخدمه، يمكن لهذه النماذج أن تعمل بشكل أسرع بكثير، حيث لن تضطر الملفات للانتقال عبر الإنترنت إلى مراكز البيانات ثم العودة مرة أخرى.

ويقول ستوك في هذا الصدد: “ما يريده المستخدم هو أن تحدث عملية النسخ في أقرب نقطة ممكنة منه، وأقرب نقطة يمكننا العثور عليها هي الأجهزة الطرفية (Edge Devices)، مثل الحاسوب المحمول، الهاتف، أو حتى الأجهزة القابلة للارتداء مثل الساعة الذكية”.

سرعة فائقة وزمن استجابة منخفض

يعتبر زمن الاستجابة المنخفض (Low Latency) أمراً بالغ الأهمية للنسخ الفوري. وأوضح ستوك أن نموذج Voxtral Realtime يمكنه توليد النصوص بزمن استجابة يقل عن 200 مللي ثانية، مما يعني أنه قادر على نسخ كلمات المتحدث بالسرعة التي تقرأ بها تقريباً، دون الحاجة للانتظار لثوانٍ حتى تلحق الترجمة المصاحبة بالكلام.

يتوفر نموذج Voxtral Realtime حالياً عبر واجهة برمجة التطبيقات (API) الخاصة بشركة Mistral وعلى منصة Hugging Face، بالإضافة إلى عرض تجريبي يتيح للمستخدمين اختباره بأنفسهم.

أداء عملي ودعم للغات متعددة

من خلال التجارب الأولية، أظهر النموذج سرعة جيدة في توليد النصوص ودقة عالية في التقاط الكلمات باللغة الإنجليزية مع تداخل بسيط للغة الإسبانية. ووفقاً لشركة Mistral، فإن النماذج قادرة حالياً على التعامل مع 13 لغة مختلفة.

أما نموذج Voxtral Mini Transcribe 2، فيتوفر أيضاً عبر واجهة برمجة التطبيقات أو من خلال AI Studio التابع للشركة. ورغم أدائه السريع والموثوق، إلا أنه واجه بعض الصعوبات مع الأسماء العلم؛ حيث أخطأ في كتابة اسم الشركة Mistral AI واسم النموذج نفسه Voxtral. ومع ذلك، أشار ستوك إلى أن المستخدمين يمكنهم تخصيص النموذج لفهم كلمات وأسماء ومصطلحات تقنية محددة بشكل أفضل إذا تم استخدامه لمهام متخصصة.

واختتم ستوك حديثه بالإشارة إلى أن التحدي الحقيقي في بناء نماذج ذكاء اصطناعي صغيرة وسريعة يكمن في الحفاظ على دقتها، حيث تفاخرت الشركة بأداء نماذجها في الاختبارات المعيارية التي أظهرت تحسناً في معدلات الخطأ مقارنة بالمنافسين. فالمسألة لا تقتصر على صغر الحجم، بل في تقديم نموذج صغير يتمتع بنفس جودة النماذج الضخمة.

المصدر: CNET

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *