عاجل
جارٍ تحميل الأخبار…

"زلزال في عالم الصوت".. مايكروسوفت تتحدى OpenAI بنموذج MAI-Transcribe-1 المتفوق

مايكروسوفت تطلق نموذج MAI-Transcribe-1 لتحويل الكلام إلى نص بمعدل خطأ 3.8% فقط. اكتشف كيف يتفوق على Whisper وGemini في كفاءة الصوت والذكاء الاصطناعي.

أطلقت شركة Microsoft الأمريكية، يوم الخميس، نموذجها الجديد لتحويل الكلام إلى نص MAI-Transcribe-1 في نسخة تجريبية عامة عبر منصة Microsoft Foundry؛ إذ أعلنت الشركة أن النموذج الجديد يتفوق تقنياً على منافسيه الأبرز Whisper من شركة OpenAI وGemini Flash من شركة Google، مشيرة إلى قدرته الفائقة على معالجة التسجيلات في ظروف بيئية صعبة وتقليل الضوضاء الخلفية بكفاءة غير مسبوقة.

مايكروسوفت تتحدى OpenAI بنموذج MAI-Transcribe-1 المتفوق

وكشفت مايكروسوفت في بيان تقني لها، يوم الخميس الموافق 2 أبريل 2026، أن النموذج يعتمد على بنية "المحول" (Transformer) مع مشفر صوتي ثنائي الاتجاه، مؤكدة أنه حقق أدنى معدل خطأ في الكلمات (Word Error Rate) بنسبة 3.8% فقط وفقاً لمقياس FLEURS العالمي، لافتة إلى أن هذا الإطلاق يمثل خطوة استراتيجية لتقليل الاعتماد الكلي على نماذج شريكتها OpenAI وتعزيز محفظة منتجاتها السيادية من الذكاء الاصطناعي.

قدرات تقنية وتفوق لغوي

أوضحت الشركة أن MAI-Transcribe-1 يدعم حالياً 25 لغة عالمية، بما في ذلك العربية والإنجليزية واليابانية والكورية، لافتة إلى أن النموذج صُمم خصيصاً للتعامل مع التداخل في الكلام وتحسين جودة الصوت المنخفضة، ومؤكدة عزمها إضافة ميزات متقدمة قريباً تشمل "الديارزة" (Diarization) لفصل المتحدثين، والمعالجة اللحظية (Streaming) لتدفق النصوص أثناء التسجيل، فضلاً عن الانحياز السياقي للمصطلحات التخصصية.

وشدد مصطفى سليمان، رئيس قسم الذكاء الاصطناعي في مايكروسوفت، على أن رؤية الشركة تتركز حول بناء "ذكاء اصطناعي إنساني" يضع البشر في المركز، مؤكداً أن النموذج متاح حالياً لتشغيل الوضع الصوتي في مساعد Copilot، ومضيفاً أن المطورين يمكنهم استخدامه في تطبيقات متنوعة مثل التعليق المباشر، وأرشفة الوسائط، والتعلم الإلكتروني، مع خيارات مرنة للتشغيل عبر السحابة أو في مراكز البيانات الخاصة (On-premises).

التأطير الاستراتيجي وحرب النماذج

يضع هذا التحرك شركة Microsoft في مواجهة مباشرة مع حلفائها ومنافسيها على حد سواء؛ إذ يأتي إطلاق MAI-Transcribe-1 جنباً إلى جنب مع نموذج توليد الصور MAI-Image-2 ونموذج الصوت MAI-Voice-1، مما يعكس رغبة العملاق التقني في السيطرة على كامل سلاسل القيمة في الذكاء الاصطناعي التوليدي، لاسيما في ظل التقارير التي تتحدث عن توتر مكتوم في العلاقة مع OpenAI مع تحول الشركتين إلى متنافسين في سوق المنتجات الاستهلاكية والمؤسسية.

وأفاد مراقبون بأن تسعير النموذج الجديد، الذي يبدأ من 0.18 دولار للساعة في وضع المعالجة الجماعية (Batch) ويصل إلى دولار واحد للنسخ اللحظي، يمنح مايكروسوفت ميزة تنافسية هائلة في سوق خدمات النسخ الصوتي العالمي؛ إذ توفر الشركة أيضاً خطة مجانية تمنح المطورين خمس ساعات صوتية شهرياً لجذب المبتكرين، مؤكدين أن امتلاك الشركة لبنية تحتية ضخمة تضم آلاف وحدات المعالجة NVIDIA H100 ومجموعة GB200 الجديدة كلياً يمنح نماذجها من عائلة MAI تفوقاً هيكلياً في السرعة والتكلفة على حد سواء.

وشدد الخبراء على أن قدرة MAI-Transcribe-1 على إنتاج دقيقة كاملة من الصوت في أقل من ثانية واحدة عبر وحدة معالجة رسومية واحدة (GPU) تعد طفرة في كفاءة الأنظمة الصوتية، لافتين إلى أن التحدي القادم يكمن في مدى قدرة OpenAI على الحفاظ على صدارتها اللغوية الواسعة — التي تدعم 99 لغة — أمام الزحف التقني المتسارع والمركز لشريكتها الكبرى في اللغات الأكثر استخداماً عالمياً، ليبقى ملف السيادة البرمجية في عصر الذكاء الاصطناعي مفتوحاً على كافة الاحتمالات التنافسية.

إرسال تعليق