"زلزال في عالم الصوت".. مايكروسوفت تتحدى OpenAI بنموذج MAI-Transcribe-1 المتفوق

أطلقت شركة Microsoft الأمريكية، يوم الخميس، نموذجها الجديد لتحويل الكلام إلى نص MAI-Transcribe-1 في نسخة تجريبية عامة عبر منصة Microsoft Foundry؛ إذ أعلنت الشركة أن النموذج الجديد يتفوق تقنياً على منافسيه الأبرز Whisper من شركة OpenAI وGemini Flash من شركة Google، مشيرة إلى قدرته الفائقة على معالجة التسجيلات في ظروف بيئية صعبة وتقليل الضوضاء الخلفية بكفاءة غير مسبوقة.

وكشفت مايكروسوفت في بيان تقني لها، يوم الخميس الموافق 2 أبريل 2026، أن النموذج يعتمد على بنية "المحول" (Transformer) مع مشفر صوتي ثنائي الاتجاه، مؤكدة أنه حقق أدنى معدل خطأ في الكلمات (Word Error Rate) بنسبة 3.8% فقط وفقاً لمقياس FLEURS العالمي، لافتة إلى أن هذا الإطلاق يمثل خطوة استراتيجية لتقليل الاعتماد الكلي على نماذج شريكتها OpenAI وتعزيز محفظة منتجاتها السيادية من الذكاء الاصطناعي.

قدرات تقنية وتفوق لغوي

أوضحت الشركة أن MAI-Transcribe-1 يدعم حالياً 25 لغة عالمية، بما في ذلك العربية والإنجليزية واليابانية والكورية، لافتة إلى أن النموذج صُمم خصيصاً للتعامل مع التداخل في الكلام وتحسين جودة الصوت المنخفضة، ومؤكدة عزمها إضافة ميزات متقدمة قريباً تشمل "الديارزة" (Diarization) لفصل المتحدثين، والمعالجة اللحظية (Streaming) لتدفق النصوص أثناء التسجيل، فضلاً عن الانحياز السياقي للمصطلحات التخصصية.

وشدد مصطفى سليمان، رئيس قسم الذكاء الاصطناعي في مايكروسوفت، على أن رؤية الشركة تتركز حول بناء "ذكاء اصطناعي إنساني" يضع البشر في المركز، مؤكداً أن النموذج متاح حالياً لتشغيل الوضع الصوتي في مساعد Copilot، ومضيفاً أن المطورين يمكنهم استخدامه في تطبيقات متنوعة مثل التعليق المباشر، وأرشفة الوسائط، والتعلم الإلكتروني، مع خيارات مرنة للتشغيل عبر السحابة أو في مراكز البيانات الخاصة (On-premises).

التأطير الاستراتيجي وحرب النماذج

يضع هذا التحرك شركة Microsoft في مواجهة مباشرة مع حلفائها ومنافسيها على حد سواء؛ إذ يأتي إطلاق MAI-Transcribe-1 جنباً إلى جنب مع نموذج توليد الصور MAI-Image-2 ونموذج الصوت MAI-Voice-1، مما يعكس رغبة العملاق التقني في السيطرة على كامل سلاسل القيمة في الذكاء الاصطناعي التوليدي، لاسيما في ظل التقارير التي تتحدث عن توتر مكتوم في العلاقة مع OpenAI مع تحول الشركتين إلى متنافسين في سوق المنتجات الاستهلاكية والمؤسسية.

وأفاد مراقبون بأن تسعير النموذج الجديد، الذي يبدأ من 0.18 دولار للساعة في وضع المعالجة الجماعية (Batch) ويصل إلى دولار واحد للنسخ اللحظي، يمنح مايكروسوفت ميزة تنافسية هائلة في سوق خدمات النسخ الصوتي العالمي؛ إذ توفر الشركة أيضاً خطة مجانية تمنح المطورين خمس ساعات صوتية شهرياً لجذب المبتكرين، مؤكدين أن امتلاك الشركة لبنية تحتية ضخمة تضم آلاف وحدات المعالجة NVIDIA H100 ومجموعة GB200 الجديدة كلياً يمنح نماذجها من عائلة MAI تفوقاً هيكلياً في السرعة والتكلفة على حد سواء.

وشدد الخبراء على أن قدرة MAI-Transcribe-1 على إنتاج دقيقة كاملة من الصوت في أقل من ثانية واحدة عبر وحدة معالجة رسومية واحدة (GPU) تعد طفرة في كفاءة الأنظمة الصوتية، لافتين إلى أن التحدي القادم يكمن في مدى قدرة OpenAI على الحفاظ على صدارتها اللغوية الواسعة — التي تدعم 99 لغة — أمام الزحف التقني المتسارع والمركز لشريكتها الكبرى في اللغات الأكثر استخداماً عالمياً، ليبقى ملف السيادة البرمجية في عصر الذكاء الاصطناعي مفتوحاً على كافة الاحتمالات التنافسية.

ZABFIX

"زلزال في عالم الصوت".. مايكروسوفت تتحدى OpenAI بنموذج MAI-Transcribe-1 المتفوق

قدرات تقنية وتفوق لغوي

التأطير الاستراتيجي وحرب النماذج

عبدالرحمن الشورى

إرسال تعليق

تكلفة تغيير بطارية الايفون 2026: الأصلية مقابل الخارجية بالأسعار الحقيقية

الايفون لا يتصل بالواي فاي؟ ٧ حلول مجربة خطوة بخطوة

إطلاق أول لعبة واقع افتراضي لسلاحف النينجا وسط تقييمات متباينة.. Teenage Mutant Ninja Turtles: Empire City تُقدم تجربة "كوابونجا" في الـ VR

مايكروسوفت تُطلق وضع Xbox على جميع أجهزة Windows 11 في موعده المحدد تحويلاً للحاسوب إلى تجربة ألعاب شبيهة بالأجهزة المنزلية

هواوي تكشف عن Nova 15 Max وMatePad Pro Max في حدث بانكوك المرتقب يوم 7 مايو وسط توقعات كبيرة بتجربة متكاملة للمنزل الذكي

سامسونج تطلق Galaxy Book6 Enterprise Edition أول حاسوب محمول مخصص للمؤسسات بمعالجات Intel Core Ultra مع vPro وميزات Galaxy AI المتقدمة

دراسة علمية تكشف أن الفراشات أعادت استخدام نفس الجينين على مدى 120 مليون سنة مما يشير إلى أن التطور أكثر قابلية للتنبؤ مما كان يُعتقد