أصدرت ميتا نموذجًا جديدًا لتحويل الكلام إلى نص يمكنه ترجمة ما يقرب من 100 لغة، حيث تواصل الشركة محاولة إنشاء مترجم عالمي.
وأطلقت الشركة على النموذج الجديد اسم SeamlessM4T، التي تعني الترجمة الآلية المتعددة اللغات والمتعددة الوسائط.
وقالت الشركة: “هذا النموذج قادر على ترجمة الكلام إلى نص وترجمة من النص إلى نص لنحو 100 لغة. بالنسبة لإجراءات تحويل الكلام إلى كلام وتحويل النص إلى كلام، فإن النموذج يتعرف على 100 لغة إدخال ويحولها إلى 35 لغة إخراج”.
وأصدرت ميتا النموذج بموجب ترخيص Creative Commons CC BY-NC 4.0، مما يسمح للباحثين بمراجعته.
وإلى جانب SeamlessM4T، أصدرت ميتا أيضًا البيانات الوصفية لمجموعة بيانات الترجمة المفتوحة SeamlessAlign. وقال ميتا: “يمثل بناء مترجم لغة عالمي تحديًا لأن الأنظمة الحالية لتحويل الكلام إلى كلام وتحويل الكلام إلى نص لا تغطي سوى جزء صغير من لغات العالم”.
وأشارت الشركة إلى أن SeamlessM4T يمثل إنجازًا كبيرًا لأن هذا النموذج الجديد يؤدي مهمة الترجمة بأكملها دفعة واحدة، على عكس نماذج الترجمة الكبيرة الأخرى التي تقسم الترجمة عبر أنظمة مختلفة.
وتتمثل إحدى مميزات SeamlessM4T في قدرته على التعرف عندما ينتقل شخص ما بين لغتين أو أكثر في جملة واحدة. وأظهرت ميتا في مقطع فيديو أن النموذج يميز على الفور بين الهندية والتيلجو والإنجليزية.
ويعتمد SeamlessM4T على نماذج الترجمة السابقة من ميتا، حيث أصدرت الشركة في العام الماضي نموذجها للترجمة الآلية من النص إلى نص، الذي يدعم 200 لغة.
وطورت الشركة SpeechMatrix، وهي مجموعة بيانات لترجمة الكلام إلى كلام متعددة اللغات والتعرف على الكلام المتعدد اللغات على نطاق واسع.
وجربت الشركة في العام الماضي مترجمها العالمي للكلام، حيث حول لغة هوكين المنطوقة، وهي لغة مستخدمة على نطاق واسع في الصين ولا تتمتع بنظام كتابة رسمي، إلى اللغة الإنجليزية.
وتعتبر الترجمة اللغوية مهمة لشركة ميتا، التي توظف آلاف الأشخاص لإدارة منشورات فيسبوك وإنستاجرام باللغات المختلفة. وتخصص الشركة فرق صغيرة لللغات غير الرئيسية وتلجأ إلى الإشراف الآلي الذي يعمل بشكل سيئ مع تلك اللغات.
ويمكن للذكاء الاصطناعي، إذا مُنح إمكانية الوصول إلى مجموعة بيانات هذه اللغات الصغيرة، أن يكون أداة مهمة لشركة ميتا من أجل تحسين الإشراف.
وأصدرت الشركة العديد من نماذجها للذكاء الاصطناعي للمطورين والباحثين بطريقة مفتوحة المصدر إلى حد ما.
وطرحت مؤخرًا AudioCraft، وهي تعليمات برمجية تسمح بتحويل النص إلى صوت، وأتاحت ميتا أيضًا إمكانية الوصول إلى نموذج اللغة الكبير Llama 2.