أطلق أمس مركز (إنسبشن) Inception للذكاء الاصطناعي التابع لمجموعة (G42) الإماراتية – المتخصصة في الذكاء الاصطناعي والحوسبة السحابية – الإصدار المفتوح المصدر من نموذج (جيس) Jais، وهو النموذج اللغوي الكبير باللغة العربية الأعلى جودة على مستوى العالم، نتيجة استناده إلى 13 مليار مؤشر، وتدربه على مجموعة بيانات مطورة تتضمن 395 مليار رمز باللغتين العربية والإنجليزية.
يستمد نموذج (جيس) Jais اسمه من أعلى قمة في دولة الإمارات العربية المتحدة، ليقدم مزايا الذكاء الاصطناعي التوليدي إلى العالم العربي، وهو ثمرة تعاون بين مركز (إنسبشن) التابع لمجموعة (G42)، وجامعة محمد بن زايد للذكاء الاصطناعي، وشركة (Cerebras) وهي شركة أمريكية متخصصة في صناعة الرقائق.
إليك كل ما تحتاج إلى معرفته عن (جيس) Jais نموذج الذكاء الاصطناعي العربي الأعلى جودة في العالم:
أولًا؛ ما مزايا نموذج (جيس) Jais؟
يُعد (جيس) نموذجًا لغويًا كبيرًا قائمًا على المحولات، ويستخدم العديد من المزايا المتطورة، ومنها: مزية الانتباه للتحيزات الخطية (ALiBi) التي تمكن النموذج من استقراء تسلسل طويل لتوفير سياق أفضل وأدق.
ومن التقنيات الرائدة التي يستخدمها النموذج أيضًا دالة تنشيط الوحدات الخطية المسورة (SwiGLU)، وتحديد معلِّمات الحد الأقصى للتحديث، بغية تعزيز كفاءة تدريب النموذج ودقته.
وكما ذكرنا سابقًا؛ يستند نموذج (جيس) في عمله إلى 13 مليار مؤشر، ودُرب على مجموعة بيانات متطورة تتضمن 395 مليار رمز باللغتين العربية والإنجليزية.
وعمل فريقا جامعة محمد بن زايد للذكاء الاصطناعي ومركز (إنسبشن) على تقييم نموذج (جيس) وتعديله، بعد تدريبه على مجموعة بيانات مخصصة تتضمن 116 مليار رمز متميز (tokens) باللغة العربية لاستيعاب تعقيد وتنوع وغِنى هذه اللغة.
وأوضح (تيموثي بولدوين) Timothy Baldwin أستاذ الذكاء الاصطناعي في جامعة محمد بن زايد، أنه بسبب عدم توافر بيانات عربية كافية لتدريب نموذج بحجم (جيس)، ساعد الكود داخل بيانات اللغة الإنجليزية على شحذ قدرة النموذج على التفكير.
وقال: “إن هذا الكود الموجود في بيانات اللغة الإنجليزية يمنح النموذج دفعة كبيرة فيما يتعلق بالقدرة على التفكير لأنه يوضح الخطوات المنطقية”.
واُستخدم في تدريب النموذج حاسوب الذكاء الاصطناعي الفائق كوندور جالاكسي1 (CG-1)، الذي طُور بالتعاون بين شركتي (G42)، و(Cerebras). وتضمنت مجموعة البيانات 279 مليار رمز متميز باللغة الإنجليزية لضمان الارتقاء بأداء النموذج عبر التحويل الثنائي اللغة.
وسيواصل مركز إنسبشن وجامعة محمد بن زايد للذكاء الاصطناعي تحسين النموذج وتوسيع نطاقه لمواكبة نمو مجتمع مستخدميه.
ثانيًا؛ هل هناك نماذج لغوية أخرى باللغة العربية؟
يُعد إطلاق نموذج (جيس) محطة بالغة الأهمية في مجال الذكاء الاصطناعي في العالم العربي؛ فهذا النموذج المطوَّر في أبوظبي، يتيح لأكثر من 400 مليون متحدث باللغة العربية إمكانية استكشاف القدرات الكامنة للذكاء الاصطناعي التوليدي، ويعزز مكانة دولة الإمارات مركزاً رائداً للذكاء الاصطناعي والابتكار وصون الثقافة والتعاون الدولي.
ولكن سبق لدولة الإمارات العربية المتحدة أن طورت نموذجًا لغويًا كبيرًا مفتوح المصدر (LLM) أيضًا، يُعرف باسم (Falcon)، وقد طُور هذا النموذج في معهد الابتكار التكنولوجي – وهو مركز الأبحاث العلمية الرائد عالميًا وذراع الأبحاث التطبيقية لمجلس أبحاث التكنولوجيا المتقدمة في أبوظبي – باستخدام أكثر من 300 شريحة من شركة (إنفيديا) Nvidia.
وفي وقت سابق من هذا العام، وقعت شركة (Cerebras) صفقة بقيمة 100 مليون دولار لتزويد تسعة حواسيب عملاقة لشركة G42، وهو أحد أكبر العقود من نوعها لمنافس محتمل لشركة (إنفيديا) التي تعاني منتجاتها من نقص المعروض، وذلك بفضل الشعبية المتزايدة لأدوات الذكاء الاصطناعي التوليدي.
تتمتع النماذج اللغوية الكبيرة الأكثر تقدمًا اليوم – مثل: نموذج ( GPT-4) الذي يعمل به (ChatGPT)، ونموذج (PaLM) الذي يعمل به روبوت جوجل Bard – بالقدرة على فهم باللغة العربية وإنشاء نصوص منها، ولكنها لا تقدم الدقة التي يقدمها نموذج (جيس).
وقال أندرو جاكسون، الرئيس التنفيذي لمركز (إنسبشن) للذكاء الاصطناعي: “إن العنصر العربي في النماذج اللغوية الكبيرة الحالية، التي يمكن أن تعمل بما يصل إلى 100 لغة مخفف بشدة”.
وقال (بولدوين): “إن جيس صُمم أيضًا للحصول على فهم أكثر دقة لثقافة المنطقة العربية وسياقها، على عكس معظم النماذج التي تركز على الولايات المتحدة”.
لذلك فإن أداء نموذج جيس أفضل من نموذج (Falcon)، والنماذج اللغوية الكبيرة العالمية عند قياس دقته في اللغة العربية، وفقًا لمطوريه.
ثالثًا؛ التفوق على النماذج اللغوية العربية بفارق كبير:
يسعى مركز إنسبشن من خلال فتح الشيفرة المصدرية لنموذج جيس إلى تحفيز مشاركة المجتمعات العلمية والأكاديمية والمطورين في تسريع نمو منظومة حيوية للذكاء الاصطناعي باللغة العربية، والارتقاء بمستوى الابتكار في هذا المجال، وقد يشكل جيس نموذجًا يحتذى به للغات أخرى لا تحظى حاليًا بدرجة كافية من التمثيل في بيئات الذكاء الاصطناعي الرائجة.
وقال (أندرو جاكسون): “نؤمن في إنسبشن بأن التعاون هو أساس الازدهار. ونرسي اليوم معيارًا جديدًا لتقدم الذكاء الاصطناعي في منطقة الشرق الأوسط يضمن مكانة متميزة للغة العربية بكل ثرائها وإرثها في مشهد الذكاء الاصطناعي. ويعكس (جيس) التزامنا الراسخ بالتميز والابتكار ونشر منظومة الذكاء الاصطناعي على نطاق أوسع”.
ويبيِّن تقييم أداء نموذج جيس تفوقه على النماذج اللغوية العربية الحالية بهامش كبير، ومنافسته للنماذج اللغوية الإنجليزية، على الرغم من تلقيه تدريبًا أقل على بيانات اللغة الإنجليزية. وتُظهر النتائج أن جانب اللغة الإنجليزية من النموذج تعلم من بيانات اللغة العربية والعكس صحيح، ما يفتح آفاق حقبة جديدة لتطوير النماذج اللغوية الكبيرة وتدريبها.
وقال البروفيسور (إيريك زينغ) Eric Xing، رئيس جامعة محمد بن زايد للذكاء الاصطناعي والبروفيسور الجامعي: “تطلب تطوير نموذج لغوي كبير للغة العربية من هذا المستوى إجراء أبحاث متقدمة في مجال الذكاء الاصطناعي، والوصول إلى فهم عميق للغة العربية بتنوعها وإرثها الغني. ولأن النماذج اللغوية الكبيرة تكتسب أهمية متزايدة في المجتمع، ستواصل جامعة محمد بن زايد للذكاء الاصطناعي ريادةَ النماذج اللغوية الكبيرة عالية الكفاءة والفاعلية والدقة”.
يمكن تنزيل نموذج (جيس) من موقع (Hugging Face)، ويمكن للمستخدمين تجربته بالتسجيل في الموقع الإلكتروني للنموذج وتلقي دعوة للوصول إليه.