تقنية

علي بابا

أطلقت وحدة الذكاء الاصطناعي والحوسبة السحابية التابعة لمجموعة “علي بابا” القابضة، المعروفة باسم “علي بابا كلاود”، أداة جديدة تحمل اسم Wan2.2-S2V، وذلك يوم الأربعاء. وتُعد هذه الأداة أحدث ما توصلت إليه الشركة في مجال الذكاء الاصطناعي المفتوح المصدر، وهي مصممة لتوليد مقاطع فيديو واقعية عالية الجودة تُشبه الأفلام، وذلك انطلاقًا من صورة ثابتة ومقطع صوتي.

علي بابا
علي بابا

وتُعتبر Wan2.2-S2V جزءًا من سلسلة نماذج الذكاء الاصطناعي Wan2.2 التي أطلقتها “علي بابا كلاود”، والتي كانت قد أعلنت عنها في وقت سابق كأول نموذج مفتوح المصدر قادر على إنتاج مقاطع فيديو طويلة وذات جودة عالية ضمن قطاع الذكاء الاصطناعي. ويمتاز هذا النموذج بدمجه لتقنية “مزيج الخبراء” أو ما يُعرف بـ Mixture of Experts (MoE)، وهي بنية هندسية متقدمة تُسهم في تعزيز كفاءة النموذج ودقته في توليد المحتوى.

تُعد تقنية “مزيج الخبراء” من الابتكارات المهمة في عالم الذكاء الاصطناعي، إذ تتيح للنموذج استخدام مجموعات متعددة من “الخبراء” أو الوحدات المتخصصة لمعالجة المهام المختلفة. وهذا يتيح للنظام التكيف بشكل أفضل مع سياقات متنوعة، مع تقليل استهلاك الموارد وتحسين الجودة في النتائج النهائية. وعند تطبيق هذه التقنية على إنتاج الفيديو، يصبح بالإمكان تقديم مقاطع أكثر دقة، وأكثر تعبيرًا، تجمع بين الانسيابية البصرية والصوتية بشكل متناغم.

ووفقًا لما ورد في تقرير نشره موقع “South China Morning Post (SCMP)”، فإن هذا النموذج الجديد يُمثل قفزة نوعية في مجال الذكاء الاصطناعي الإبداعي، نظرًا لما يقدمه من إمكانات واسعة في توليد محتوى مرئي من مصادر محدودة. حيث يمكن للمستخدمين، سواء كانوا مطورين أو فنانين رقميين، الاستفادة من هذه الأداة لتوليد مقاطع فيديو واقعية من مجرد صورة وصوت، دون الحاجة إلى أدوات إنتاج تقليدية.

وتسعى “علي بابا” من خلال هذا الابتكار إلى ترسيخ مكانتها العالمية في سباق الذكاء الاصطناعي، خاصة في ظل التنافس المتزايد بين شركات التكنولوجيا الكبرى لتطوير نماذج توليد المحتوى مثل الصور، النصوص، والمقاطع المصورة. ومن خلال تبني سياسة المصدر المفتوح، تُتيح الشركة المجال أمام المطورين والباحثين حول العالم لتجربة النموذج، تطويره، والبناء عليه في تطبيقات متنوعة، مما يعزز من بيئة الابتكار ويوسع نطاق استخدامه في قطاعات مختلفة مثل الإعلام، الألعاب، التعليم، والإنتاج الفني.

في المجمل، يُشكل إطلاق Wan2.2-S2V خطوة جديدة ضمن استراتيجية “علي بابا كلاود” الطموحة لتوسيع بصمتها في مجال الذكاء الاصطناعي التوليدي، مدفوعة بالاعتماد على تقنيات متقدمة مثل MoE، وبدعم من مجتمع مطوري المصدر المفتوح.

أعلنت شركة “علي بابا كلاود” يوم الأربعاء عن إصدار نموذجها الجديد Wan2.2-S2V ، الذي يُعد طفرة في تقنيات الرسوم المتحركة المدعومة بالذكاء الاصطناعي، ويُركز بشكل خاص على الرسوم المتحركة المعتمدة على الصوت . يُقدّم هذا النموذج أداءً واقعيًا للشخصيات الرقمية، قادرًا على محاكاة الحوار الطبيعي ، وتنفيذ عروض موسيقية متقنة ، مع دعم ديناميكي للتفاعل بين عدة شخصيات ضمن مشهد واحد . وتؤكد “علي بابا” أن هذا النموذج مخصص لتلبية احتياجات صناع المحتوى المحترفين، حيث يمكن استخدامه في ابتكار تمثيلات بصرية دقيقة تتماشى مع متطلبات سرد القصص السينمائي والتلفزيوني .

وتُشير الشركة إلى أن هذا التطور الكبير يعود إلى مجموعة البيانات السمعية والبصرية الواسعة التي تم تدريب النموذج عليها، والتي صُممت خصيصًا لسيناريوهات إنتاج الوسائط المرئية مثل الأفلام والمسلسلات التلفزيونية . يأتي ذلك ضمن جهود مستمرة من قبل شركات الذكاء الاصطناعي الصينية، مثل “علي بابا”، لتقليص الفجوة مع المنافسين الأميركيين في هذا المجال، من خلال تبني نهج مفتوح المصدر يُتيح لمطوري الطرف الثالث استخدام وتعديل وتوزيع النماذج بحرية، مما يعزز التعاون والابتكار.

وقد حققت النماذج السابقة Wan2.1 وWan2.2 شعبية كبيرة، حيث تجاوز عدد مرات تحميلها 6.9 مليون مرة عبر منصتي Hugging Face و ModelScope ، مما يعكس الإقبال الكبير على أدوات الذكاء الاصطناعي مفتوحة المصدر التي تقدمها الشركة.

يعتمد نموذج Wan2.2 على بنية تُعرف بـ  MoE (Mixture of Experts) ، والتي تقسم النموذج إلى شبكات فرعية تُعرف بـ”الخبراء”، حيث يتخصص كل خبير في معالجة جزء محدد من البيانات، مما يُحسن من دقة النموذج وأداءه في تنفيذ المهام المعقدة.

ولتلبية متطلبات الجودة البصرية المختلفة، يوفّر Wan2.2-S2V خيارين للدقة : دقة قياسية 480 بكسل، ودقة عالية 720 بكسل، مما يجعله مثاليًا لإنشاء محتوى لمنصات التواصل الاجتماعي وكذلك العروض التقديمية الاحترافية. كما يوفر النموذج خيارات متعددة لتأطير الفيديو، مثل المنظور العمودي ، و منظور الصدر، و منظور الجسم الكامل ، مما يُتيح مزيدًا من الحرية الإبداعية لصُنّاع المحتوى.

وأكد فريق تطوير النموذج، في تقرير تقني مرفق مع الإصدار، أن Wan2.2-S2V قادر على إنتاج مقاطع فيديو طويلة بدقة واستقرار بصري عالٍ، مع الحفاظ على التفاصيل والانسجام في الإطارات المختلفة. يُبرز هذا الإنجاز خطوة جديدة نحو تمكين الإبداع البشري من خلال أدوات الذكاء الاصطناعي المتقدمة.

ويأتي هذا الإصدار بعد أشهر من إعلان شركة “بايت دانس”، المالكة لمنصة “تيك توك”، عن نموذجها OmniHuman-1 ، والذي يُحوّل الصور والمقاطع الصوتية إلى مقاطع فيديو واقعية، ما يشير إلى تصاعد التنافس في مجال النماذج متعددة الوسائط بين الشركات الصينية الرائدة.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى