DeepSeek
أعلنت شركة DeepSeek الصينية الناشئة عن إطلاق نموذجها الجديد للذكاء الاصطناعي مفتوح المصدر Janus-Pro-7B، الذي أظهر تفوقاً جزئياً على نماذج منافسة مثل DALL-E 3 من OpenAI وStable Diffusion من Stability AI، وذلك بناءً على نتائج اختبارات معيارية لتوليد الصور.
وأشارت الشركة إلى أن النموذج الجديد سجل أداءً متفوقاً في التصنيفات المتعلقة بتوليد الصور بناءً على الأوصاف النصية، مما يعزز من مكانة DeepSeek كلاعب رئيسي في هذا المجال، وذلك وفقاً لتدوينة نشرتها على حسابها الرسمي في GitHub.
تحسينات رئيسية
حسَّنت الشركة الصينية استراتيجية تدريبها لجعل النموذج أكثر كفاءة في التعلم، حيث تم استبدال الاعتماد على مراحل تدريب متعددة باستخدام بيانات متنوعة بتركيز أكبر على التدريب الموحد باستخدام بيانات عالية الجودة.
وقد صممت الشركة نماذج صور باستخدام نموذج Janus Pro لتوليد الصور عبر DeepSeek، وهو ما أسهم في تعزيز استقرار التفاصيل في الصور المولّدة، مما أدى إلى تحسين دقة التفاصيل الناتجة عن النموذج.
كما قامت الشركة بتوسيع قاعدة البيانات التي يستخدمها النموذج، حيث أضافت 72 مليون صورة اصطناعية عالية الجودة إلى مجموعة البيانات ودمجتها مع صور حقيقية. هذا التوسع ساعد في تحسين قدرة النموذج على التعامل مع مجموعة واسعة من المهام وتوليد صور أكثر دقة واستقراراً.
يتوفر نموذج Janus-Pro في نسختين رئيسيتين: الأولى تحتوي على مليار وحدة (1B)، بينما النسخة الأكبر تحتوي على 7 مليارات وحدة (7B).
قدرات متطورة
يتميز نموذج Janus-Pro بقدرته الفائقة على فهم كل من النصوص والصور معاً، مما يجعله قادرًا على الإجابة عن أسئلة تتعلق بمحتوى الصور، بالإضافة إلى التعرف على العناصر والمشاهد المختلفة فيها. كما يستطيع النموذج إنشاء صور استنادًا إلى أوصاف نصية دقيقة.
على سبيل المثال، إذا قدم المستخدم وصفًا لمشهد يتضمن “كلب مستلقٍ على شرفة خشبية مع أوراق الخريف”، فإن النموذج قادر على توليد صورة تتوافق تمامًا مع هذا الوصف.
حقق نموذج Janus-Pro-7B نتائج استثنائية في الاختبارات المعيارية، حيث سجل 79.2 نقطة على مقياس MMBench فيما يتعلق بفهم الوسائط المتعددة، متفوقًا بذلك على الجيل السابق من Janus (69.4 نقطة) وعلى نموذج MetaMorph (75.2 نقطة). وفيما يخص توليد الصور من النصوص، سجل 0.80 نقطة على مقياس GenEval، متفوقًا على DALL-E 3 من OpenAI (0.67 نقطة) وStable Diffusion 3 Medium من Stability AI (0.74 نقطة).
قيود على الأداء
على الرغم من الأداء المميز للنموذج، إلا أنه يواجه حالياً بعض القيود، حيث يُنتِج صوراً بدقة 384×384 بكسل فقط، مما يؤثر على التفاصيل الدقيقة في الصور الناتجة، مثل ملامح الوجه الصغيرة التي قد تكون غير واضحة بما فيه الكفاية.
كما يواجه النموذج تحديات في أداء المهام التي تتطلب دقة عالية، مثل قراءة النصوص ضمن الصور (OCR)، بسبب القيود المرتبطة بالدقة الحالية.
وأفادت الشركة الصينية عبر مدونتها الرسمية أن منصتها الذكية DeepSeek تتعرض حالياً لعدد كبير من هجمات رفض الخدمة DDoS، مما أدى إلى تعطّل المنصة وصعوبة استخدامها بشكل طبيعي من قبل العديد من المستخدمين حول العالم.