غروك

شهدت الأيام الأخيرة تزايد المناقشات حول معايير الذكاء الاصطناعي وطريقة تقديمها من قبل مختبرات الذكاء الاصطناعي.
هذا الأسبوع، اتهم أحد موظفي شركة “OpenAI” شركة “xAI” التابعة لإيلون ماسك بنشر نتائج مضللة تتعلق بمعايير أحدث نموذج للذكاء الاصطناعي “غروك 3”.
في المقابل، دافع إيغور بابوشكين، أحد المؤسسين المشاركين لشركة xAI، مؤكداً أن الشركة كانت على صواب، وذلك وفقاً لتقرير نشره موقع “تك كرانش”.
نشرت شركة “xAI” مؤخرًا رسمًا بيانيًا يوضح أداء نموذج “غروك 3” في اختبار AIME 2025، وهو مجموعة من أسئلة الرياضيات الصعبة المخصصة لاختبارات الذكاء الاصطناعي. هذا الاختبار يعد معيارًا شائعًا لاختبار قدرة النماذج على حل مسائل رياضية معقدة، على الرغم من أن بعض الخبراء يشككون في مدى دقته كمؤشر موثوق للذكاء الاصطناعي.
الرسم البياني الذي نشرته “xAI”
عرض نسختين من نموذج “غروك 3″، وهما “Grok 3 Reasoning Beta” و “Grok 3 mini Reasoning”، حيث أظهرا تفوقًا على أفضل نموذج متاح من o3-mini-high في اختبار AIME 2025. ومع ذلك، أشار موظفو “OpenAI” عبر منصة إكس إلى أن الرسم البياني لم يتضمن درجة نموذج o3-mini-high في اختبار AIME 2025 باستخدام نسخة الاختبار التي تسمى “cons@64”.
تعتبر “cons@64” نسخة اختباريّة تعزز بشكل كبير درجات الأداء للنماذج، وبالتالي، قد يؤدي استبعادها من الرسم البياني إلى إظهار تفوق غير دقيق لأحد النماذج على الآخر. هذا الاستبعاد قد يعطي انطباعًا خاطئًا بأن أحد النماذج أفضل من الآخر، في حين أن الحقيقة قد تكون مغايرة.
تمثل درجات Grok 3 Reasoning Beta و Grok 3 mini Reasoning في AIME 2025 عند “@1” – وهي الدرجة الأولى التي حققتها النماذج وفقًا للمعيار – أقل من درجة o3-mini-high.
من ناحية أخرى، يظهر أن Grok 3 Reasoning Beta يتأخر قليلاً مقارنة بنموذج “o1” الذي تم ضبطه على الحوسبة المتوسطة. وعلى الرغم من ذلك، أشار xAI إلى أن “غروك 3” هو أذكى ذكاء اصطناعي في العالم.
وقد ادعى بابوشكين على منصة إكس أن OpenAI قد نشرت في السابق مخططات معيارية مضللة مشابهة، لكن تلك المخططات كانت مخصصة لمقارنة أداء نماذجها الخاصة.