تقنية

الذكاء الاصطناعي

كل يوم أحد، يجذب برنامج “لغز الأحد” الذي تقدمه إذاعة NPR الآلاف من المستمعين لحل تحديات عقلية معقدة، وأصبح من الواضح أن هذه الألغاز لم تعد مقتصرة على البشر فقط، بل باتت تشكل معيارًا جديدًا لاختبار قدرات الذكاء الاصطناعي.

وفي دراسة حديثة، تعاون باحثون من عدد من الجامعات الأميركية مع شركة “Cursor” الناشئة لاستخدام ألغاز البرنامج في تقييم أداء نماذج الذكاء الاصطناعي في الاستدلال المنطقي.

وقد كانت النتائج غير متوقعة، حيث أظهرت أن بعض النماذج المتطورة مثل o1 من “OpenAI” وR1 من “ديب سيك” لا تقتصر على تقديم إجابات خاطئة، بل تصل أحيانًا إلى مرحلة “الاستسلام”، حيث تعلن عن عجزها عن حل اللغز قبل تقديم إجابة عشوائية غير صحيحة، وفقًا لتقرير نشره موقع “تك كرانش”.

يؤكد الباحثون أن هذه الألغاز تتمتع بميزة فريدة

إذ لا تعتمد على المعرفة الموسوعية، مما يجعلها اختبارًا مثاليًا لقدرات الذكاء الاصطناعي في التفكير المجرد بدلاً من مجرد استرجاع المعلومات.

مع ذلك، لا تزال النماذج تواجه صعوبات في التعامل مع هذه التحديات، حيث أظهرت سلوكيات غير معتادة، مثل تقديم إجابة خاطئة ثم التراجع عنها، أو حتى “التفكير” بشكل مستمر من دون التوصل إلى حل.

حالياً، يتصدر نموذج o1 قائمة الأداء بأفضل نسبة بلغت 59%، يليه o3-mini بنسبة 47%، في حين حصل نموذج R1 على 35% فقط.

ويخطط الباحثون لتوسيع نطاق التجربة من خلال إضافة المزيد من النماذج بهدف تعزيز قدرة الذكاء الاصطناعي على التفكير وحل المشكلات بكفاءة أكبر.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى