الذكاء الاصطناعي

رانيا عبد القادر17 فبراير، 2025

0 127 دقيقة واحدة

في دراسة حديثة، تعاون فريق من الباحثين من عدة جامعات وشركات تقنية، من بينها كلية ويلسلي وجامعة نورث إيسترن وشركة Cursor الناشئة، لاستخدام ألغاز برنامج “لغز الأحد” الذي يبث عبر محطة الراديو NPR، بهدف معايرة نماذج الذكاء الاصطناعي واختبار قدراتها على الاستدلال.

تُعرف هذه الألغاز، التي يقدمها خبير الألغاز ويل شورتز، بصعوبتها، على الرغم من أنها لا تتطلب معرفة متخصصة، مما يجعلها أداة مثالية لاختبار قدرة الذكاء الاصطناعي على التفكير المنطقي.

قام الباحثون بتطوير معيار جديد باستخدام حوالي 600 لغز من برنامج “لغز الأحد”، بهدف قياس قدرة النماذج على حل المشكلات استنادًا إلى المعرفة العامة فقط، وفقًا لتقرير نشره موقع “تك كرانش”.

أظهرت النتائج أن بعض النماذج، مثل O1 من “OpenAI” و R1 من “ديب سيك”، تميزت على غيرها في حل هذه الألغاز. ومع ذلك، كشفت الدراسة أن بعض النماذج قد تقدم إجابات خاطئة رغم معرفتها بعدم صحتها، بل إن بعضها يظهر رد فعل مشابه للاستسلام كما يفعل الإنسان.

التحديات والرؤى

أوضح أرجون جوها، أحد الباحثين المشاركين في الدراسة، أن الألغاز التي تم تصميمها في هذا البحث كانت معقدة لدرجة أنها تشكل تحديًا حتى للبشر، مما يجعلها اختبارًا فعالًا لقدرات الذكاء الاصطناعي.

وأضاف أن النماذج التي تعتمد على الاستدلال، مثل نموذج o1، تتفوق لأنها تتحقق من صحة إجاباتها قبل تقديمها، مما يقلل من الأخطاء ويزيد دقة النتائج. ومع ذلك، تحتاج هذه النماذج إلى وقت أطول للوصول إلى الحلول مقارنة بالنماذج الأخرى.

سلوكيات غريبة للنماذج

كشفت الدراسة عن بعض السلوكيات الغريبة التي أظهرتها بعض النماذج، مثل تقديم إجابة خاطئة ثم التراجع عنها مباشرةً، أو الاستمرار في التفكير لفترات طويلة دون الوصول إلى نتيجة واضحة. بل إن بعض النماذج أظهرت سلوكًا مشابهًا للإحباط البشري، حيث عبرت عن شعورها بالعجز عند مواجهة الألغاز الصعبة.

نتائج مبشرة بمزيد من التطور

حقق نموذج o1 أفضل أداء بحل 59% من الألغاز، يليه النموذج o3-mini بنسبة 47%، بينما حصل النموذج R1 على 35%.

يخطط الباحثون لتوسيع نطاق الدراسة لتشمل نماذج استدلال إضافية، بهدف تحسين فهم قدرات الذكاء الاصطناعي وتحديد المجالات التي تحتاج إلى تطوير.

وفي هذا السياق، قال جوها: “لا يحتاج الشخص إلى درجة الدكتوراه ليكون جيدًا في التفكير، لذا ينبغي أن يكون من الممكن تصميم معايير تفكير قابلة للوصول دون الحاجة إلى معرفة متخصصة. إن معايير التفكير التي تتيح وصولًا أوسع ستساعد عددًا أكبر من الباحثين في فهم وتحليل النتائج، مما قد يؤدي إلى حلول أفضل في المستقبل”.

الوسوم