الذكاء الاصطناعي

تمكن الذكاء الاصطناعي من توليد صور واقعية، كتابة روايات، إنجاز الواجبات المدرسية، وحتى التنبؤ ببنية البروتينات. إلا أن بحثًا حديثًا أظهر أنه غالبًا ما يفشل في مهمة بسيطة جدًا، وهي تحديد الوقت.
قام باحثون من جامعة إدنبرة باختبار قدرة سبعة نماذج لغوية كبيرة ومتعددة الوسائط – وهي نوع من الذكاء الاصطناعي الذي يستطيع تفسير وإنشاء أنواع مختلفة من الوسائط – على الإجابة عن أسئلة تتعلق بالوقت بناءً على صور متنوعة للساعات والتقاويم.
أظهرت دراسة ستُنشر في أبريل المقبل أن النماذج اللغوية الكبيرة تواجه تحديات في تنفيذ المهام الأساسية المتعلقة بالاستدلال الزمني، وفقًا لتقرير نشره موقع “Gizmodo” المتخصص في أخبار التكنولوجيا
أشار الباحثون في الدراسة
إلى أن القدرة على تفسير الوقت والتفاعل معه بناءً على المدخلات البصرية تعتبر أمرًا بالغ الأهمية للعديد من التطبيقات الواقعية، مثل جدولة الأحداث والأنظمة المستقلة.
وأوضحوا أنه على الرغم من التقدم الذي أحرزته النماذج اللغوية الكبيرة متعددة الوسائط، إلا أن معظم الأبحاث في هذا المجال قد ركزت على اكتشاف الأشياء، وتوضيح الصور، وفهم المشاهد، مما أدى إلى إغفال الاستدلال الزمني بشكل كافٍ.
الدراسة التي أجرها الباحثون شملت اختبار نماذج ذكاء اصطناعي متعددة مثل “GPT-4o” و”GPT-o1″ من “أوبن إيه آي”، و”Gemini 2.0” من “غوغل ديب مايند”، و”Claude 3.5 Sonnet” من “أنثروبيك”، و”Llama 3.2-11B-Vision-Instruct” من “ميتا”، و”Qwen2-VL7B-Instruct” من “علي بابا”، و”MiniCPM-V-2.6” من “ModelBest”.
في هذا الاختبار، تم تزويد النماذج بصور متنوعة لساعات تناظرية بأرقام رومانية وألوان مختلفة، بعضها كان يفتقد عقرب الثواني. كما شملت الصور تقاويم تمتد لعشر سنوات. بالنسبة لصورة الساعات، طرح الباحثون على النماذج سؤالًا عن الوقت المعروض، بينما طرحوا أسئلة حول التقاويم مثل: “ما هو يوم رأس السنة الميلادية؟” أو “ما هو اليوم رقم 153 من السنة؟”.
بشكل عام، كانت النماذج ضعيفة الأداء. فبينما تمكنت من قراءة الوقت بشكل صحيح في أقل من 25% من الحالات، كانت تواجه صعوبة خاصة مع الساعات التي تحتوي على أرقام رومانية أو عقارب مزخرفة، وكذلك الساعات التي تفتقر إلى عقرب الثواني، مما يشير إلى أن المشكلة تكمن في القدرة على اكتشاف العقارب وتفسير الزوايا على الساعة.
أظهر نموذج “Gemini-2.0” أفضل أداء في مهمة قراءة الساعة، بينما كان “GPT-o1” الأكثر دقة في مهمة التقاويم بنسبة 80%. رغم ذلك، ارتكبت جميع النماذج أخطاء في مهمة التقاويم بنسب تقترب من 20%. الباحثون أوضحوا أن قراءة الساعة التناظرية وفهم التقاويم يتطلبان مهارات معرفية معقدة، تشمل الفهم البصري الدقيق لموضع العقارب والتفكير العددي لحساب الأيام.