تقنية

الذكاء الاصطناعي

أجرت شركة غوغل تقييما واضحا وصريحا لمستوى موثوقية روبوتات الدردشة المعتمدة على الذكاء الاصطناعي وقد جاءت نتائجه بعيدة عن الصورة المثالية التي يتخيلها كثير من المستخدمين. فقد أكدت الشركة من خلال هذا التقييم أن هذه التقنيات المتقدمة ما تزال تعاني من مشكلات جوهرية تتعلق بالدقة والواقعية حتى عندما تكون في أفضل حالاتها وأكثرها تطورا. ويكشف هذا الاعتراف أن التطور السريع في قدرات الذكاء الاصطناعي لا يعني بالضرورة الوصول إلى مرحلة الاعتماد الكامل عليه دون تحفظ.

غوغل
غوغل

واعتمدت غوغل في هذا التقييم على معيار جديد طورته داخليا يعرف باسم مجموعة اختبارات فاكتس وهو مقياس يركز على اختبار مدى التزام نماذج الذكاء الاصطناعي بالحقائق عند تقديم الإجابات. وتهدف هذه الاختبارات إلى قياس قدرة النماذج على التمييز بين المعلومات الصحيحة والخاطئة وتجنب اختلاق بيانات أو تقديم استنتاجات غير دقيقة. وقد أظهرت النتائج أن أيا من النماذج التي خضعت للاختبار لم يتمكن من تجاوز مستوى سبعين في المئة من الدقة الواقعية وهو رقم يعكس وجود فجوة واضحة بين الأداء الحالي والطموح المعلن لهذه التقنيات.

وجاء نموذج جيميني ثلاثة برو الذي تطوره غوغل في المرتبة الأولى مقارنة ببقية النماذج المشاركة في الاختبارات إلا أن نتيجته لم تتجاوز تسعة وستين في المئة من حيث الالتزام بالحقائق. وعلى الرغم من تصدره الترتيب فإن هذه النسبة تظل أقل من المستوى الذي يمكن اعتباره موثوقا بشكل كاف للاعتماد عليه في جميع السياقات. أما النماذج المنافسة التي طورتها شركات أخرى معروفة في مجال الذكاء الاصطناعي فقد سجلت نتائج أدنى من ذلك مما يؤكد أن التحدي لا يقتصر على جهة واحدة بل يشمل القطاع بأكمله.

وتشير هذه الأرقام بوضوح إلى أن روبوتات الدردشة تخطئ في ما يقارب ثلث إجاباتها وهو معدل مرتفع نسبيا إذا ما أخذنا في الاعتبار أن هذه الأنظمة تقدم ردودها غالبا بأسلوب واثق وسلس يوحي بالدقة والمعرفة. هذا التناقض بين الثقة الظاهرة والمحتوى غير الدقيق يمثل أحد أخطر التحديات المرتبطة باستخدام الذكاء الاصطناعي خاصة في مجالات حساسة مثل التعليم والصحة والإعلام واتخاذ القرار.

وقد سلط تقرير تقني حديث الضوء على هذه النتائج مؤكدا أن سهولة اللغة وطلاقة الأسلوب قد تخدع المستخدم وتدفعه إلى قبول المعلومات دون تحقق أو مراجعة. ومن هنا تبرز أهمية الوعي بحدود هذه التقنيات وضرورة التعامل معها كأدوات مساعدة لا كمصادر نهائية للحقيقة. كما تعكس هذه النتائج الحاجة المستمرة إلى تطوير معايير تقييم أكثر صرامة وتحسين طرق تدريب النماذج لتقليل الأخطاء وتعزيز الاعتماد على مصادر موثوقة.

وفي المحصلة يظهر تقييم غوغل أن الذكاء الاصطناعي رغم تقدمه الكبير ما يزال في مرحلة التعلم والتحسن وأن الطريق نحو أنظمة دقيقة وموثوقة بشكل شبه كامل لا يزال طويلا ويتطلب جهدا بحثيا وتعاوناً واسعا بين الشركات والمختصين.

لماذا هذا المعيار مهم؟

تكتسب هذه النتائج أهمية كبيرة لأن غالبية اختبارات الذكاء الاصطناعي الحالية تنصب على قدرة النموذج على تنفيذ المهمة أو إنتاج إجابة تبدو مقنعة، من دون التركيز الكافي على دقة المعلومات نفسها.

وفي مجالات حساسة مثل التمويل والرعاية الصحية والقانون، قد تتسبب إجابة واحدة غير صحيحة، حتى وإن قُدمت بأسلوب واثق، في خسائر جسيمة ومخاطر حقيقية.

وتنبه غوغل إلى أن الاعتماد غير المشروط على هذه الأنظمة يمثل مخاطرة فعلية، خاصة عندما يفترض المستخدم أن روبوت الدردشة يمتلك معرفة صحيحة دائماً.

نتائج اختبارات روبوتات الدردشة المدعومة بالذكاء الاصطناعي

ماذا يكشف اختبار FACTS؟

تم تطوير مجموعة اختبارات FACTS Benchmark Suite بتعاون بين فريق FACTS في غوغل ومنصة Kaggle، بهدف قياس مستوى الدقة الواقعية عبر أربع حالات استخدام قريبة من التطبيقات الفعلية:

 المعرفة المضمنة: قياس قدرة النموذج على الإجابة عن أسئلة واقعية بالاعتماد على ما اكتسبه خلال التدريب فقط.
 أداء البحث: تقييم دقة استخدام أدوات البحث على الإنترنت لجلب معلومات صحيحة.
 الالتزام بالمصادر: اختبار مدى التزام النموذج بوثيقة محددة دون إضافة معلومات غير موجودة.
 الفهم متعدد الوسائط: قياس دقة تفسير الرسوم البيانية والمخططات والصور.

فوارق واضحة بين النماذج

أظهرت النتائج اختلافات ملحوظة بين النماذج، حيث تصدر Gemini 3 Pro بنسبة 69%، تلاه Gemini 2.5 Pro وChatGPT-5 بنحو 62%، ثم Grok 4 بحوالي 54%، في حين سجل Claude 4.5 Opus قرابة 51%.

وكان أضعف أداء في مهام الفهم متعدد الوسائط، إذ انخفضت نسب الدقة في العديد من الحالات إلى أقل من 50%.

وتكمن الخطورة في أن روبوت الدردشة قد يسيء فهم رسم بياني أو يلتقط رقماً غير دقيق من مستند، ثم يقدمه بثقة عالية، ما يجعل الخطأ أقل وضوحاً وأسهل انتشاراً.

ولا تعني هذه النتائج أن روبوتات الدردشة غير مفيدة، لكنها تؤكد، بحسب غوغل، أن تقنيات الذكاء الاصطناعي ما زالت بحاجة إلى تحقق دائم، وضوابط دقيقة، وإشراف بشري قبل الاعتماد عليها كمصدر موثوق للمعلومة.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى