تكنولوجيا

في Google I/O ، منظمة العفو الدولية التي لا تهتم أبدًا بالأخطاء


هذا العام ، كان لدى Google I/O 2025 تركيز واحد: الذكاء الاصطناعي.

لقد غطينا بالفعل جميع أكبر الأخبار التي خرجت من مؤتمر المطورين السنوي: أداة جديدة لتوليد الفيديو من الذكاء الاصطناعي تسمى Flow. خطة الاشتراك ULTRA 250 AI. طن من التغييرات الجديدة على الجوزاء. ميزة تجربة التسوق الافتراضية. ومن الأهمية بمكان إطلاق وضع أداة البحث لجميع المستخدمين في الولايات المتحدة.

ومع ذلك ، على مدار ساعتين من قادة Google يتحدثون عن الذكاء الاصطناعي ، كانت كلمة واحدة لم نسمعها هي “هلوسة”.

تظل الهلوسة واحدة من أكثر المشكلات العنيدة وبين نماذج الذكاء الاصطناعي. يشير المصطلح إلى الحقائق التي تم اختراعها وأساق غير دقة تفيد بأن النماذج ذات اللغة الكبيرة “الهلوسة” في ردودها. ووفقًا لمقاييس Big AI Brands الخاصة ، تزداد الهلوسة – مع بعض النماذج التي تهدأ أكثر من 40 في المائة من الوقت.

ولكن إذا كنت تشاهد Google I/O 2025 ، فلن تعرف أن هذه المشكلة كانت موجودة. كنت تعتقد أن نماذج مثل الجوزاء لم يهلوس أبدًا ؛ من المؤكد أنك ستفاجأ برؤية التحذير الذي تم إلحاقه بكل نظرة عامة على Google AI. (“قد تشمل ردود الذكاء الاصطناعي أخطاء”.).

سرعة الضوء القابلة للضوء

جاء أقرب Google إلى الاعتراف بمشكلة الهلوسة جاءت خلال جزء من العرض التقديمي على وضع الذكاء الاصطناعي وقدرات البحث العميقة في Gemini. سيتحقق النموذج من عمله قبل تقديم إجابة ، قيل لنا-ولكن بدون مزيد من التفاصيل حول هذه العملية ، يبدو الأمر أشبه بالمكفوفين الذين يقودون المكفوفين أكثر من فحص الحقائق الأصلي.

بالنسبة إلى المتشككين في الذكاء الاصطناعى ، يبدو أن درجة الثقة في وادي السيليكون في هذه الأدوات مطلقة من النتائج الفعلية. يلاحظ المستخدمون الحقيقيون عندما تفشل أدوات الذكاء الاصطناعي في مهام بسيطة مثل العد أو التفسير الإملائي أو الإجابة على أسئلة مثل “هل ستجمد المياه عند 27 درجة فهرنهايت؟”

كانت Google حريصة على تذكير المشاهدين بأن أحدث طراز من الذكاء الاصطناعي ، Gemini 2.5 Pro ، يجلس على قمة العديد من المتصدرين من الذكاء الاصطناعي. ولكن عندما يتعلق الأمر بالصدق والقدرة على الإجابة على الأسئلة البسيطة ، يتم تصنيف chatbots AI على منحنى.

Gemini 2.5 Pro هو نموذج الذكاء الاصطناعي الأكثر ذكاءً في Google (وفقًا لـ Google) ، ومع ذلك يسجل 52.9 في المائة فقط في اختبار القياس البسيط للوظائف. وفقًا لورقة أبحاث Openai ، فإن اختبار SimpleQA هو “معيار يقييم قدرة نماذج اللغة على الإجابة على أسئلة قصيرة تسعى للوقائع.“(التأكيد لنا.)

ورفض ممثل Google مناقشة معيار SimpleQA ، أو الهلوسة بشكل عام – لكنه أدى لنا إلى شرح Google الرسمي على وضع الذكاء الاصطناعى ونظرة عامة على الذكاء الاصطناعي. هذا ما يقوله:

[AI Mode] يستخدم نموذج لغة كبير للمساعدة في الإجابة على الاستفسارات ، ومن الممكن ، في حالات نادرة ، في بعض الأحيان تقديم معلومات غير دقيقة في بعض الأحيان ، والتي تُعرف باسم “الهلوسة”. كما هو الحال مع نظرة عامة على الذكاء الاصطناعي ، في بعض الحالات ، قد تسيء هذه التجربة تفسير محتوى الويب أو سياق تفويت ، كما يمكن أن يحدث مع أي نظام آلي في البحث …

نحن نستخدم أيضًا مقاربات جديدة مع قدرات التفكير في النموذج لتحسين الواقعية. على سبيل المثال ، بالتعاون مع فرق أبحاث Google DeepMind ، نستخدم تعلم التعزيز الوكلاء (RL) في تدريبنا المخصص لمكافأة النموذج لإنشاء بيانات يعرف أنها أكثر عرضة لدقة (غير مهلوسة) وأيضًا مدخلات.

هل من الخطأ أن تكون Google متفائلاً؟ قد تثبت الهلوسة حتى الآن مشكلة قابلة للحل ، بعد كل شيء. ولكن يبدو من الواضح بشكل متزايد من الأبحاث أن الهلوسة من LLMs ليست مشكلة قابلة للحل الآن.

لم يمنع ذلك شركات مثل Google و Openai من الركض إلى الأمام في عصر البحث عن الذكاء الاصطناعي-ومن المحتمل أن يكون هذا حقبة مليئة بالأخطاء ، إلا إذا كنا هم الهلوسة.

موضوعات
الذكاء الاصطناعي Google Gemini

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى