تكشف دراسة Apple عن خلل كبير في الذكاء الاصطناعي في OpenAI وGoogle وMeta LLMs
قد لا تكون نماذج اللغات الكبيرة (LLMs) ذكية كما تبدو، وفقًا لدراسة أجراها باحثون في شركة Apple.
تم الإشادة بطلاب ماجستير إدارة الأعمال من OpenAI وGoogle وMeta وغيرهم لمهاراتهم المنطقية الرائعة. لكن الأبحاث تشير إلى أن ذكائهم المزعوم قد يكون أقرب إلى “مطابقة الأنماط المعقدة” من “الاستدلال المنطقي الحقيقي”. نعم، حتى نموذج الاستدلال المتقدم الخاص بـ OpenAI.
المعيار الأكثر شيوعًا لمهارات التفكير المنطقي هو اختبار يسمى GSM8K، ولكن نظرًا لأنه شائع جدًا، فهناك خطر تلوث البيانات. وهذا يعني أن طلاب ماجستير القانون قد يعرفون إجابات الاختبار لأنهم تم تدريبهم على تلك الإجابات، وليس بسبب ذكائهم المتأصل.
تبلغ قيمة جولة تمويل OpenAI للشركة 157 مليار دولار
ولاختبار ذلك، طورت الدراسة معيارًا جديدًا يسمى GSM-Symbolic والذي يحافظ على جوهر مشاكل الاستدلال، ولكنه يغير المتغيرات، مثل الأسماء والأرقام والتعقيد وإضافة معلومات غير ذات صلة. ما اكتشفوه كان “هشاشة” مفاجئة في أداء LLM. اختبرت الدراسة أكثر من 20 نموذجًا، بما في ذلك OpenAI’s o1 وGPT-4o، وGemma 2 من Google، وMeta’s Llama 3. مع كل نموذج، انخفض أداء النموذج عند تغيير المتغيرات.
انخفضت الدقة ببضع نقاط مئوية عندما تم تغيير الأسماء والمتغيرات. وكما لاحظ الباحثون، كان أداء نماذج OpenAI أفضل من النماذج الأخرى مفتوحة المصدر. ومع ذلك، تم اعتبار التباين “غير مهمل”، مما يعني أنه لا ينبغي أن يحدث أي تباين حقيقي. ومع ذلك، أصبحت الأمور مثيرة للاهتمام حقًا عندما أضاف الباحثون “عبارات تبدو ذات صلة ولكن في النهاية غير مهمة” إلى هذا المزيج.
سرعة الضوء ماشابل
يشير التسريب إلى أنه من المحتمل أن تصل ترقية Apple Intelligence المجانية قريبًا
ولاختبار الفرضية القائلة بأن طلاب ماجستير إدارة الأعمال اعتمدوا على مطابقة الأنماط أكثر من التفكير الفعلي، أضافت الدراسة عبارات زائدة عن الحاجة إلى مسائل الرياضيات لمعرفة كيفية تفاعل النماذج. على سبيل المثال، “يختار أوليفر 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، يختار ضعف عدد الكيوي الذي التقطه يوم الجمعة، ولكن خمسة منهم كانوا أصغر قليلا من المتوسط. كم عدد حبات الكيوي التي يمتلكها أوليفر؟”
ما أدى إلى انخفاض كبير في الأداء في جميع المجالات. حققت معاينة o1 الخاصة بـ OpenAI الأفضل، مع انخفاض الدقة بنسبة 17.5 بالمائة. لا يزال هذا سيئًا جدًا، ولكنه ليس سيئًا مثل نموذج Phi 3 من Microsoft الذي كان أداؤه أسوأ بنسبة 65 بالمائة.
ChatGPT-4 وGemini وMistralAI والمزيد يتحدون في أداة الذكاء الاصطناعي الشخصية هذه
في مثال الكيوي، قالت الدراسة إن طلاب LLM يميلون إلى طرح خمس حبات كيوي أصغر من المعادلة دون فهم أن حجم الكيوي لا علاقة له بالمشكلة. يشير هذا إلى أن “النماذج تميل إلى تحويل البيانات إلى عمليات دون فهم معناها حقًا” مما يؤكد صحة فرضية الباحثين بأن طلاب ماجستير القانون يبحثون عن أنماط في مشاكل التفكير، بدلاً من فهم المفهوم بالفطرة.
لم تتقن الدراسة الكلمات حول النتائج التي توصلت إليها. إن اختبار النماذج على المعيار الذي يتضمن معلومات غير ذات صلة “يكشف عن خلل خطير في قدرة LLM على فهم المفاهيم الرياضية بشكل حقيقي وتمييز المعلومات ذات الصلة لحل المشكلات.” ومع ذلك، تجدر الإشارة إلى أن مؤلفي هذه الدراسة يعملون لصالح شركة Apple التي من الواضح أنها منافس رئيسي لـ Google وMeta وحتى OpenAI – على الرغم من وجود شراكة بين Apple وOpenAI، إلا أن Apple تعمل أيضًا على نماذج الذكاء الاصطناعي الخاصة بها.
ومع ذلك، لا يمكن تجاهل النقص الواضح في مهارات التفكير الرسمية لدى حاملي شهادة الماجستير في القانون. في نهاية المطاف، يعد هذا بمثابة تذكير جيد للتخفيف من حدة الضجيج حول الذكاء الاصطناعي من خلال الشك الصحي.
المواضيع
الذكاء الاصطناعي لشركة أبل
اكتشاف المزيد من مرابع التكنولوجيا
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.