تكشف دراسة Apple عن خلل كبير في الذكاء الاصطناعي في OpenAI وGoogle وMeta LLMs

قد لا تكون نماذج اللغات الكبيرة (LLMs) ذكية كما تبدو، وفقًا لدراسة أجراها باحثون في شركة Apple.

تم الإشادة بطلاب ماجستير إدارة الأعمال من OpenAI وGoogle وMeta وغيرهم لمهاراتهم المنطقية الرائعة. لكن الأبحاث تشير إلى أن ذكائهم المزعوم قد يكون أقرب إلى “مطابقة الأنماط المعقدة” من “الاستدلال المنطقي الحقيقي”. نعم، حتى نموذج الاستدلال المتقدم الخاص بـ OpenAI.

المعيار الأكثر شيوعًا لمهارات التفكير المنطقي هو اختبار يسمى GSM8K، ولكن نظرًا لأنه شائع جدًا، فهناك خطر تلوث البيانات. وهذا يعني أن طلاب ماجستير القانون قد يعرفون إجابات الاختبار لأنهم تم تدريبهم على تلك الإجابات، وليس بسبب ذكائهم المتأصل.

أنظر أيضا:

تبلغ قيمة جولة تمويل OpenAI للشركة 157 مليار دولار

ولاختبار ذلك، طورت الدراسة معيارًا جديدًا يسمى GSM-Symbolic والذي يحافظ على جوهر مشاكل الاستدلال، ولكنه يغير المتغيرات، مثل الأسماء والأرقام والتعقيد وإضافة معلومات غير ذات صلة. ما اكتشفوه كان “هشاشة” مفاجئة في أداء LLM. اختبرت الدراسة أكثر من 20 نموذجًا، بما في ذلك OpenAI’s o1 وGPT-4o، وGemma 2 من Google، وMeta’s Llama 3. مع كل نموذج، انخفض أداء النموذج عند تغيير المتغيرات.

انخفضت الدقة ببضع نقاط مئوية عندما تم تغيير الأسماء والمتغيرات. وكما لاحظ الباحثون، كان أداء نماذج OpenAI أفضل من النماذج الأخرى مفتوحة المصدر. ومع ذلك، تم اعتبار التباين “غير مهمل”، مما يعني أنه لا ينبغي أن يحدث أي تباين حقيقي. ومع ذلك، أصبحت الأمور مثيرة للاهتمام حقًا عندما أضاف الباحثون “عبارات تبدو ذات صلة ولكن في النهاية غير مهمة” إلى هذا المزيج.

سرعة الضوء ماشابل

أنظر أيضا:

يشير التسريب إلى أنه من المحتمل أن تصل ترقية Apple Intelligence المجانية قريبًا

ولاختبار الفرضية القائلة بأن طلاب ماجستير إدارة الأعمال اعتمدوا على مطابقة الأنماط أكثر من التفكير الفعلي، أضافت الدراسة عبارات زائدة عن الحاجة إلى مسائل الرياضيات لمعرفة كيفية تفاعل النماذج. على سبيل المثال، “يختار أوليفر 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، يختار ضعف عدد الكيوي الذي التقطه يوم الجمعة، ولكن خمسة منهم كانوا أصغر قليلا من المتوسط. كم عدد حبات الكيوي التي يمتلكها أوليفر؟”

ما أدى إلى انخفاض كبير في الأداء في جميع المجالات. حققت معاينة o1 الخاصة بـ OpenAI الأفضل، مع انخفاض الدقة بنسبة 17.5 بالمائة. لا يزال هذا سيئًا جدًا، ولكنه ليس سيئًا مثل نموذج Phi 3 من Microsoft الذي كان أداؤه أسوأ بنسبة 65 بالمائة.

أنظر أيضا:

ChatGPT-4 وGemini وMistralAI والمزيد يتحدون في أداة الذكاء الاصطناعي الشخصية هذه

في مثال الكيوي، قالت الدراسة إن طلاب LLM يميلون إلى طرح خمس حبات كيوي أصغر من المعادلة دون فهم أن حجم الكيوي لا علاقة له بالمشكلة. يشير هذا إلى أن “النماذج تميل إلى تحويل البيانات إلى عمليات دون فهم معناها حقًا” مما يؤكد صحة فرضية الباحثين بأن طلاب ماجستير القانون يبحثون عن أنماط في مشاكل التفكير، بدلاً من فهم المفهوم بالفطرة.

لم تتقن الدراسة الكلمات حول النتائج التي توصلت إليها. إن اختبار النماذج على المعيار الذي يتضمن معلومات غير ذات صلة “يكشف عن خلل خطير في قدرة LLM على فهم المفاهيم الرياضية بشكل حقيقي وتمييز المعلومات ذات الصلة لحل المشكلات.” ومع ذلك، تجدر الإشارة إلى أن مؤلفي هذه الدراسة يعملون لصالح شركة Apple التي من الواضح أنها منافس رئيسي لـ Google وMeta وحتى OpenAI – على الرغم من وجود شراكة بين Apple وOpenAI، إلا أن Apple تعمل أيضًا على نماذج الذكاء الاصطناعي الخاصة بها.

ومع ذلك، لا يمكن تجاهل النقص الواضح في مهارات التفكير الرسمية لدى حاملي شهادة الماجستير في القانون. في نهاية المطاف، يعد هذا بمثابة تذكير جيد للتخفيف من حدة الضجيج حول الذكاء الاصطناعي من خلال الشك الصحي.

المواضيع
الذكاء الاصطناعي لشركة أبل

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

تكشف دراسة Apple عن خلل كبير في الذكاء الاصطناعي في OpenAI وGoogle وMeta LLMs

معجب بهذه:

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

اترك تعليقاً إلغاء الرد

أفضل صفقة بث يوم الجمعة السوداء: احصل على خصم بقيمة 27 دولارًا على Fire TV Stick 4K Max من Amazon

أفضل صفقة تلفزيون الجمعة السوداء: خصم 450 دولارًا على تلفزيون Hisense QLED 4K مقاس 85 بوصة

أفضل عروض الأدوات اللاسلكية ليوم الجمعة الأسود: أدوات مجانية مع مجموعة البطاريات

يسخر برنامج “ديلي شو” من اختيارات المشاهير الجديدة التي اختارها ترامب من خلال فيديو تدريبي ساخر

أفضل صفقة فراغ روبوت الجمعة السوداء: وفر 150 دولارًا على iRobot Roomba Vac 2

روابط نصية AA50

أفضل صفقة بث يوم الجمعة السوداء: احصل على خصم بقيمة 27 دولارًا على Fire TV Stick 4K Max من Amazon

أفضل صفقة تلفزيون الجمعة السوداء: خصم 450 دولارًا على تلفزيون Hisense QLED 4K مقاس 85 بوصة

أفضل عروض الأدوات اللاسلكية ليوم الجمعة الأسود: أدوات مجانية مع مجموعة البطاريات

يسخر برنامج “ديلي شو” من اختيارات المشاهير الجديدة التي اختارها ترامب من خلال فيديو تدريبي ساخر

أفضل صفقة فراغ روبوت الجمعة السوداء: وفر 150 دولارًا على iRobot Roomba Vac 2

مراجعة “A Man on the Inside”: يجتمع تيد دانسون ومايك شور في المسرحية الهزلية الذهبية الرائعة

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

تتعاون شركة MoMA وSamsung لإضافة أعمال فنية حديثة إلى تلفزيون Frame الفاخر

يقول الاستطلاع إن حظر الهاتف الخليوي في المدارس يدعمه معظم البالغين

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

أفضل صفقة بث يوم الجمعة السوداء: احصل على خصم بقيمة 27 دولارًا على Fire TV Stick 4K Max من Amazon

أفضل صفقة تلفزيون الجمعة السوداء: خصم 450 دولارًا على تلفزيون Hisense QLED 4K مقاس 85 بوصة

أفضل عروض الأدوات اللاسلكية ليوم الجمعة الأسود: أدوات مجانية مع مجموعة البطاريات

يسخر برنامج “ديلي شو” من اختيارات المشاهير الجديدة التي اختارها ترامب من خلال فيديو تدريبي ساخر

أفضل صفقة فراغ روبوت الجمعة السوداء: وفر 150 دولارًا على iRobot Roomba Vac 2

مراجعة “A Man on the Inside”: يجتمع تيد دانسون ومايك شور في المسرحية الهزلية الذهبية الرائعة

اكتشاف المزيد من مرابع التكنولوجيا