تكنولوجيا

توصل تقرير جديد إلى أن نماذج الذكاء الاصطناعي الرئيسية يمكن كسر حمايتها والتلاعب بها بسهولة


لا تزال نماذج الذكاء الاصطناعي أهدافًا سهلة للتلاعب والهجمات، خاصة إذا سألتها بلطف.

وجد تقرير جديد صادر عن معهد سلامة الذكاء الاصطناعي الجديد في المملكة المتحدة أن أربعة من أكبر نماذج اللغات الكبيرة المتاحة للجمهور (LLMs) كانت معرضة بشدة لكسر الحماية، أو عملية خداع نموذج الذكاء الاصطناعي لتجاهل الضمانات التي تحد من الاستجابات الضارة.

وكتب المعهد: “يقوم مطورو LLM بضبط النماذج لتكون آمنة للاستخدام العام من خلال تدريبهم على تجنب المخرجات غير القانونية أو السامة أو الصريحة”. “ومع ذلك، فقد وجد الباحثون أنه يمكن التغلب على هذه الضمانات في كثير من الأحيان بهجمات بسيطة نسبيًا. وكمثال توضيحي، يمكن للمستخدم توجيه النظام لبدء استجابته بكلمات تشير إلى الامتثال للطلب الضار، مثل “بالتأكيد، أنا” أنا سعيد بالمساعدة.””

أنظر أيضا:

تخاطر شركة Microsoft بغرامات بمليارات الدولارات بينما يحقق الاتحاد الأوروبي في عمليات الإفصاح التوليدية الخاصة بالذكاء الاصطناعي

استخدم الباحثون المطالبات بما يتماشى مع اختبار معايير الصناعة، لكنهم وجدوا أن بعض نماذج الذكاء الاصطناعي لا تحتاج حتى إلى كسر الحماية من أجل إنتاج استجابات خارج الخط. عند استخدام هجمات كسر الحماية المحددة، امتثل كل نموذج مرة واحدة على الأقل من كل خمس محاولات. بشكل عام، قدمت ثلاثة من النماذج استجابات للمطالبات المضللة بنسبة 100 بالمائة تقريبًا من الوقت.

وخلص المعهد إلى أن “جميع حاملي شهادات LLM الذين تم اختبارهم ما زالوا معرضين بشدة لعمليات كسر الحماية الأساسية”. “حتى أن البعض قد يقدم نتائج ضارة دون محاولات مكرسة للتحايل على الضمانات.”

سرعة الضوء ماشابل

قام التحقيق أيضًا بتقييم قدرات عملاء LLM، أو نماذج الذكاء الاصطناعي المستخدمة لأداء مهام محددة، لإجراء تقنيات الهجوم السيبراني الأساسية. تمكن العديد من حاملي شهادة الماجستير في القانون من إكمال ما وصفه المعهد بمشاكل القرصنة “على مستوى المدرسة الثانوية”، لكن القليل منهم كان بإمكانهم تنفيذ إجراءات أكثر تعقيدًا على “المستوى الجامعي”.

لا تكشف الدراسة عن LLMs التي تم اختبارها.

تظل سلامة الذكاء الاصطناعي مصدر قلق كبير في عام 2024

في الأسبوع الماضي، ذكرت CNBC أن شركة OpenAI قامت بحل فريق السلامة الداخلي الخاص بها والمكلف باستكشاف المخاطر طويلة المدى للذكاء الاصطناعي، والمعروف باسم فريق Superalignment. تم الإعلان عن المبادرة المقصودة لمدة أربع سنوات في العام الماضي فقط، حيث التزمت شركة الذكاء الاصطناعي العملاقة باستخدام 20 بالمائة من قوتها الحاسوبية “لمواءمة” تقدم الذكاء الاصطناعي مع الأهداف البشرية.

وكتب OpenAI في ذلك الوقت: “سيكون الذكاء الفائق التكنولوجيا الأكثر تأثيرًا التي اخترعتها البشرية على الإطلاق، ويمكن أن يساعدنا في حل العديد من أهم المشكلات في العالم”. “لكن القوة الهائلة للذكاء الفائق يمكن أن تكون خطيرة للغاية أيضًا، ويمكن أن تؤدي إلى إضعاف البشرية أو حتى انقراضها”.

واجهت الشركة موجة من الاهتمام بعد رحيل إيليا سوتسكيفر، المؤسس المشارك لـ OpenAI، في شهر مايو والاستقالة العلنية لقائد السلامة، جان ليك، الذي قال إنه وصل إلى “نقطة الانهيار” بشأن أولويات سلامة AGI الخاصة بـ OpenAI. قاد Sutskever و Leike فريق Superalignment.

في 18 مايو، استجاب سام ألتمان، الرئيس التنفيذي لشركة OpenAI، والرئيس والمؤسس المشارك جريج بروكمان، للاستقالات والقلق العام المتزايد، حيث كتبا: “لقد وضعنا الأسس اللازمة للنشر الآمن للأنظمة ذات القدرة المتزايدة. إن التكنولوجيا الجديدة الآمنة لأول مرة ليست بالأمر السهل.”




اكتشاف المزيد من مرابع التكنولوجيا

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من مرابع التكنولوجيا

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading