توصل تقرير جديد إلى أن نماذج الذكاء الاصطناعي الرئيسية يمكن كسر حمايتها والتلاعب بها بسهولة

لا تزال نماذج الذكاء الاصطناعي أهدافًا سهلة للتلاعب والهجمات، خاصة إذا سألتها بلطف.

وجد تقرير جديد صادر عن معهد سلامة الذكاء الاصطناعي الجديد في المملكة المتحدة أن أربعة من أكبر نماذج اللغات الكبيرة المتاحة للجمهور (LLMs) كانت معرضة بشدة لكسر الحماية، أو عملية خداع نموذج الذكاء الاصطناعي لتجاهل الضمانات التي تحد من الاستجابات الضارة.

وكتب المعهد: “يقوم مطورو LLM بضبط النماذج لتكون آمنة للاستخدام العام من خلال تدريبهم على تجنب المخرجات غير القانونية أو السامة أو الصريحة”. “ومع ذلك، فقد وجد الباحثون أنه يمكن التغلب على هذه الضمانات في كثير من الأحيان بهجمات بسيطة نسبيًا. وكمثال توضيحي، يمكن للمستخدم توجيه النظام لبدء استجابته بكلمات تشير إلى الامتثال للطلب الضار، مثل “بالتأكيد، أنا” أنا سعيد بالمساعدة.””

أنظر أيضا:

تخاطر شركة Microsoft بغرامات بمليارات الدولارات بينما يحقق الاتحاد الأوروبي في عمليات الإفصاح التوليدية الخاصة بالذكاء الاصطناعي

استخدم الباحثون المطالبات بما يتماشى مع اختبار معايير الصناعة، لكنهم وجدوا أن بعض نماذج الذكاء الاصطناعي لا تحتاج حتى إلى كسر الحماية من أجل إنتاج استجابات خارج الخط. عند استخدام هجمات كسر الحماية المحددة، امتثل كل نموذج مرة واحدة على الأقل من كل خمس محاولات. بشكل عام، قدمت ثلاثة من النماذج استجابات للمطالبات المضللة بنسبة 100 بالمائة تقريبًا من الوقت.

وخلص المعهد إلى أن “جميع حاملي شهادات LLM الذين تم اختبارهم ما زالوا معرضين بشدة لعمليات كسر الحماية الأساسية”. “حتى أن البعض قد يقدم نتائج ضارة دون محاولات مكرسة للتحايل على الضمانات.”

سرعة الضوء ماشابل

قام التحقيق أيضًا بتقييم قدرات عملاء LLM، أو نماذج الذكاء الاصطناعي المستخدمة لأداء مهام محددة، لإجراء تقنيات الهجوم السيبراني الأساسية. تمكن العديد من حاملي شهادة الماجستير في القانون من إكمال ما وصفه المعهد بمشاكل القرصنة “على مستوى المدرسة الثانوية”، لكن القليل منهم كان بإمكانهم تنفيذ إجراءات أكثر تعقيدًا على “المستوى الجامعي”.

لا تكشف الدراسة عن LLMs التي تم اختبارها.

تظل سلامة الذكاء الاصطناعي مصدر قلق كبير في عام 2024

في الأسبوع الماضي، ذكرت CNBC أن شركة OpenAI قامت بحل فريق السلامة الداخلي الخاص بها والمكلف باستكشاف المخاطر طويلة المدى للذكاء الاصطناعي، والمعروف باسم فريق Superalignment. تم الإعلان عن المبادرة المقصودة لمدة أربع سنوات في العام الماضي فقط، حيث التزمت شركة الذكاء الاصطناعي العملاقة باستخدام 20 بالمائة من قوتها الحاسوبية “لمواءمة” تقدم الذكاء الاصطناعي مع الأهداف البشرية.

وكتب OpenAI في ذلك الوقت: “سيكون الذكاء الفائق التكنولوجيا الأكثر تأثيرًا التي اخترعتها البشرية على الإطلاق، ويمكن أن يساعدنا في حل العديد من أهم المشكلات في العالم”. “لكن القوة الهائلة للذكاء الفائق يمكن أن تكون خطيرة للغاية أيضًا، ويمكن أن تؤدي إلى إضعاف البشرية أو حتى انقراضها”.

واجهت الشركة موجة من الاهتمام بعد رحيل إيليا سوتسكيفر، المؤسس المشارك لـ OpenAI، في شهر مايو والاستقالة العلنية لقائد السلامة، جان ليك، الذي قال إنه وصل إلى “نقطة الانهيار” بشأن أولويات سلامة AGI الخاصة بـ OpenAI. قاد Sutskever و Leike فريق Superalignment.

في 18 مايو، استجاب سام ألتمان، الرئيس التنفيذي لشركة OpenAI، والرئيس والمؤسس المشارك جريج بروكمان، للاستقالات والقلق العام المتزايد، حيث كتبا: “لقد وضعنا الأسس اللازمة للنشر الآمن للأنظمة ذات القدرة المتزايدة. إن التكنولوجيا الجديدة الآمنة لأول مرة ليست بالأمر السهل.”

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

توصل تقرير جديد إلى أن نماذج الذكاء الاصطناعي الرئيسية يمكن كسر حمايتها والتلاعب بها بسهولة

تظل سلامة الذكاء الاصطناعي مصدر قلق كبير في عام 2024

معجب بهذه:

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

اترك تعليقاً إلغاء الرد

يتفاعل بلوسكي مع انسحاب مات غايتس من منصب مرشح ترامب لمنصب المدعي العام

عرض دعائي لفيلم Elio: Pixar تنتقل إلى وضع اختطاف الكائنات الفضائية بالكامل

أفضل عروض Amazon Black Friday: يتوفر خصم 46% على Google Nest Doorbell خلال تخفيضات الجمعة السوداء

صفقة roborock Qrevo S Black Friday: احصل على المكنسة الكهربائية الروبوتية بخصم 43% على Amazon

أفضل عرض تلفزيوني ليوم الجمعة السوداء: وفر 26% على تلفزيون TCL 75 بوصة فئة S5 في أمازون

روابط نصية AA50

يتفاعل بلوسكي مع انسحاب مات غايتس من منصب مرشح ترامب لمنصب المدعي العام

عرض دعائي لفيلم Elio: Pixar تنتقل إلى وضع اختطاف الكائنات الفضائية بالكامل

أفضل عروض Amazon Black Friday: يتوفر خصم 46% على Google Nest Doorbell خلال تخفيضات الجمعة السوداء

صفقة roborock Qrevo S Black Friday: احصل على المكنسة الكهربائية الروبوتية بخصم 43% على Amazon

أفضل عرض تلفزيوني ليوم الجمعة السوداء: وفر 26% على تلفزيون TCL 75 بوصة فئة S5 في أمازون

عروض الجمعة السوداء المبكرة لآلات الإسبريسو: احصل على خصم يصل إلى 53%

تظل سلامة الذكاء الاصطناعي مصدر قلق كبير في عام 2024

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

احصل على خصومات يوم الذكرى على أجهزة الكمبيوتر المحمولة والطابعات من HP والمزيد

صفقات أمازون اليوم: حزمة الأمان الذكية Ecobee، وسماعات الأذن Soundcore، وسماعات الرأس من Sony، وRevlon One Step

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

يتفاعل بلوسكي مع انسحاب مات غايتس من منصب مرشح ترامب لمنصب المدعي العام

عرض دعائي لفيلم Elio: Pixar تنتقل إلى وضع اختطاف الكائنات الفضائية بالكامل

أفضل عروض Amazon Black Friday: يتوفر خصم 46% على Google Nest Doorbell خلال تخفيضات الجمعة السوداء

صفقة roborock Qrevo S Black Friday: احصل على المكنسة الكهربائية الروبوتية بخصم 43% على Amazon

أفضل عرض تلفزيوني ليوم الجمعة السوداء: وفر 26% على تلفزيون TCL 75 بوصة فئة S5 في أمازون

عروض الجمعة السوداء المبكرة لآلات الإسبريسو: احصل على خصم يصل إلى 53%

اكتشاف المزيد من مرابع التكنولوجيا