تختبر الأنثروبي قدرة الذكاء الاصطناعي على التخريب

مع استمرار الضجيج حول الذكاء الاصطناعي التوليدي، أصبحت الحاجة إلى لوائح سلامة قوية أكثر وضوحًا.

والآن تبحث شركة Anthropic – الشركة التي تقف وراء Claude AI – في كيفية خداع نماذجها للمستخدمين أو تخريبهم. الأنثروبيك أسقطت للتو ورقة توضح نهجهم.

أنظر أيضا:

يتنحى سام ألتمان عن منصبه كرئيس لمجموعة السلامة في OpenAI

أحدث أبحاث Anthropic – بعنوان “تقييمات التخريب للنماذج الحدودية” – تأتي من فريق Alignment Science التابع لها، مدفوعًا بسياسة “القياس المسؤول” للشركة.

الهدف هو قياس مدى قدرة الذكاء الاصطناعي على تضليل المستخدمين أو حتى “تخريب الأنظمة التي نضعها للإشراف عليهم”. تركز الدراسة على أربعة تكتيكات محددة: تخريب القرار البشري، وتخريب التعليمات البرمجية، وتقويض الرقابة.

فكر في المستخدمين الذين يدفعون ChatGPT إلى أقصى الحدود، محاولين إقناعه بإنشاء محتوى غير لائق أو صور رسومية. تدور هذه الاختبارات حول ضمان عدم إمكانية خداع الذكاء الاصطناعي لخرق قواعده الخاصة.

سرعة الضوء ماشابل

تقول أنثروبيك في الورقة البحثية إن هدفها هو الاستعداد لاحتمال تطور الذكاء الاصطناعي إلى شيء يتمتع بقدرات خطيرة. لذلك قاموا بإخضاع نماذج Claude 3 Opus و3.5 Sonnet لسلسلة من الاختبارات، المصممة لتقييم وتعزيز بروتوكولات السلامة الخاصة بهم.

ركز اختبار القرار البشري على دراسة كيف يمكن للذكاء الاصطناعي أن يتلاعب بعملية صنع القرار البشري. الاختبار الثاني، Code Sabotage، قام بتحليل ما إذا كان الذكاء الاصطناعي يمكنه إدخال الأخطاء بمهارة في قواعد بيانات الترميز. أدت نماذج الذكاء الاصطناعي الأقوى في الواقع إلى دفاعات أقوى ضد هذه الأنواع من نقاط الضعف.

واستكشفت الاختبارات المتبقية – Sandbaging و Undermining Oversight – ما إذا كان الذكاء الاصطناعي يمكنه إخفاء قدراته الحقيقية أو تجاوز آليات السلامة المدمجة داخل النظام.

في الوقت الحالي، خلص بحث أنثروبيك إلى أن نماذج الذكاء الاصطناعي الحالية تشكل خطرًا منخفضًا، على الأقل فيما يتعلق بهذه القدرات الضارة.

“يعتبر الحد الأدنى من عمليات التخفيف حاليًا كافيًا لمعالجة مخاطر التخريب،” كما كتب الفريق، ولكن “يبدو أن التقييمات الأكثر واقعية وعمليات التخفيف القوية ستكون ضرورية قريبًا مع تحسن القدرات”.

الترجمة: احترس أيها العالم.

المواضيع
الذكاء الاصطناعي والأمن السيبراني

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

تختبر الأنثروبي قدرة الذكاء الاصطناعي على التخريب

معجب بهذه:

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

اترك تعليقاً إلغاء الرد

أفضل عرض تلفزيوني ليوم الجمعة السوداء: وفر 26% على تلفزيون TCL 75 بوصة فئة S5 في أمازون

عروض الجمعة السوداء المبكرة لآلات الإسبريسو: احصل على خصم يصل إلى 53%

متى تبدأ مبيعات الجمعة السوداء؟ عروض العطلات المبكرة موجودة بالفعل هنا.

أفضل صفقة بث يوم الجمعة السوداء: احصل على خصم بقيمة 27 دولارًا على Fire TV Stick 4K Max من Amazon

أفضل صفقة تلفزيون الجمعة السوداء: خصم 450 دولارًا على تلفزيون Hisense QLED 4K مقاس 85 بوصة

روابط نصية AA50

أفضل عرض تلفزيوني ليوم الجمعة السوداء: وفر 26% على تلفزيون TCL 75 بوصة فئة S5 في أمازون

عروض الجمعة السوداء المبكرة لآلات الإسبريسو: احصل على خصم يصل إلى 53%

متى تبدأ مبيعات الجمعة السوداء؟ عروض العطلات المبكرة موجودة بالفعل هنا.

أفضل صفقة بث يوم الجمعة السوداء: احصل على خصم بقيمة 27 دولارًا على Fire TV Stick 4K Max من Amazon

أفضل صفقة تلفزيون الجمعة السوداء: خصم 450 دولارًا على تلفزيون Hisense QLED 4K مقاس 85 بوصة

أفضل عروض الأدوات اللاسلكية ليوم الجمعة الأسود: أدوات مجانية مع مجموعة البطاريات

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من مرابع التكنولوجيا

أطلقت XAI الخاصة بـ Elon Musk واجهة برمجة التطبيقات (API) الخاصة بها

إعداد ضمير Google Meet: كيفية تغييره

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

أفضل عرض تلفزيوني ليوم الجمعة السوداء: وفر 26% على تلفزيون TCL 75 بوصة فئة S5 في أمازون

عروض الجمعة السوداء المبكرة لآلات الإسبريسو: احصل على خصم يصل إلى 53%

متى تبدأ مبيعات الجمعة السوداء؟ عروض العطلات المبكرة موجودة بالفعل هنا.

أفضل صفقة بث يوم الجمعة السوداء: احصل على خصم بقيمة 27 دولارًا على Fire TV Stick 4K Max من Amazon

أفضل صفقة تلفزيون الجمعة السوداء: خصم 450 دولارًا على تلفزيون Hisense QLED 4K مقاس 85 بوصة

أفضل عروض الأدوات اللاسلكية ليوم الجمعة الأسود: أدوات مجانية مع مجموعة البطاريات

اكتشاف المزيد من مرابع التكنولوجيا