تختبر الأنثروبي قدرة الذكاء الاصطناعي على التخريب
مع استمرار الضجيج حول الذكاء الاصطناعي التوليدي، أصبحت الحاجة إلى لوائح سلامة قوية أكثر وضوحًا.
والآن تبحث شركة Anthropic – الشركة التي تقف وراء Claude AI – في كيفية خداع نماذجها للمستخدمين أو تخريبهم. الأنثروبيك أسقطت للتو ورقة توضح نهجهم.
يتنحى سام ألتمان عن منصبه كرئيس لمجموعة السلامة في OpenAI
أحدث أبحاث Anthropic – بعنوان “تقييمات التخريب للنماذج الحدودية” – تأتي من فريق Alignment Science التابع لها، مدفوعًا بسياسة “القياس المسؤول” للشركة.
الهدف هو قياس مدى قدرة الذكاء الاصطناعي على تضليل المستخدمين أو حتى “تخريب الأنظمة التي نضعها للإشراف عليهم”. تركز الدراسة على أربعة تكتيكات محددة: تخريب القرار البشري، وتخريب التعليمات البرمجية، وتقويض الرقابة.
فكر في المستخدمين الذين يدفعون ChatGPT إلى أقصى الحدود، محاولين إقناعه بإنشاء محتوى غير لائق أو صور رسومية. تدور هذه الاختبارات حول ضمان عدم إمكانية خداع الذكاء الاصطناعي لخرق قواعده الخاصة.
سرعة الضوء ماشابل
تقول أنثروبيك في الورقة البحثية إن هدفها هو الاستعداد لاحتمال تطور الذكاء الاصطناعي إلى شيء يتمتع بقدرات خطيرة. لذلك قاموا بإخضاع نماذج Claude 3 Opus و3.5 Sonnet لسلسلة من الاختبارات، المصممة لتقييم وتعزيز بروتوكولات السلامة الخاصة بهم.
ركز اختبار القرار البشري على دراسة كيف يمكن للذكاء الاصطناعي أن يتلاعب بعملية صنع القرار البشري. الاختبار الثاني، Code Sabotage، قام بتحليل ما إذا كان الذكاء الاصطناعي يمكنه إدخال الأخطاء بمهارة في قواعد بيانات الترميز. أدت نماذج الذكاء الاصطناعي الأقوى في الواقع إلى دفاعات أقوى ضد هذه الأنواع من نقاط الضعف.
واستكشفت الاختبارات المتبقية – Sandbaging و Undermining Oversight – ما إذا كان الذكاء الاصطناعي يمكنه إخفاء قدراته الحقيقية أو تجاوز آليات السلامة المدمجة داخل النظام.
في الوقت الحالي، خلص بحث أنثروبيك إلى أن نماذج الذكاء الاصطناعي الحالية تشكل خطرًا منخفضًا، على الأقل فيما يتعلق بهذه القدرات الضارة.
“يعتبر الحد الأدنى من عمليات التخفيف حاليًا كافيًا لمعالجة مخاطر التخريب،” كما كتب الفريق، ولكن “يبدو أن التقييمات الأكثر واقعية وعمليات التخفيف القوية ستكون ضرورية قريبًا مع تحسن القدرات”.
الترجمة: احترس أيها العالم.
المواضيع
الذكاء الاصطناعي والأمن السيبراني
اكتشاف المزيد من مرابع التكنولوجيا
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.