يقدم الأنثروبريز نماذج Gen Next Claude Opus 4 و Sonnet 4

بعد أسبوع Whirlwind من إعلانات من Google و Openai ، لدى الأنثروبري أخبارها الخاصة للمشاركة.

في يوم الخميس ، أعلنت الأنثروبور كلود أوبوس 4 و كلود سونيت 4 ، الجيل القادم من النماذج ، مع التركيز على الترميز ، والتفكير ، والقدرات الوكلاء. وفقًا لـ Rakuten ، التي حصلت على إمكانية الوصول المبكر إلى النموذج ، ركض Claude Opus 4 “بشكل مستقل لمدة سبع ساعات بأداء مستمر”.

يعد كلود أوبوس أكبر نسخة من عائلة النموذج مع المزيد من القوة لمهام أطول ومعقدة ، في حين أن السوناتة أسرع بشكل عام وأكثر كفاءة. Claude Opus 4 هي خطوة لأعلى من نسختها السابقة ، Opus 3 ، و Sonnet 4 يحل محل Sonnet 3.7.

سرعة الضوء القابلة للضوء

يقول أنثروبريك إن كلود أوبوس 4 و Sonnet 4 يتفوقان على منافسيهم مثل Openai’s O3 و Gemini 2.5 Pro على المعايير الرئيسية لمهام الترميز الوكلاء مثل مقاعد Swe ومقال الطرفية. ومع ذلك ، تجدر الإشارة إلى أن المعايير التي تم الإبلاغ عنها ذاتيًا لا تعتبر أفضل علامات الأداء لأن هذه التقييمات لا تترجم دائمًا إلى حالات الاستخدام في العالم الحقيقي ، بالإضافة إلى أن مختبرات الذكاء الاصطناعي ليست في الشفافية بأكملها في هذه الأيام ، والتي يدعو باحثو الذكاء الاصطناعي وصانعي السياسة بشكل متزايد. وقال مركز الأبحاث المشترك للمفوضية الأوروبية: “يجب إخضاع معايير الذكاء الاصطناعى لنفس المطالب المتعلقة بالشفافية والإنصاف والقدرة على التوضيح ، حيث تكتب أنظمة الخوارزمية ونماذج الذكاء الاصطناعي بشكل كبير”.

يتفوق Opus 4 و Sonnet 4 على منافسيهما في Swe-bench ، لكنهم يأخذون أداءً معياريًا مع حبة من الملح.
الائتمان: الإنسان

إلى جانب إطلاق Opus 4 و Sonnet 4 ، قدمت الأنثروبور أيضًا ميزات جديدة. يتضمن ذلك البحث على الويب بينما يكون كلود في وضع التفكير الموسع ، و ملخصات سجل تفكير كلود “بدلاً من عملية التفكير الخام لكلود.” تم وصف هذا في منشور المدونة على أنه أكثر فائدة للمستخدمين ، ولكن أيضًا “الحماية [its] ميزة تنافسية ، “أي عدم الكشف عن مكونات صلصةها السرية. أعلنت الأنثروبور أيضًا عن تحسين الذاكرة واستخدام الأداة بالتوازي مع العمليات الأخرى ، والتوافر العام لرمز CLAUDE الخاص بأداة الترميز ، وأدوات إضافية ل API CLAUDE.

في عالم السلامة والمحاذاة ، قال الإنسان إن كلا النموذجين “أقل عرضة بنسبة 65 في المائة للانخراط في مكافأة القرصنة من كلود سونيت 3.7”. مكافأة القرصنة هي ظاهرة مرعبة بعض الشيء حيث يمكن للموديلات الغش بشكل أساسي والكذب لكسب مكافأة (أداء مهمة بنجاح).

أحد أفضل المؤشرات التي لدينا في تقييم أداء النموذج هو تجربة المستخدمين الخاصة به ، على الرغم من أنها أكثر ذاتية من المعايير. لكننا سنكتشف قريبًا كيف يصل كلود أوبوس 4 و Sonnet 4 إلى المنافسين في هذا الصدد.

موضوعات
الذكاء الاصطناعي