technology·08‏/06‏/2026·1 دقيقة قراءة

نموذج كلود أوبوس 4.8 من أنثروبيك يُظهر نتائج متباينة في تقييم ستة اختبارات

النموذج الرئيسي الجديد لأنثروبيك تفوق في الرياضيات والكود لكنه استهلك حصة التوكن بأكملها في استفسار واحد.

خضع أحدث نموذج لأنثروبيك، كلود أوبوس 4.8، لتقييم ستة اختبارات كشف عن نقاط القوة والضعف. أدى الذكاء الاصطناعي بشكل جيد في مسألة رياضية معقدة وأنشأ لعبة لا تشوبها شائبة، لكنه أيضًا استنفد كامل حصة التوكن في استفسار واحد.

أبرز الاختبارات

أجاد في حل مسألة رياضية صعبة، مظهرًا قدرات استدلالية قوية.
أنتج لعبة نظيفة وخالية من الأخطاء من الصفر.
استهلك حصة التوكن الكاملة في تفاعل واحد، مما حد من الاختبارات الإضافية.

لاحظ المراقبون أنه بينما يتفوق كلود أوبوس 4.8 في المهام المحسنة لها، فإنه يواجه صعوبة في إدارة التوكن. يسلط الحادث الضوء على ميل النموذج لتوليد مخرجات مسهبة، مما قد يؤثر على قابلية الاستخدام في الجلسات الطويلة.

لم تعلق أنثروبيك على مشكلة استهلاك التوكن. أُجري التقييم بواسطة Decrypt باستخدام استفسارات مرجعية قياسية.

#claude #anthropic #ai #testing #tokens #flagship

أبرز الاختبارات

مقالات ذات صلة