Claude Opus 4.8 ของ Anthropic แสดงผลลัพธ์ที่หลากหลายในการประเมินหกการทดสอบ
โมเดลเรือธงใหม่ของ Anthropic เก่งด้านคณิตศาสตร์และโค้ด แต่ใช้โควต้าโทเค็นทั้งหมดในหนึ่งพรอมต์

โมเดลล่าสุดของ Anthropic, Claude Opus 4.8, ได้ผ่านการประเมินหกการทดสอบที่เผยให้เห็นทั้งจุดแข็งและจุดอ่อน AI ทำได้ดีในปัญหาคณิตศาสตร์ที่ซับซ้อนและสร้างเกมที่ไร้ที่ติ แต่ก็ใช้โควต้าโทเค็นทั้งหมดในหนึ่งพรอมต์
ไฮไลท์การทดสอบ
- ทำคะแนนได้ดีเยี่ยมในปัญหาคณิตศาสตร์ที่ท้าทาย แสดงความสามารถในการให้เหตุผลที่แข็งแกร่ง
- ผลิตเกมที่สะอาดและไม่มีข้อผิดพลาดตั้งแต่เริ่มต้น
- ใช้โควต้าโทเค็นทั้งหมดในการโต้ตอบครั้งเดียว จำกัดการทดสอบเพิ่มเติม
ผู้สังเกตการณ์ตั้งข้อสังเกตว่าในขณะที่ Claude Opus 4.8 เก่งในงานที่ได้รับการปรับให้เหมาะสม แต่ก็มีปัญหาในการจัดการโทเค็น เหตุการณ์นี้เน้นย้ำถึงแนวโน้มของโมเดลในการสร้างเอาต์พุตที่มากเกินไป ซึ่งอาจส่งผลกระทบต่อการใช้งานในเซสชันที่ยาวนาน
Anthropic ยังไม่ได้แสดงความคิดเห็นเกี่ยวกับปัญหาการบริโภคโทเค็น การประเมินดำเนินการโดย Decrypt โดยใช้พรอมต์มาตรฐาน