technology·8 มิ.ย. 2569·1 นาทีในการอ่าน

Claude Opus 4.8 ของ Anthropic แสดงผลลัพธ์ที่หลากหลายในการประเมินหกการทดสอบ

โมเดลเรือธงใหม่ของ Anthropic เก่งด้านคณิตศาสตร์และโค้ด แต่ใช้โควต้าโทเค็นทั้งหมดในหนึ่งพรอมต์

โมเดลล่าสุดของ Anthropic, Claude Opus 4.8, ได้ผ่านการประเมินหกการทดสอบที่เผยให้เห็นทั้งจุดแข็งและจุดอ่อน AI ทำได้ดีในปัญหาคณิตศาสตร์ที่ซับซ้อนและสร้างเกมที่ไร้ที่ติ แต่ก็ใช้โควต้าโทเค็นทั้งหมดในหนึ่งพรอมต์

ไฮไลท์การทดสอบ

ทำคะแนนได้ดีเยี่ยมในปัญหาคณิตศาสตร์ที่ท้าทาย แสดงความสามารถในการให้เหตุผลที่แข็งแกร่ง
ผลิตเกมที่สะอาดและไม่มีข้อผิดพลาดตั้งแต่เริ่มต้น
ใช้โควต้าโทเค็นทั้งหมดในการโต้ตอบครั้งเดียว จำกัดการทดสอบเพิ่มเติม

ผู้สังเกตการณ์ตั้งข้อสังเกตว่าในขณะที่ Claude Opus 4.8 เก่งในงานที่ได้รับการปรับให้เหมาะสม แต่ก็มีปัญหาในการจัดการโทเค็น เหตุการณ์นี้เน้นย้ำถึงแนวโน้มของโมเดลในการสร้างเอาต์พุตที่มากเกินไป ซึ่งอาจส่งผลกระทบต่อการใช้งานในเซสชันที่ยาวนาน

Anthropic ยังไม่ได้แสดงความคิดเห็นเกี่ยวกับปัญหาการบริโภคโทเค็น การประเมินดำเนินการโดย Decrypt โดยใช้พรอมต์มาตรฐาน

#claude #anthropic #ai #testing #tokens #flagship

ไฮไลท์การทดสอบ

เรื่องที่เกี่ยวข้อง