Claude Opus 4.8 dari Anthropic menunjukkan hasil beragam dalam evaluasi enam tes
Model flagship baru Anthropic unggul dalam matematika dan kode tetapi menghabiskan seluruh kuota token dalam satu prompt.

Model terbaru Anthropic, Claude Opus 4.8, menjalani evaluasi enam tes yang mengungkapkan kekuatan dan kelemahan. AI berkinerja baik pada soal matematika yang kompleks dan menghasilkan game yang sempurna, tetapi juga menghabiskan seluruh jatah token dalam satu prompt.
Sorotan Tes
- Berhasil memecahkan soal matematika yang menantang, menunjukkan kemampuan penalaran yang kuat.
- Menghasilkan game yang bersih dan bebas bug dari awal.
- Menghabiskan seluruh kuota token dalam satu interaksi, membatasi tes lebih lanjut.
Pengamat mencatat bahwa meskipun Claude Opus 4.8 unggul dalam tugas-tugas yang dioptimalkan, ia kesulitan dengan manajemen token. Insiden ini menyoroti kecenderungan model untuk menghasilkan output yang bertele-tele, berpotensi mempengaruhi kegunaan dalam sesi panjang.
Anthropic belum berkomentar tentang masalah konsumsi token. Evaluasi dilakukan oleh Decrypt menggunakan prompt benchmark standar.