technology·8 Jun 2026·1 menit baca

Claude Opus 4.8 dari Anthropic menunjukkan hasil beragam dalam evaluasi enam tes

Model flagship baru Anthropic unggul dalam matematika dan kode tetapi menghabiskan seluruh kuota token dalam satu prompt.

Model terbaru Anthropic, Claude Opus 4.8, menjalani evaluasi enam tes yang mengungkapkan kekuatan dan kelemahan. AI berkinerja baik pada soal matematika yang kompleks dan menghasilkan game yang sempurna, tetapi juga menghabiskan seluruh jatah token dalam satu prompt.

Sorotan Tes

Berhasil memecahkan soal matematika yang menantang, menunjukkan kemampuan penalaran yang kuat.
Menghasilkan game yang bersih dan bebas bug dari awal.
Menghabiskan seluruh kuota token dalam satu interaksi, membatasi tes lebih lanjut.

Pengamat mencatat bahwa meskipun Claude Opus 4.8 unggul dalam tugas-tugas yang dioptimalkan, ia kesulitan dengan manajemen token. Insiden ini menyoroti kecenderungan model untuk menghasilkan output yang bertele-tele, berpotensi mempengaruhi kegunaan dalam sesi panjang.

Anthropic belum berkomentar tentang masalah konsumsi token. Evaluasi dilakukan oleh Decrypt menggunakan prompt benchmark standar.

#claude #anthropic #ai #testing #tokens #flagship

Sorotan Tes

Berita terkait