technology·8 thg 6, 2026·1 phút đọc

Claude Opus 4.8 của Anthropic cho thấy kết quả trái chiều trong đánh giá sáu bài kiểm tra

Mô hình hàng đầu mới của Anthropic xuất sắc trong toán học và mã code nhưng đã tiêu thụ toàn bộ hạn mức token trong một lần nhắc.

Mô hình mới nhất của Anthropic, Claude Opus 4.8, đã trải qua một đánh giá sáu bài kiểm tra, tiết lộ cả điểm mạnh và điểm yếu. AI hoạt động tốt trong một bài toán phức tạp và tạo ra một trò chơi hoàn hảo, nhưng cũng đã cạn kiệt toàn bộ hạn mức token chỉ trong một lần nhắc.

Điểm nổi bật của bài kiểm tra

Vượt qua một bài toán khó, thể hiện khả năng suy luận mạnh mẽ.
Tạo ra một trò chơi sạch sẽ, không lỗi từ đầu.
Tiêu thụ toàn bộ hạn mức token trong một lần tương tác, hạn chế các bài kiểm tra tiếp theo.

Các nhà quan sát lưu ý rằng trong khi Claude Opus 4.8 xuất sắc trong các nhiệm vụ mà nó được tối ưu hóa, nó gặp khó khăn trong việc quản lý token. Sự cố này làm nổi bật xu hướng của mô hình tạo ra đầu ra dài dòng, có thể ảnh hưởng đến khả năng sử dụng trong các phiên dài.

Anthropic chưa bình luận về vấn đề tiêu thụ token. Đánh giá được thực hiện bởi Decrypt sử dụng các lời nhắc tiêu chuẩn.

#claude #anthropic #ai #testing #tokens #flagship

Điểm nổi bật của bài kiểm tra

Bài liên quan