technology··1 분 분량
Anthropic의 Claude Opus 4.8, 6개 테스트 평가에서 엇갈린 결과
Anthropic의 새로운 플래그십 모델은 수학과 코드에서 뛰어났지만 한 번의 프롬프트로 전체 토큰 할당량을 소진했습니다.

Anthropic의 최신 모델인 Claude Opus 4.8이 6개 테스트 평가를 통해 강점과 약점을 드러냈습니다. AI는 복잡한 수학 문제를 잘 풀고 완벽한 게임을 생성했지만, 단 한 번의 프롬프트로 전체 토큰 허용량을 소진했습니다.
테스트 하이라이트
- 어려운 수학 문제를 완벽히 풀며 강력한 추론 능력을 보여줌.
- 처음부터 깨끗하고 버그 없는 게임을 생성.
- 한 번의 상호작용으로 전체 토큰 할당량을 소진하여 추가 테스트를 제한함.
관찰자들은 Claude Opus 4.8이 최적화된 작업에서는 뛰어나지만 토큰 관리에 어려움을 겪는다고 지적했습니다. 이 사건은 모델이 장황한 출력을 생성하는 경향을 강조하며, 긴 세션에서의 사용성에 영향을 줄 수 있습니다.
Anthropic은 토큰 소비 문제에 대해 아직 언급하지 않았습니다. 평가는 Decrypt가 표준 벤치마크 프롬프트를 사용하여 수행했습니다.