technology·2026. 6. 8.·1 분 분량

Anthropic의 Claude Opus 4.8, 6개 테스트 평가에서 엇갈린 결과

Anthropic의 새로운 플래그십 모델은 수학과 코드에서 뛰어났지만 한 번의 프롬프트로 전체 토큰 할당량을 소진했습니다.

Anthropic의 최신 모델인 Claude Opus 4.8이 6개 테스트 평가를 통해 강점과 약점을 드러냈습니다. AI는 복잡한 수학 문제를 잘 풀고 완벽한 게임을 생성했지만, 단 한 번의 프롬프트로 전체 토큰 허용량을 소진했습니다.

테스트 하이라이트

관찰자들은 Claude Opus 4.8이 최적화된 작업에서는 뛰어나지만 토큰 관리에 어려움을 겪는다고 지적했습니다. 이 사건은 모델이 장황한 출력을 생성하는 경향을 강조하며, 긴 세션에서의 사용성에 영향을 줄 수 있습니다.

Anthropic은 토큰 소비 문제에 대해 아직 언급하지 않았습니다. 평가는 Decrypt가 표준 벤치마크 프롬프트를 사용하여 수행했습니다.