Claude Opus 4.8 de Anthropic muestra resultados mixtos en evaluación de seis pruebas
El nuevo modelo insignia de Anthropic destacó en matemáticas y código, pero consumió toda la cuota de tokens en un solo prompt.

El último modelo de Anthropic, Claude Opus 4.8, se sometió a una evaluación de seis pruebas que reveló tanto fortalezas como debilidades. La IA se desempeñó bien en un problema matemático complejo y generó un juego impecable, pero también agotó todo su límite de tokens en un solo prompt.
Aspectos destacados de las pruebas
- Resolvió un difícil problema matemático, mostrando fuertes capacidades de razonamiento.
- Produjo un juego limpio y sin errores desde cero.
- Consumió la cuota completa de tokens en una interacción, limitando pruebas adicionales.
Los observadores notaron que, si bien Claude Opus 4.8 sobresale en tareas para las que está optimizado, tiene problemas con la gestión de tokens. El incidente resalta la tendencia del modelo a generar respuestas extensas, lo que podría afectar la usabilidad en sesiones largas.
Anthropic no ha comentado sobre el problema de consumo de tokens. La evaluación fue realizada por Decrypt utilizando prompts de referencia estándar.