technology·8 jun 2026·1 min de lectura

Claude Opus 4.8 de Anthropic muestra resultados mixtos en evaluación de seis pruebas

El nuevo modelo insignia de Anthropic destacó en matemáticas y código, pero consumió toda la cuota de tokens en un solo prompt.

El último modelo de Anthropic, Claude Opus 4.8, se sometió a una evaluación de seis pruebas que reveló tanto fortalezas como debilidades. La IA se desempeñó bien en un problema matemático complejo y generó un juego impecable, pero también agotó todo su límite de tokens en un solo prompt.

Aspectos destacados de las pruebas

Resolvió un difícil problema matemático, mostrando fuertes capacidades de razonamiento.
Produjo un juego limpio y sin errores desde cero.
Consumió la cuota completa de tokens en una interacción, limitando pruebas adicionales.

Los observadores notaron que, si bien Claude Opus 4.8 sobresale en tareas para las que está optimizado, tiene problemas con la gestión de tokens. El incidente resalta la tendencia del modelo a generar respuestas extensas, lo que podría afectar la usabilidad en sesiones largas.

Anthropic no ha comentado sobre el problema de consumo de tokens. La evaluación fue realizada por Decrypt utilizando prompts de referencia estándar.

#claude #anthropic #ai #testing #tokens #flagship

Aspectos destacados de las pruebas

Historias relacionadas