technology·2026年6月8日·1 分钟阅读

Anthropic 的 Claude Opus 4.8 在六项测试中表现参差不齐

Anthropic 的新旗舰模型在数学和代码方面表现出色，但一次提示消耗了整个 Token 配额。

Anthropic 的最新模型 Claude Opus 4.8 接受了六项测试评估，展现了优点和缺点。该 AI 在复杂数学问题上表现出色，并生成了一款完美的游戏，但也一次性耗尽了其全部 Token 额度。

测试亮点

观察者指出，尽管 Claude Opus 4.8 在其优化任务中表现出色，但在 Token 管理上存在困难。这一事件凸显了该模型生成冗长输出的倾向，可能影响长时间会话的可用性。

Anthropic 尚未对 Token 消耗问题发表评论。该评估由 Decrypt 使用标准基准提示进行。