technology··1 分钟阅读
Anthropic 的 Claude Opus 4.8 在六项测试中表现参差不齐
Anthropic 的新旗舰模型在数学和代码方面表现出色,但一次提示消耗了整个 Token 配额。

Anthropic 的最新模型 Claude Opus 4.8 接受了六项测试评估,展现了优点和缺点。该 AI 在复杂数学问题上表现出色,并生成了一款完美的游戏,但也一次性耗尽了其全部 Token 额度。
测试亮点
- 在具有挑战性的数学问题上取得优异成绩,展现出强大的推理能力。
- 从头开始生成了一个干净、无错误的游戏。
- 一次交互中消耗了全部 Token 配额,限制了后续测试。
观察者指出,尽管 Claude Opus 4.8 在其优化任务中表现出色,但在 Token 管理上存在困难。这一事件凸显了该模型生成冗长输出的倾向,可能影响长时间会话的可用性。
Anthropic 尚未对 Token 消耗问题发表评论。该评估由 Decrypt 使用标准基准提示进行。