Claude Opus 4.8 发布:更重视不确定性和工程协作
北京时间 2026 年 5 月 29 日凌晨,Anthropic 发布了 Claude Opus 4.8。
距离 Opus 4.7 发布仅过去 43 天。这次更新的重点不只是基准分数,而是模型在不确定时更愿意说明边界。
一、诚实度:两个 0% 指标
很多开发者都遇到过这种情况:AI 指出代码有 Bug,解释看起来完整,但你检查后发现问题并不存在。
语言模型常见问题是:在不确定时仍给出看似确定的答案。代码场景里,这会表现为虚构 Bug、虚构 API 或给出无法复现的解释。
Opus 4.8 在两个指标上给出了 0%:
| 指标 | Opus 4.5 | Opus 4.7 | Opus 4.8 |
|---|
| 代码缺陷虚报率 | 40% | 25% | 0% |
| 偷懒敷衍率 | 25% | 未披露 | 0% |
这两个指标分别意味着什么?
代码缺陷虚报率 = 0%:在标准测试中,Opus 4.8 没有虚构不存在的 Bug。Opus 4.5 的假阳性接近一半,4.7 降到四分之一,4.8 在该测试中归零。
偷懒敷衍率 = 0%:当用户要求它调查跨文件性能瓶颈这类问题时,Opus 4.8 在测试中更能持续追踪根因,而不是只给表层分析。
更重要的是,Opus 4.8 对代码缺陷不加说明的概率降到了 4.7 的 1/4。面对不确定的情况,它会主动说:"我不确定,需要更多信息",而不是硬编一个听起来合理的答案。
对冲基金桥水(Bridgewater)的反馈提到:Opus 4.8 会主动标记自己输入和输出中的分析问题,而这些问题是其他模型经常遗漏的。
为什么承认不确定很重要
想象两位同事。同事 A 面对任何问题都侃侃而谈,从不犹豫。同事 B 在被问到不熟悉的问题时,会坦诚地说:"这块我不太熟,让我先查查。"
在真实的生产环境中,你更信任谁?
AI 也一样。在代码审查、安全审计、金融分析这些低容错场景中,虚报一个不存在的问题,或漏掉一个真实问题,都比明确说“需要更多信息”更危险。
Anthropic 把这类能力归因于不确定性校准(Uncertainty Calibration)。模型不仅要给出答案,还要判断自己对答案有多大把握。
二、编程能力:12 项基准全面领先
诚实不仅是态度,也建立在实力之上。在纯编程能力的对决中,Opus 4.8 在 12 项行业基准中实现了全面领先。
SWE-Bench Pro 得分从 4.7 的 64.3% 跃升到 69.2%,领先 GPT-5.5 超过 10 个百分点,领先 Gemini 3.1 Pro 超过 15 个百分点。
| 基准测试 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|
| SWE-Bench Pro | 69.2% | 58.6% | 54.2% |
| HLE 多学科推理 | 49.8% | 41.4% | 44.4% |
| OSWorld 电脑操作 | 83.4% | 78.7% | 76.2% |
| 知识工作(Elo) | 1890 | 1769 | 1314 |
| 金融分析 | 53.9% | 51.8% | 43.0% |
在 Terminal-Bench 2.1(真实终端任务)上,GPT-5.5 以 78.2% 略高于 Opus 4.8 的 74.6%。这个差距值得关注。
但这些标准基准测试只是一部分。更能说明问题的,是 Anthropic 内部开发的、更硬核的 FrontierSWE 测试集:
- 用 Zig 从零写一个 PostgreSQL 服务器
- 重写 git 版本控制系统
- 编写一个 Lua 原生编译器
在这些编程挑战中,Opus 4.8 以 83% 的胜率领先。这类任务比常规基准更接近工程问题,能补充说明模型的实际编码能力。
三、Dynamic Workflows:多 agent 协作
Dynamic Workflows 目前以 Research Preview 形态内置在 Claude Code 中。
它是怎么运作的?
传统 AI 编程助手多是“一问一答”:你给任务,它给代码。Dynamic Workflows 会把任务拆开并调度多个子任务:
- 任务拆解:Claude 收到你的任务后,首先自动编写一个 JavaScript 编排脚本
- 并行调度:将复杂任务拆分为数十到数百个子任务
- 多 agent 并行执行:调度大量 subagent 同时推进各个子任务
- 交叉审查:完成后,派另一批 agent 从不同角度审查结果,互相挑错、辩论
- 收敛闭合:直到答案在多方检验下达成一致
它把 Claude Code 从单个回答者扩展为一个多 agent 编排系统,覆盖拆解、实现、检查和收敛。
Bun 运行时移植案例
官方展示的案例是:将 Bun 运行时的 75 万行 Zig 代码迁移到 Rust。
这类任务要求模型处理生产级 JavaScript 运行时的核心基础设施迁移,从一种系统语言重写到另一种。
结果?
- 从首次提交到合并,仅用了 11 天
- 产生了 6,000+ 次提交
- 现有测试套件通过率 99.8%
Bun 的作者 Jarred Sumner 表示,这个过程几乎是"没有人类逐行审查"完成的。一群 AI agent 自己拆解任务、自己写代码、自己互相检查、自己合并。
如果由人类团队执行,这类迁移通常需要更长周期。
什么时候该用 Dynamic Workflows?
官方列出的典型场景:
- 全仓库级 Bug 排查:一个 Bug 散落在多个服务中,涉及几十个文件
- 大规模代码迁移:框架升级、语言迁移、API 重构
- 框架/运行时重写:类似 Bun 的案例
- 系统架构压力测试:让多个 agent 扮演攻击者和防御者,互相检验
官方也提醒:Dynamic Workflows 的 Token 消耗显著高于普通会话。目前它仍处于 Research Preview 阶段,成本和稳定性还需要继续观察。
四、Effort Control:把"多想一步"变成可调节的旋钮
Opus 4.8 新增了一个非常实用的功能:五档努力程度控制。
Low → Medium → High(默认) → Extra → Max
不同档位的差异:
| 档位 | 适合场景 | 特点 |
|---|
| Low | 简单代码补全、格式转换 | 响应快、Token 省 |
| Medium | 日常编程辅助 | 平衡 |
| High(默认) | 复杂逻辑、代码审查 | 推理深、质量高 |
| Extra | 架构设计、系统重构 | 更深入的分析 |
| Max | 安全审计、关键决策 | 计算资源拉满 |
这个设计把“思考深度”变成了用户可控变量。
过去,用户通常只能通过提示词要求模型“多想一步”。现在,用户可以直接选择档位。
写个简单的工具函数?Low 档,秒回。排查生产环境的并发 Bug?Max 档,让它把计算资源用满。
附加改进:对话中动态插入系统指令
Messages API 还支持对话中途插入系统指令。关键是,这个操作不破坏 prompt cache。
这意味着开发者可以在长对话中途调整任务权限、Token 预算或上下文环境,而不需要重新开始。对 Agentic Workflow 来说,这是一个有用的基础能力。
五、Fast Mode:便宜三倍,快三倍
性能和价格的改进同样值得一提:
| 模式 | 输入价格 | 输出价格 |
|---|
| 标准模式 | $5 / 百万 token | $25 / 百万 token |
| 快速模式 | $10 / 百万 token | $50 / 百万 token |
Fast Mode 的速度提升至标准模式的 2.5 倍,而价格降至 4.7 时代的 1/3。
标准模式定价保持不变,同时能力提升。
六、Mythos 预告
Anthropic 同时预告了 Claude Mythos。
Mythos 是一个定位在 Opus 之上的更高层级的新模型系列,预计 "未来几周" 向所有客户开放。
目前已知的信息:
- Mythos Preview 已在 Project Glasswing 项目中与约 50 个合作伙伴进行测试,包括 Apple、Google、Microsoft、AWS
- 在测试期间,Mythos 已发现 10,000+ 个高危 / 严重软件漏洞
- Mythos 展现出了自主发现零日漏洞并编写 exploit 的能力
- 正因为能力太强,Anthropic 正在加强网络防护措施后才准备公开发布
有分析认为,Opus 4.8 可能是 Mythos 的蒸馏版本。这仍是推测,需要等待 Anthropic 后续公开信息验证。
对安全从业者来说,Mythos 的零日漏洞发现能力既可能提升自动化审计效率,也会带来滥用风险。模型一旦能自动发现并利用漏洞,披露、权限控制和防滥用机制都要跟上。
七、行业影响与展望
Opus 4.8 的发布传递了一个信号:Anthropic 正在强调模型的工程执行能力,而不只强调基础推理分数。当几个头部模型的分数差距缩小时,实际价值会更多取决于三个维度:
- 可信度:模型是否知道自己的边界?会不会在不确定时诚实地说"不知道"?
- 工程系统能力:能不能从"回答一个问题"升级为"完成一个项目"?能不能协调多个子智能体并行工作?
- 用户控制力:能不能把推理深度、成本、速度的控制权交还给用户?
Opus 4.8 在这三个维度上都有明确更新:诚实度指标下降到 0%、Dynamic Workflows 支持多 agent 协作、Effort Control 支持调节推理深度。
从更宏观的视角看,2026 年夏天的 AI 竞赛正进入一个新阶段。GPT-5.6、Gemini 3.5 Pro、Grok 5 都将在 6 月发布,而 Mythos 的预告则意味着军备竞赛还远未结束。对开发者来说,这意味着更多选择、更低价格、更强能力。
Opus 4.8 的重点是可靠性和可控性:模型能说明不确定性,能调度多个子 agent,也能按任务难度调整推理深度。这些能力让它更接近工程协作系统。
发布日期:2026 年 5 月 29 日
参考资料:Anthropic 官方公告、Artificial Analysis、Simon Willison 博客、The Next Web、ZDNET、36氪、腾讯科技等