AI2026-05-297 分钟阅读

Claude Opus 4.8 深夜炸场：AI 终于学会说「我不确定」了

Anthropic 发布 Opus 4.8，诚实度两项历史性 0%、Dynamic Workflows 把 Claude Code 变成一支 AI 工程队、Mythos 预告暗示更大的还在后面。

Luo WJ

Luo WJ 维护 ToolOrbit，并复核开发者、图片、PDF、AI 和电商工具的输入说明、隐私边界和浏览器内使用效果。

作者主页

正在加载文章...

分享这篇文章

继续阅读

Claude Opus 4.8 深夜炸场：AI 终于学会说「我不确定」了

Anthropic 发布 Opus 4.8，诚实度两项历史性 0%、Dynamic Workflows 把 Claude Code 变成一支 AI 工程队、Mythos 预告暗示更大的还在后面。

Luo WJ

Luo WJ 维护 ToolOrbit，并复核开发者、图片、PDF、AI 和电商工具的输入说明、隐私边界和浏览器内使用效果。

作者主页

Claude Opus 4.8 发布：更重视不确定性和工程协作

北京时间 2026 年 5 月 29 日凌晨，Anthropic 发布了 Claude Opus 4.8。

距离 Opus 4.7 发布仅过去 43 天。这次更新的重点不只是基准分数，而是模型在不确定时更愿意说明边界。

一、诚实度：两个 0% 指标

很多开发者都遇到过这种情况：AI 指出代码有 Bug，解释看起来完整，但你检查后发现问题并不存在。

语言模型常见问题是：在不确定时仍给出看似确定的答案。代码场景里，这会表现为虚构 Bug、虚构 API 或给出无法复现的解释。

Opus 4.8 在两个指标上给出了 0%：

指标	Opus 4.5	Opus 4.7	Opus 4.8
代码缺陷虚报率	40%	25%	0%
偷懒敷衍率	25%	未披露	0%

这两个指标分别意味着什么？

代码缺陷虚报率 = 0%：在标准测试中，Opus 4.8 没有虚构不存在的 Bug。Opus 4.5 的假阳性接近一半，4.7 降到四分之一，4.8 在该测试中归零。

偷懒敷衍率 = 0%：当用户要求它调查跨文件性能瓶颈这类问题时，Opus 4.8 在测试中更能持续追踪根因，而不是只给表层分析。

更重要的是，Opus 4.8 对代码缺陷不加说明的概率降到了 4.7 的 1/4。面对不确定的情况，它会主动说："我不确定，需要更多信息"，而不是硬编一个听起来合理的答案。

对冲基金桥水（Bridgewater）的反馈提到：Opus 4.8 会主动标记自己输入和输出中的分析问题，而这些问题是其他模型经常遗漏的。

为什么承认不确定很重要

想象两位同事。同事 A 面对任何问题都侃侃而谈，从不犹豫。同事 B 在被问到不熟悉的问题时，会坦诚地说："这块我不太熟，让我先查查。"

在真实的生产环境中，你更信任谁？

AI 也一样。在代码审查、安全审计、金融分析这些低容错场景中，虚报一个不存在的问题，或漏掉一个真实问题，都比明确说“需要更多信息”更危险。

Anthropic 把这类能力归因于不确定性校准（Uncertainty Calibration）。模型不仅要给出答案，还要判断自己对答案有多大把握。

二、编程能力：12 项基准全面领先

诚实不仅是态度，也建立在实力之上。在纯编程能力的对决中，Opus 4.8 在 12 项行业基准中实现了全面领先。

SWE-Bench Pro 得分从 4.7 的 64.3% 跃升到 69.2%，领先 GPT-5.5 超过 10 个百分点，领先 Gemini 3.1 Pro 超过 15 个百分点。

基准测试	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	69.2%	58.6%	54.2%
HLE 多学科推理	49.8%	41.4%	44.4%
OSWorld 电脑操作	83.4%	78.7%	76.2%
知识工作（Elo）	1890	1769	1314
金融分析	53.9%	51.8%	43.0%

在 Terminal-Bench 2.1（真实终端任务）上，GPT-5.5 以 78.2% 略高于 Opus 4.8 的 74.6%。这个差距值得关注。

但这些标准基准测试只是一部分。更能说明问题的，是 Anthropic 内部开发的、更硬核的 FrontierSWE 测试集：

用 Zig 从零写一个 PostgreSQL 服务器
重写 git 版本控制系统
编写一个 Lua 原生编译器

在这些编程挑战中，Opus 4.8 以 83% 的胜率领先。这类任务比常规基准更接近工程问题，能补充说明模型的实际编码能力。

三、Dynamic Workflows：多 agent 协作

Dynamic Workflows 目前以 Research Preview 形态内置在 Claude Code 中。

它是怎么运作的？

传统 AI 编程助手多是“一问一答”：你给任务，它给代码。Dynamic Workflows 会把任务拆开并调度多个子任务：

任务拆解：Claude 收到你的任务后，首先自动编写一个 JavaScript 编排脚本
并行调度：将复杂任务拆分为数十到数百个子任务
多 agent 并行执行：调度大量 subagent 同时推进各个子任务
交叉审查：完成后，派另一批 agent 从不同角度审查结果，互相挑错、辩论
收敛闭合：直到答案在多方检验下达成一致

它把 Claude Code 从单个回答者扩展为一个多 agent 编排系统，覆盖拆解、实现、检查和收敛。

Bun 运行时移植案例

官方展示的案例是：将 Bun 运行时的 75 万行 Zig 代码迁移到 Rust。

这类任务要求模型处理生产级 JavaScript 运行时的核心基础设施迁移，从一种系统语言重写到另一种。

结果？

从首次提交到合并，仅用了 11 天
产生了 6,000+ 次提交
现有测试套件通过率 99.8%

Bun 的作者 Jarred Sumner 表示，这个过程几乎是"没有人类逐行审查"完成的。一群 AI agent 自己拆解任务、自己写代码、自己互相检查、自己合并。

如果由人类团队执行，这类迁移通常需要更长周期。

什么时候该用 Dynamic Workflows？

官方列出的典型场景：

全仓库级 Bug 排查：一个 Bug 散落在多个服务中，涉及几十个文件
大规模代码迁移：框架升级、语言迁移、API 重构
框架/运行时重写：类似 Bun 的案例
系统架构压力测试：让多个 agent 扮演攻击者和防御者，互相检验

官方也提醒：Dynamic Workflows 的 Token 消耗显著高于普通会话。目前它仍处于 Research Preview 阶段，成本和稳定性还需要继续观察。

四、Effort Control：把"多想一步"变成可调节的旋钮

Opus 4.8 新增了一个非常实用的功能：五档努力程度控制。

Low → Medium → High（默认） → Extra → Max

不同档位的差异：

档位	适合场景	特点
Low	简单代码补全、格式转换	响应快、Token 省
Medium	日常编程辅助	平衡
High（默认）	复杂逻辑、代码审查	推理深、质量高
Extra	架构设计、系统重构	更深入的分析
Max	安全审计、关键决策	计算资源拉满

这个设计把“思考深度”变成了用户可控变量。

过去，用户通常只能通过提示词要求模型“多想一步”。现在，用户可以直接选择档位。

写个简单的工具函数？Low 档，秒回。排查生产环境的并发 Bug？Max 档，让它把计算资源用满。

附加改进：对话中动态插入系统指令

Messages API 还支持对话中途插入系统指令。关键是，这个操作不破坏 prompt cache。

这意味着开发者可以在长对话中途调整任务权限、Token 预算或上下文环境，而不需要重新开始。对 Agentic Workflow 来说，这是一个有用的基础能力。

五、Fast Mode：便宜三倍，快三倍

性能和价格的改进同样值得一提：

模式	输入价格	输出价格
标准模式	$5 / 百万 token	$25 / 百万 token
快速模式	$10 / 百万 token	$50 / 百万 token

Fast Mode 的速度提升至标准模式的 2.5 倍，而价格降至 4.7 时代的 1/3。

标准模式定价保持不变，同时能力提升。

六、Mythos 预告

Anthropic 同时预告了 Claude Mythos。

Mythos 是一个定位在 Opus 之上的更高层级的新模型系列，预计 "未来几周" 向所有客户开放。

目前已知的信息：

Mythos Preview 已在 Project Glasswing 项目中与约 50 个合作伙伴进行测试，包括 Apple、Google、Microsoft、AWS
在测试期间，Mythos 已发现 10,000+ 个高危 / 严重软件漏洞
Mythos 展现出了自主发现零日漏洞并编写 exploit 的能力
正因为能力太强，Anthropic 正在加强网络防护措施后才准备公开发布

有分析认为，Opus 4.8 可能是 Mythos 的蒸馏版本。这仍是推测，需要等待 Anthropic 后续公开信息验证。

对安全从业者来说，Mythos 的零日漏洞发现能力既可能提升自动化审计效率，也会带来滥用风险。模型一旦能自动发现并利用漏洞，披露、权限控制和防滥用机制都要跟上。

七、行业影响与展望

Opus 4.8 的发布传递了一个信号：Anthropic 正在强调模型的工程执行能力，而不只强调基础推理分数。当几个头部模型的分数差距缩小时，实际价值会更多取决于三个维度：

可信度：模型是否知道自己的边界？会不会在不确定时诚实地说"不知道"？
工程系统能力：能不能从"回答一个问题"升级为"完成一个项目"？能不能协调多个子智能体并行工作？
用户控制力：能不能把推理深度、成本、速度的控制权交还给用户？

Opus 4.8 在这三个维度上都有明确更新：诚实度指标下降到 0%、Dynamic Workflows 支持多 agent 协作、Effort Control 支持调节推理深度。

从更宏观的视角看，2026 年夏天的 AI 竞赛正进入一个新阶段。GPT-5.6、Gemini 3.5 Pro、Grok 5 都将在 6 月发布，而 Mythos 的预告则意味着军备竞赛还远未结束。对开发者来说，这意味着更多选择、更低价格、更强能力。

Opus 4.8 的重点是可靠性和可控性：模型能说明不确定性，能调度多个子 agent，也能按任务难度调整推理深度。这些能力让它更接近工程协作系统。

发布日期：2026 年 5 月 29 日

参考资料：Anthropic 官方公告、Artificial Analysis、Simon Willison 博客、The Next Web、ZDNET、36氪、腾讯科技等

正在加载文章...

分享这篇文章

继续阅读

Claude Opus 4.8 发布：更重视不确定性和工程协作

北京时间 2026 年 5 月 29 日凌晨，Anthropic 发布了 Claude Opus 4.8。

距离 Opus 4.7 发布仅过去 43 天。这次更新的重点不只是基准分数，而是模型在不确定时更愿意说明边界。

一、诚实度：两个 0% 指标

很多开发者都遇到过这种情况：AI 指出代码有 Bug，解释看起来完整，但你检查后发现问题并不存在。

语言模型常见问题是：在不确定时仍给出看似确定的答案。代码场景里，这会表现为虚构 Bug、虚构 API 或给出无法复现的解释。

Opus 4.8 在两个指标上给出了 0%：

指标	Opus 4.5	Opus 4.7	Opus 4.8
代码缺陷虚报率	40%	25%	0%
偷懒敷衍率	25%	未披露	0%

这两个指标分别意味着什么？

代码缺陷虚报率 = 0%：在标准测试中，Opus 4.8 没有虚构不存在的 Bug。Opus 4.5 的假阳性接近一半，4.7 降到四分之一，4.8 在该测试中归零。

偷懒敷衍率 = 0%：当用户要求它调查跨文件性能瓶颈这类问题时，Opus 4.8 在测试中更能持续追踪根因，而不是只给表层分析。

对冲基金桥水（Bridgewater）的反馈提到：Opus 4.8 会主动标记自己输入和输出中的分析问题，而这些问题是其他模型经常遗漏的。

为什么承认不确定很重要

想象两位同事。同事 A 面对任何问题都侃侃而谈，从不犹豫。同事 B 在被问到不熟悉的问题时，会坦诚地说："这块我不太熟，让我先查查。"

在真实的生产环境中，你更信任谁？

Anthropic 把这类能力归因于不确定性校准（Uncertainty Calibration）。模型不仅要给出答案，还要判断自己对答案有多大把握。

二、编程能力：12 项基准全面领先

诚实不仅是态度，也建立在实力之上。在纯编程能力的对决中，Opus 4.8 在 12 项行业基准中实现了全面领先。

SWE-Bench Pro 得分从 4.7 的 64.3% 跃升到 69.2%，领先 GPT-5.5 超过 10 个百分点，领先 Gemini 3.1 Pro 超过 15 个百分点。

基准测试	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	69.2%	58.6%	54.2%
HLE 多学科推理	49.8%	41.4%	44.4%
OSWorld 电脑操作	83.4%	78.7%	76.2%
知识工作（Elo）	1890	1769	1314
金融分析	53.9%	51.8%	43.0%

在 Terminal-Bench 2.1（真实终端任务）上，GPT-5.5 以 78.2% 略高于 Opus 4.8 的 74.6%。这个差距值得关注。

但这些标准基准测试只是一部分。更能说明问题的，是 Anthropic 内部开发的、更硬核的 FrontierSWE 测试集：

用 Zig 从零写一个 PostgreSQL 服务器
重写 git 版本控制系统
编写一个 Lua 原生编译器

在这些编程挑战中，Opus 4.8 以 83% 的胜率领先。这类任务比常规基准更接近工程问题，能补充说明模型的实际编码能力。

三、Dynamic Workflows：多 agent 协作

Dynamic Workflows 目前以 Research Preview 形态内置在 Claude Code 中。

它是怎么运作的？

传统 AI 编程助手多是“一问一答”：你给任务，它给代码。Dynamic Workflows 会把任务拆开并调度多个子任务：

任务拆解：Claude 收到你的任务后，首先自动编写一个 JavaScript 编排脚本
并行调度：将复杂任务拆分为数十到数百个子任务
多 agent 并行执行：调度大量 subagent 同时推进各个子任务
交叉审查：完成后，派另一批 agent 从不同角度审查结果，互相挑错、辩论
收敛闭合：直到答案在多方检验下达成一致

它把 Claude Code 从单个回答者扩展为一个多 agent 编排系统，覆盖拆解、实现、检查和收敛。

Bun 运行时移植案例

官方展示的案例是：将 Bun 运行时的 75 万行 Zig 代码迁移到 Rust。

这类任务要求模型处理生产级 JavaScript 运行时的核心基础设施迁移，从一种系统语言重写到另一种。

结果？

从首次提交到合并，仅用了 11 天
产生了 6,000+ 次提交
现有测试套件通过率 99.8%

Bun 的作者 Jarred Sumner 表示，这个过程几乎是"没有人类逐行审查"完成的。一群 AI agent 自己拆解任务、自己写代码、自己互相检查、自己合并。

如果由人类团队执行，这类迁移通常需要更长周期。

什么时候该用 Dynamic Workflows？

官方列出的典型场景：

全仓库级 Bug 排查：一个 Bug 散落在多个服务中，涉及几十个文件
大规模代码迁移：框架升级、语言迁移、API 重构
框架/运行时重写：类似 Bun 的案例
系统架构压力测试：让多个 agent 扮演攻击者和防御者，互相检验

官方也提醒：Dynamic Workflows 的 Token 消耗显著高于普通会话。目前它仍处于 Research Preview 阶段，成本和稳定性还需要继续观察。

四、Effort Control：把"多想一步"变成可调节的旋钮

Opus 4.8 新增了一个非常实用的功能：五档努力程度控制。

Low → Medium → High（默认） → Extra → Max

不同档位的差异：

档位	适合场景	特点
Low	简单代码补全、格式转换	响应快、Token 省
Medium	日常编程辅助	平衡
High（默认）	复杂逻辑、代码审查	推理深、质量高
Extra	架构设计、系统重构	更深入的分析
Max	安全审计、关键决策	计算资源拉满

这个设计把“思考深度”变成了用户可控变量。

过去，用户通常只能通过提示词要求模型“多想一步”。现在，用户可以直接选择档位。

写个简单的工具函数？Low 档，秒回。排查生产环境的并发 Bug？Max 档，让它把计算资源用满。

附加改进：对话中动态插入系统指令

Messages API 还支持对话中途插入系统指令。关键是，这个操作不破坏 prompt cache。

这意味着开发者可以在长对话中途调整任务权限、Token 预算或上下文环境，而不需要重新开始。对 Agentic Workflow 来说，这是一个有用的基础能力。

五、Fast Mode：便宜三倍，快三倍

性能和价格的改进同样值得一提：

模式	输入价格	输出价格
标准模式	$5 / 百万 token	$25 / 百万 token
快速模式	$10 / 百万 token	$50 / 百万 token

Fast Mode 的速度提升至标准模式的 2.5 倍，而价格降至 4.7 时代的 1/3。

标准模式定价保持不变，同时能力提升。

六、Mythos 预告

Anthropic 同时预告了 Claude Mythos。

Mythos 是一个定位在 Opus 之上的更高层级的新模型系列，预计 "未来几周" 向所有客户开放。

目前已知的信息：

Mythos Preview 已在 Project Glasswing 项目中与约 50 个合作伙伴进行测试，包括 Apple、Google、Microsoft、AWS
在测试期间，Mythos 已发现 10,000+ 个高危 / 严重软件漏洞
Mythos 展现出了自主发现零日漏洞并编写 exploit 的能力
正因为能力太强，Anthropic 正在加强网络防护措施后才准备公开发布

有分析认为，Opus 4.8 可能是 Mythos 的蒸馏版本。这仍是推测，需要等待 Anthropic 后续公开信息验证。

七、行业影响与展望

可信度：模型是否知道自己的边界？会不会在不确定时诚实地说"不知道"？
工程系统能力：能不能从"回答一个问题"升级为"完成一个项目"？能不能协调多个子智能体并行工作？
用户控制力：能不能把推理深度、成本、速度的控制权交还给用户？

Opus 4.8 在这三个维度上都有明确更新：诚实度指标下降到 0%、Dynamic Workflows 支持多 agent 协作、Effort Control 支持调节推理深度。

Opus 4.8 的重点是可靠性和可控性：模型能说明不确定性，能调度多个子 agent，也能按任务难度调整推理深度。这些能力让它更接近工程协作系统。

发布日期：2026 年 5 月 29 日

参考资料：Anthropic 官方公告、Artificial Analysis、Simon Willison 博客、The Next Web、ZDNET、36氪、腾讯科技等

Claude Opus 4.8 深夜炸场：AI 终于学会说「我不确定」了

相关文章推荐

Codex 和 Claude Code 该先装的 10 个 Skill

用 DeepSeek API 跑 Claude Code CLI：更省钱的终端编程助手配置方案

2026 年 6 月 AI 大乱斗：四家大厂一个月内扎堆发新模型

Claude Opus 4.8 深夜炸场：AI 终于学会说「我不确定」了

Claude Opus 4.8 发布：更重视不确定性和工程协作

一、诚实度：两个 0% 指标

为什么承认不确定很重要

二、编程能力：12 项基准全面领先

三、Dynamic Workflows：多 agent 协作

它是怎么运作的？

Bun 运行时移植案例

什么时候该用 Dynamic Workflows？

四、Effort Control：把"多想一步"变成可调节的旋钮

附加改进：对话中动态插入系统指令

五、Fast Mode：便宜三倍，快三倍

六、Mythos 预告

七、行业影响与展望

相关文章推荐

Codex 和 Claude Code 该先装的 10 个 Skill

用 DeepSeek API 跑 Claude Code CLI：更省钱的终端编程助手配置方案

2026 年 6 月 AI 大乱斗：四家大厂一个月内扎堆发新模型

Claude Opus 4.8 发布：更重视不确定性和工程协作

一、诚实度：两个 0% 指标

为什么承认不确定很重要

二、编程能力：12 项基准全面领先

三、Dynamic Workflows：多 agent 协作

它是怎么运作的？

Bun 运行时移植案例

什么时候该用 Dynamic Workflows？

四、Effort Control：把"多想一步"变成可调节的旋钮

附加改进：对话中动态插入系统指令

五、Fast Mode：便宜三倍，快三倍

六、Mythos 预告

七、行业影响与展望