安全防护2026-05-283 分钟阅读

AI 找到 23000 个漏洞之后：当代码审计快到人类跟不上的那一天

Claude Mythos 扫描 1000+ 开源项目找出 23019 个漏洞，90.6% 为真实漏洞，但修复率不到 15%。AI 驱动的代码审计正在颠覆安全行业的底层逻辑。

Luo WJ

Luo WJ 维护 ToolOrbit，并复核开发者、图片、PDF、AI 和电商工具的输入说明、隐私边界和浏览器内使用效果。

作者主页

正在加载文章...

分享这篇文章

继续阅读

AI 找到 23000 个漏洞之后：当代码审计快到人类跟不上的那一天

Claude Mythos 扫描 1000+ 开源项目找出 23019 个漏洞，90.6% 为真实漏洞，但修复率不到 15%。AI 驱动的代码审计正在颠覆安全行业的底层逻辑。

Luo WJ

Luo WJ 维护 ToolOrbit，并复核开发者、图片、PDF、AI 和电商工具的输入说明、隐私边界和浏览器内使用效果。

作者主页

AI 找到 23000 个漏洞之后：代码审计的新压力

Anthropic 的安全专用模型 Claude Mythos 通过"玻璃翼计划"（Project Glasswing）扫描了 1000 多个开源项目，找出 23019 个潜在漏洞，其中 6202 个被标注为高危或严重级别。独立安全公司的交叉验证显示，90.6% 是真实漏洞。

如果误报率接近 6.2%，安全团队需要处理的问题会从“能不能发现漏洞”转向“能不能及时确认、修复和披露”。

1. wolfSSL 案例

wolfSSL 是一个专门为嵌入式系统设计的轻量级 TLS 加密库。如果你的家用智能门锁在通过网络校验固件签名、你的车载系统在与云端同步导航数据，或者医院里某台重症监护设备在通过 Wi-Fi 传输遥测数据，底层很可能跑的就是 wolfSSL。

Claude Mythos 在 wolfSSL 中发现了一个严重漏洞：攻击者可以利用证书验证逻辑缺陷，伪造 TLS 证书并冒充合法网站或服务器。在受影响版本中，设备可能把攻击者服务器误认为可信服务端。

这个漏洞已分配 ID，修复补丁也已合并。它说明了一个现实问题：嵌入式加密库代码量未必大，但分支密度高，验证逻辑复杂，人类审计很容易漏掉边界路径。

2. 发现速度超过修复速度

安全工作的瓶颈开始变化。过去，漏洞发现成本高，修复也慢，两边节奏相对接近。AI 扫描把发现端提速后，修复端成了更明显的瓶颈。

530 个已披露的高危和严重漏洞中，只有 75 个被修复。修复率不到 15%。换句话说，每 100 个真实存在的高危漏洞被 AI 找出来并通知了维护者，其中 85 个至今仍然是敞开的攻击面。

传统审计中，研究员可能要花几天或几周阅读源码、构建攻击模型、写 PoC。AI 扫描可以批量生成候选漏洞报告，维护者却仍要逐个理解、复现、修复、测试和发布。

已有开源维护者请求 Anthropic 降低披露频率。原因不是漏洞不重要，而是报告数量超过了小团队处理能力。发现端可以扩容，修复端仍依赖维护者时间、测试资源和发布流程。

这个不对等会影响披露节奏、维护者负担和下游升级计划。

3. 为什么大机构会参与

"玻璃翼计划"的参与者包括 AWS、Apple、Google、Microsoft、NVIDIA、JPMorgan、Cloudflare、Palantir 等 50 家机构，覆盖云计算、消费电子、搜索、半导体、金融服务、网络安全和国防科技。

这些机构参与，说明 AI 驱动审计已经进入企业安全评估。对大型组织来说，问题不只是技术可行性，还包括供应链风险、合规证明和董事会层面的问责。

4. 准确率为什么重要

人类顶尖安全研究员的误报率（false positive rate）通常在 15% 到 25% 之间。这意味着每报 100 个漏洞，有 15 到 25 个最终被证明不是漏洞，或者利用条件在现实中不可能满足。

Claude Mythos 的误报率只有 6.2%。准确率 93.8%。

这个数字有几个含义：

第一，模型不是只靠多报可疑点提高发现率。 如果报告里大多数都是误报，维护者很快会失去信任。

第二，低误报率决定团队能否处理。 如果一个工具每天报告 500 个问题，其中 400 个是误报，安全团队会陷入报警疲劳。

第三，分工会变化。 AI 可以承担更多初筛和路径探索，人类审计员更集中在复现、修复方案和风险排序。

5. 6 到 12 个月窗口期：当这个能力从实验室走向每一台开发机

Anthropic 的公开声明给出了一个时间锚点：Mythos 级别的模型将在未来 6 到 12 个月内逐步开放。但"逐步开放"不是"免费开源"，更可能的是通过 API 或企业授权的形式先覆盖大客户，再慢慢下放。

这个窗口期值得开发团队提前准备。

当这种级别的漏洞发现能力从大厂实验室走向普通开发者手中，有几个连锁反应几乎必然发生：

第一，开源项目安全门槛会提高。 社区可能会开始询问项目是否跑过 AI 审计、结果如何、未修复漏洞如何管理。

第二，漏洞赏金平台需要调整。 如果 AI 能批量发现某类漏洞，平台需要重新区分重复报告、自动化报告和高质量利用链分析。

第三，"安全负债"这个概念会进入主流讨论。 就像技术负债一样，每个依赖了几百个开源包的项目都背负着"安全负债"。这些负债包括已知但尚未被 AI 扫描的漏洞，以及已被 AI 扫描出但尚未修复的漏洞。这份负债正在从"隐性"变成"显性"，而显性的负债会带来合规压力。

6. 好处和压力同时出现

好处是，AI 可以发现长期隐藏在复杂代码路径里的漏洞，让供应链安全更可量化。

压力是，发现越多，未修复漏洞也会越多。Claude Mythos 只扫描了 1000 个项目，而开源生态规模更大。如果发现速度继续高于修复速度，缺口会扩大。

另一个风险是攻击者也会使用类似能力。防守方扫描自己的依赖，攻击方也可能扫描同样的代码。谁先发现并处理漏洞，会成为新的安全竞争点。

结语

AI 代码审计会提高漏洞发现速度，但修复流程、披露机制、维护者资源和合规责任也要跟上。团队现在要做的不是等待工具普及，而是建立漏洞分流、复现、修复和发布的稳定流程。

正在加载文章...

分享这篇文章

继续阅读

AI 找到 23000 个漏洞之后：代码审计的新压力

如果误报率接近 6.2%，安全团队需要处理的问题会从“能不能发现漏洞”转向“能不能及时确认、修复和披露”。

1. wolfSSL 案例

2. 发现速度超过修复速度

安全工作的瓶颈开始变化。过去，漏洞发现成本高，修复也慢，两边节奏相对接近。AI 扫描把发现端提速后，修复端成了更明显的瓶颈。

这个不对等会影响披露节奏、维护者负担和下游升级计划。

3. 为什么大机构会参与

4. 准确率为什么重要

Claude Mythos 的误报率只有 6.2%。准确率 93.8%。

这个数字有几个含义：

第一，模型不是只靠多报可疑点提高发现率。 如果报告里大多数都是误报，维护者很快会失去信任。

第二，低误报率决定团队能否处理。 如果一个工具每天报告 500 个问题，其中 400 个是误报，安全团队会陷入报警疲劳。

第三，分工会变化。 AI 可以承担更多初筛和路径探索，人类审计员更集中在复现、修复方案和风险排序。

5. 6 到 12 个月窗口期：当这个能力从实验室走向每一台开发机

这个窗口期值得开发团队提前准备。

当这种级别的漏洞发现能力从大厂实验室走向普通开发者手中，有几个连锁反应几乎必然发生：

第一，开源项目安全门槛会提高。 社区可能会开始询问项目是否跑过 AI 审计、结果如何、未修复漏洞如何管理。

第二，漏洞赏金平台需要调整。 如果 AI 能批量发现某类漏洞，平台需要重新区分重复报告、自动化报告和高质量利用链分析。

6. 好处和压力同时出现

好处是，AI 可以发现长期隐藏在复杂代码路径里的漏洞，让供应链安全更可量化。

压力是，发现越多，未修复漏洞也会越多。Claude Mythos 只扫描了 1000 个项目，而开源生态规模更大。如果发现速度继续高于修复速度，缺口会扩大。

另一个风险是攻击者也会使用类似能力。防守方扫描自己的依赖，攻击方也可能扫描同样的代码。谁先发现并处理漏洞，会成为新的安全竞争点。

AI 找到 23000 个漏洞之后：当代码审计快到人类跟不上的那一天

相关文章推荐

密码熵解密：为什么长度永远碾压复杂度

为什么“本地处理”是开发者工具的未来

API 安全最佳实践：从 JWT 泄露到 SSRF 防御

AI 找到 23000 个漏洞之后：当代码审计快到人类跟不上的那一天

AI 找到 23000 个漏洞之后：代码审计的新压力

1. wolfSSL 案例

2. 发现速度超过修复速度

3. 为什么大机构会参与

4. 准确率为什么重要

5. 6 到 12 个月窗口期：当这个能力从实验室走向每一台开发机

6. 好处和压力同时出现

结语

相关文章推荐

密码熵解密：为什么长度永远碾压复杂度

为什么“本地处理”是开发者工具的未来

API 安全最佳实践：从 JWT 泄露到 SSRF 防御

AI 找到 23000 个漏洞之后：代码审计的新压力

1. wolfSSL 案例

2. 发现速度超过修复速度

3. 为什么大机构会参与

4. 准确率为什么重要

5. 6 到 12 个月窗口期：当这个能力从实验室走向每一台开发机

6. 好处和压力同时出现

结语