AI 找到 23000 个漏洞之后:当代码审计快到人类跟不上的那一天
Claude Mythos 扫描 1000+ 开源项目找出 23019 个漏洞,90.6% 为真实漏洞,但修复率不到 15%。AI 驱动的代码审计正在颠覆安全行业的底层逻辑。
Luo WJ
Luo WJ 维护 ToolOrbit,并复核开发者、图片、PDF、AI 和电商工具的输入说明、隐私边界和浏览器内使用效果。

分享这篇文章
继续阅读
Claude Mythos 扫描 1000+ 开源项目找出 23019 个漏洞,90.6% 为真实漏洞,但修复率不到 15%。AI 驱动的代码审计正在颠覆安全行业的底层逻辑。
Luo WJ
Luo WJ 维护 ToolOrbit,并复核开发者、图片、PDF、AI 和电商工具的输入说明、隐私边界和浏览器内使用效果。

分享这篇文章
继续阅读
Anthropic 的安全专用模型 Claude Mythos 通过"玻璃翼计划"(Project Glasswing)扫描了 1000 多个开源项目,找出 23019 个潜在漏洞,其中 6202 个被标注为高危或严重级别。独立安全公司的交叉验证显示,90.6% 是真实漏洞。
如果误报率接近 6.2%,安全团队需要处理的问题会从“能不能发现漏洞”转向“能不能及时确认、修复和披露”。
wolfSSL 是一个专门为嵌入式系统设计的轻量级 TLS 加密库。如果你的家用智能门锁在通过网络校验固件签名、你的车载系统在与云端同步导航数据,或者医院里某台重症监护设备在通过 Wi-Fi 传输遥测数据,底层很可能跑的就是 wolfSSL。
Claude Mythos 在 wolfSSL 中发现了一个严重漏洞:攻击者可以利用证书验证逻辑缺陷,伪造 TLS 证书并冒充合法网站或服务器。在受影响版本中,设备可能把攻击者服务器误认为可信服务端。
这个漏洞已分配 ID,修复补丁也已合并。它说明了一个现实问题:嵌入式加密库代码量未必大,但分支密度高,验证逻辑复杂,人类审计很容易漏掉边界路径。
安全工作的瓶颈开始变化。过去,漏洞发现成本高,修复也慢,两边节奏相对接近。AI 扫描把发现端提速后,修复端成了更明显的瓶颈。
530 个已披露的高危和严重漏洞中,只有 75 个被修复。修复率不到 15%。换句话说,每 100 个真实存在的高危漏洞被 AI 找出来并通知了维护者,其中 85 个至今仍然是敞开的攻击面。
传统审计中,研究员可能要花几天或几周阅读源码、构建攻击模型、写 PoC。AI 扫描可以批量生成候选漏洞报告,维护者却仍要逐个理解、复现、修复、测试和发布。
已有开源维护者请求 Anthropic 降低披露频率。原因不是漏洞不重要,而是报告数量超过了小团队处理能力。发现端可以扩容,修复端仍依赖维护者时间、测试资源和发布流程。
这个不对等会影响披露节奏、维护者负担和下游升级计划。
"玻璃翼计划"的参与者包括 AWS、Apple、Google、Microsoft、NVIDIA、JPMorgan、Cloudflare、Palantir 等 50 家机构,覆盖云计算、消费电子、搜索、半导体、金融服务、网络安全和国防科技。
这些机构参与,说明 AI 驱动审计已经进入企业安全评估。对大型组织来说,问题不只是技术可行性,还包括供应链风险、合规证明和董事会层面的问责。
人类顶尖安全研究员的误报率(false positive rate)通常在 15% 到 25% 之间。这意味着每报 100 个漏洞,有 15 到 25 个最终被证明不是漏洞,或者利用条件在现实中不可能满足。
Claude Mythos 的误报率只有 6.2%。准确率 93.8%。
这个数字有几个含义:
第一,模型不是只靠多报可疑点提高发现率。 如果报告里大多数都是误报,维护者很快会失去信任。
第二,低误报率决定团队能否处理。 如果一个工具每天报告 500 个问题,其中 400 个是误报,安全团队会陷入报警疲劳。
第三,分工会变化。 AI 可以承担更多初筛和路径探索,人类审计员更集中在复现、修复方案和风险排序。
Anthropic 的公开声明给出了一个时间锚点:Mythos 级别的模型将在未来 6 到 12 个月内逐步开放。但"逐步开放"不是"免费开源",更可能的是通过 API 或企业授权的形式先覆盖大客户,再慢慢下放。
这个窗口期值得开发团队提前准备。
当这种级别的漏洞发现能力从大厂实验室走向普通开发者手中,有几个连锁反应几乎必然发生:
第一,开源项目安全门槛会提高。 社区可能会开始询问项目是否跑过 AI 审计、结果如何、未修复漏洞如何管理。
第二,漏洞赏金平台需要调整。 如果 AI 能批量发现某类漏洞,平台需要重新区分重复报告、自动化报告和高质量利用链分析。
第三,"安全负债"这个概念会进入主流讨论。 就像技术负债一样,每个依赖了几百个开源包的项目都背负着"安全负债"。这些负债包括已知但尚未被 AI 扫描的漏洞,以及已被 AI 扫描出但尚未修复的漏洞。这份负债正在从"隐性"变成"显性",而显性的负债会带来合规压力。
好处是,AI 可以发现长期隐藏在复杂代码路径里的漏洞,让供应链安全更可量化。
压力是,发现越多,未修复漏洞也会越多。Claude Mythos 只扫描了 1000 个项目,而开源生态规模更大。如果发现速度继续高于修复速度,缺口会扩大。
另一个风险是攻击者也会使用类似能力。防守方扫描自己的依赖,攻击方也可能扫描同样的代码。谁先发现并处理漏洞,会成为新的安全竞争点。
AI 代码审计会提高漏洞发现速度,但修复流程、披露机制、维护者资源和合规责任也要跟上。团队现在要做的不是等待工具普及,而是建立漏洞分流、复现、修复和发布的稳定流程。