号称“危险”的AI扫描17. 6 万行代码后，仅揪出一个低危漏洞

近日，Anthropic公司备受瞩目的AI安全分析模型Mythos，在开源界遭遇了一场意料之外的“滑铁卢”。尽管官方曾大肆宣传该模型在发现源代码漏洞方面能力过于强悍，甚至为此推迟了公开发布，但在对全球知名开源工具curl的实测中，Mythos交出的答卷却显得有些苍白：在多达17. 6 万行代码的严密扫描下，最终仅确认了一个低危漏洞。

这场测试的推动者是curl项目的创始人Daniel Stenberg。他通过相关项目获得了Mythos的有限测试权限，试图给这个拥有 200 亿次安装量的网络传输利器做一次深度“体检”。curl的代码库一向以极高的安全工程标准著称，不仅经过了数百位贡献者的精心打磨，更长期接受各类自动化扫描及高昂的专业审计。

测试过程起初看起来硕果累累。Mythos的初始报告宣称发现了“ 5 个已确认的安全漏洞”，但经过curl安全团队数小时的人工复核，这些结果迅速缩水：其中 3 个被判定为误报，仅是符合文档描述的正常行为； 1 个被定性为普通bug，不具备安全威胁。最终，仅剩下 1 个严重程度被评为“低”的漏洞。

对于这样的结果，Stenberg直言不讳地指出，Anthropic所谓的“危险级能力”更像是一场成功的市场营销。他表示，早在Mythos之前，curl团队就已经利用多款AI安全工具修复了数百个bug，而第一批工具往往更容易捡到“低垂的果实”。随着代码库的日益完善，AI想要挖掘出深层的新型漏洞已变得难上加难。

不过，Stenberg并未全盘否定AI的价值。他承认，相比于传统的静态分析器，像Mythos这样的AI工具在理解协议规范、识别注释与代码不符、以及模拟复杂环境下的配置检查方面具有显著优势。它们更像是一个博学且擅长总结的助手，尽管给出的修复方案并不总是百分之百正确。

此次实测给业界敲响了警钟：AI虽然在代码审计领域带来了效率的质变，但目前依然只能发现“已知类型”的错误实例，而非创造全新的漏洞检测逻辑。在保障核心安全方面，严谨的安全工程实践——如防御性基础设施的构建和严格的数值上限限制，依然是比AI工具更可靠的“银弹”。