近日,Anthropic公司备受瞩目的AI安全分析模型Mythos,在开源界遭遇了一场意料之外的“滑铁卢”。尽管官方曾大肆宣传该模型在发现源代码漏洞方面能力过于强悍,甚至为此推迟了公开发布,但在对全球知名开源工具curl的实测中,Mythos交出的答卷却显得有些苍白:在多达17. 6 万行代码的严密扫描下,最终仅确认了一个低危漏洞。
这场测试的推动者是curl项目的创始人Daniel Stenberg。他通过相关项目获得了Mythos的有限测试权限,试图给这个拥有 200 亿次安装量的网络传输利器做一次深度“体检”。curl的代码库一向以极高的安全工程标准著称,不仅经过了数百位贡献者的精心打磨,更长期接受各类自动化扫描及高昂的专业审计。
测试过程起初看起来硕果累累。Mythos的初始报告宣称发现了“ 5 个已确认的安全漏洞”,但经过curl安全团队数小时的人工复核,这些结果迅速缩水:其中 3 个被判定为误报,仅是符合文档描述的正常行为; 1 个被定性为普通bug,不具备安全威胁。最终,仅剩下 1 个严重程度被评为“低”的漏洞。
对于这样的结果,Stenberg直言不讳地指出,Anthropic所谓的“危险级能力”更像是一场成功的市场营销。他表示,早在Mythos之前,curl团队就已经利用多款AI安全工具修复了数百个bug,而第一批工具往往更容易捡到“低垂的果实”。随着代码库的日益完善,AI想要挖掘出深层的新型漏洞已变得难上加难。
不过,Stenberg并未全盘否定AI的价值。他承认,相比于传统的静态分析器,像Mythos这样的AI工具在理解协议规范、识别注释与代码不符、以及模拟复杂环境下的配置检查方面具有显著优势。它们更像是一个博学且擅长总结的助手,尽管给出的修复方案并不总是百分之百正确。
此次实测给业界敲响了警钟:AI虽然在代码审计领域带来了效率的质变,但目前依然只能发现“已知类型”的错误实例,而非创造全新的漏洞检测逻辑。在保障核心安全方面,严谨的安全工程实践——如防御性基础设施的构建和严格的数值上限限制,依然是比AI工具更可靠的“银弹”。