Anthropic的安全警告可能适得其反——政府已经终止了其最强大的人工智能

美国政府周五以国家安全为由,下令Anthropic立即关闭对其两个最强大的人工智能模型 - Claude Fable 5和Claude Mythos 5的访问。 Anthropic在X上宣布它已遵守规定,但它明确表示认为政府在这一点上犯了错误。
Anthropic称其于美国东部时间周五下午5:21收到该指令,迫使该公司对全球所有用户禁用这两种型号,而不仅仅是政府出口管制令名义上针对的外国人。对Anthropic其他模型的访问不受影响。
为什么这很重要? Mythos是Anthropic最强大的人工智能模型,该公司在4月初预览了该模型,此后一直受到严格限制,因为Anthropic描述其具有发现软件中安全漏洞的卓越能力。据Anthropic称,Mythos发现了其测试的每个主要操作系统和网络浏览器中的缺陷,因此该公司没有广泛发布它,而是初创公司了一个名为Project Glasswing的受控程序,与大约50个经过审查的组织共享该程序,包括Amazon、Apple、Google、Microsoft和CrowdStrike,用于防御性网络安全工作。
三天前发布的《神鬼寓言5》是Anthropic对明显商业压力的回应:该公司表示,Mythos的一个版本配备了护栏,可以阻止网络安全和生物学等高风险领域的反应,使其足够安全,可以进行全面发布。据跟踪人工智能技术性能的公司Vals AI的基准测试,它立即成为公众可用的最强大的人工智能模型。

政府的指令被定义为出口管制行动,限制外国人获得这些模型。但在一篇冗长的博文中,Anthropic表示,其理解是,根本问题是《神鬼寓言5》被声称越狱。该公司表示,到目前为止,政府仅提供了“潜在的狭隘、非普遍越狱”的口头证据——正如Anthropic所描述的,这相当于促使模型读取特定代码库并识别软件缺陷。顺便说一句,该公司补充道,这是一种“能力水平”,已经在其他可公开访问的模型中广泛使用,包括OpenAI的GPT-5.5。 Anthropic表示,网络安全专业人员也经常将其用于防御目的。
Anthropic更广泛的论点是,其最强大的保护措施是通过独立的分类器系统运行的,这些分类器系统与模型本身分开运行,这意味着即使有人说服神鬼寓言继续谈论拒绝,针对最危险输出的潜在保护措施仍然存在。
显然,这些都不足以阻止政府采取行动,并且Anthropic并没有掩饰其沮丧。该公司写道:“我们不认为,小范围潜在越狱的发现应该成为召回已部署到数亿人的商业模式的理由。” “如果这个标准在整个行业得到应用,我们相信它将基本上停止所有前沿模型提供商的所有新模型部署。”
人们普遍预计Anthropic将在今年进行首次公开募股,并将其公众形象押注于成为竞争对手的安全意识替代品。讽刺的是,观察家们并没有忽视,Anthropic在限制Mythos时所表现出的谨慎态度——它把Mythos宣传为一种非常危险的模式,以至于无法公开发布——现在显然吸引了最可能扰乱其业务的政府审查。
至少OpenAI的Sam Altman一定很享受这个。 4月,他告诉播客Ashlee Vance,Anthropic对神话的处理相当于“基于恐惧的营销”。 “这显然是令人难以置信的营销方式,‘我们制造了一枚炸弹。我们正要把它扔到你头上。我们将以1亿美元的价格卖给你一个防空洞,’”奥特曼说。人们普遍预计Altman的公司将尽快进行IPO,他并没有预测政府会关门,但他发现了一些目前已经产生影响的事情Anthropic,即当你花几个月的时间告诉世界你的人工智能是独一无二的危险时,世界 - 包括美国政府 - 往往会倾听。