AI资讯 / 发布于 2026.6.11 1:09

网络安全研究人员对Anthropic寓言中的护栏并不满意

Anthropic于周二发布了其最新模型Fable，将其宣传为其强大且大肆宣传的网络安全模型Mythos的公开限量版。

但并不是所有人都对这些限制感到满意，一些网络安全研究人员和专业人士在网上提出了投诉。

“[Fable] 拒绝任何可能与网络无关的请求。即使是像阅读博客文章这样无害的任务，”在IBM X-Force工作的知名安全研究员Valentina “Chompie” Palmiotti说道。

当提示触发其护栏时，寓言暂停聊天并表示其“安全措施将此消息标记为网络安全或生物学主题。”

设立防护栏是为了限制Fable可能被用来开发恶意软件或破坏软件的风险——这是Anthropic内部长期关注的问题。对生物学的限制来自于对开发生物武器的类似担忧。

当这家人工智能巨头在4月份发布Mythos时，它将该模型限制在有限数量的公司和组织中，称为“Project Glasswing”，旨在部署该模型以确保关键软件和基础设施的安全。上周，Anthropic扩大了对15个国家/地区数百个Mythosto组织的访问。

但尽管意图良好，许多网络安全专家仍然对这些限制的随意性感到犹豫。网络安全资深人士Matt Suiche告诉TechCrunch，“如果你要求它编写安全代码，它会假设这是与网络安全相关的工作，而不是软件工程最佳实践，然后你就会被降级。” 《神鬼寓言》被编程为如果撞到护栏就会退回到Claude Opus 4.8。 “它似乎是基于关键字的，因此‘网络安全’词汇领域中的任何内容都会触发护栏。”

联系我们您有关于黑客如何使用人工智能的更多信息吗？或者网络安全公司如何使用人工智能？我们很乐意听取您的意见。通过非工作设备和网络，您可以通过Signal（+1 917 257 1382）或通过Telegram和Keybase @lorenzofb、oremail安全地联系Lorenzo Franceschi-Bicchierai。

“但这是可以理解的，因为我们仍处于早期阶段，他们仍在调整自己的护栏。我相信他们会随着时间的推移而发展，因为Anthropic和其他前沿模型公司将与当前新一代网络安全公司进行更多合作，”AI网络安全初创公司Tolmo的技术人员Suiche说。 “当你进行这样的释放时，抓住更多的人总比抓不到足够的人要好，并随着时间的推移放松护栏。”

另一位研究人员X“甚至要求进行代码审查”也会触发《神鬼寓言》的护栏。

Anthropic没有立即回应置评请求。

除了模型内部的护栏外，Anthropic还要求网络安全专业人员申请网络验证计划。如果获得批准，申请人在使用Claude进行网络安全工作时将受到更少的限制。 OpenAI有一个类似的程序，称为Trusted Access for Cyber。

← 返回列表