网络安全研究人员对Anthropic寓言中的护栏并不满意

Anthropic于周二发布了其最新模型Fable,将其宣传为其强大且大肆宣传的网络安全模型Mythos的公开限量版。

但并不是所有人都对这些限制感到满意,一些网络安全研究人员和专业人士在网上提出了投诉。

“[Fable] 拒绝任何可能与网络无关的请求。即使是像阅读博客文章这样无害的任务,”在IBM X-Force工作的知名安全研究员Valentina “Chompie” Palmiotti说道。

当提示触发其护栏时,寓言暂停聊天并表示其“安全措施将此消息标记为网络安全或生物学主题。”

设立防护栏是为了限制Fable可能被用来开发恶意软件或破坏软件的风险——这是Anthropic内部长期关注的问题。对生物学的限制来自于对开发生物武器的类似担忧。

当这家人工智能巨头在4月份发布Mythos时,它将该模型限制在有限数量的公司和组织中,称为“Project Glasswing”,旨在部署该模型以确保关键软件和基础设施的安全。上周,Anthropic扩大了对15个国家/地区数百个Mythosto组织的访问。

但尽管意图良好,许多网络安全专家仍然对这些限制的随意性感到犹豫。网络安全资深人士Matt Suiche告诉TechCrunch,“如果你要求它编写安全代码,它会假设这是与网络安全相关的工作,而不是软件工程最佳实践,然后你就会被降级。” 《神鬼寓言》被编程为如果撞到护栏就会退回到Claude Opus 4.8。 “它似乎是基于关键字的,因此‘网络安全’词汇领域中的任何内容都会触发护栏。”

联系我们您有关于黑客如何使用人工智能的更多信息吗?或者网络安全公司如何使用人工智能?我们很乐意听取您的意见。通过非工作设备和网络,您可以通过Signal(+1 917 257 1382)或通过Telegram和Keybase @lorenzofb、oremail安全地联系Lorenzo Franceschi-Bicchierai。

“但这是可以理解的,因为我们仍处于早期阶段,他们仍在调整自己的护栏。我相信他们会随着时间的推移而发展,因为Anthropic和其他前沿模型公司将与当前新一代网络安全公司进行更多合作,”AI网络安全初创公司Tolmo的技术人员Suiche说。 “当你进行这样的释放时,抓住更多的人总比抓不到足够的人要好,并随着时间的推移放松护栏。”

另一位研究人员X“甚至要求进行代码审查”也会触发《神鬼寓言》的护栏。

Anthropic没有立即回应置评请求。

除了模型内部的护栏外,Anthropic还要求网络安全专业人员申请网络验证计划。如果获得批准,申请人在使用Claude进行网络安全工作时将受到更少的限制。 OpenAI有一个类似的程序,称为Trusted Access for Cyber​​。

← 上一篇文章 AI日报:美图秀秀入局微信AI生态:千问发布全周期高考志愿填报Agent;美团AI浏览器Tabbit 1.0正式上线 下一篇文章 → Zest推出了一款餐厅发现应用程序,由人们实际就餐的地方提供支持

← 返回列表