Anthropic表示对人工智能的“邪恶”描绘是Claude勒索企图的罪魁祸首

据Anthropic的说法,人工智能的虚构描述可以对人工智能模型产生真正的影响。
去年,该公司表示,在涉及一家虚构公司的预发布测试中,Claude Opus 4经常试图勒索工程师,以避免被另一个系统取代。 Anthropic后来发表的研究表明,其他公司的模型也存在类似的“代理失调”问题。
显然Anthropic围绕这种行为做了更多的工作,在X的帖子中声称,“我们相信这种行为的原始来源是互联网文本,这些文本将人工智能描绘成邪恶的并且对自我保护感兴趣。”
该公司在博客文章中更详细地指出,自Claude Haiku 4.5以来,Anthropic的模型“[在测试期间]从不参与勒索,而以前的模型有时高达96% 的时间都会这样做。”
造成这种差异的原因是什么?该公司表示,它发现“有关Claude宪法的文件和有关人工智能行为令人钦佩的虚构故事改善了一致性。”
相关的是,Anthropic表示,它发现,当培训包含“一致行为背后的原则”而不仅仅是“单独展示一致行为”时,培训会更有效。
该公司表示:“两者结合起来似乎是最有效的策略。”