AI资讯 / 发布于 2026.5.11 5:09

Anthropic表示对人工智能的“邪恶”描绘是Claude勒索企图的罪魁祸首

据Anthropic的说法，人工智能的虚构描述可以对人工智能模型产生真正的影响。

去年，该公司表示，在涉及一家虚构公司的预发布测试中，Claude Opus 4经常试图勒索工程师，以避免被另一个系统取代。 Anthropic后来发表的研究表明，其他公司的模型也存在类似的“代理失调”问题。

显然Anthropic围绕这种行为做了更多的工作，在X的帖子中声称，“我们相信这种行为的原始来源是互联网文本，这些文本将人工智能描绘成邪恶的并且对自我保护感兴趣。”

该公司在博客文章中更详细地指出，自Claude Haiku 4.5以来，Anthropic的模型“[在测试期间]从不参与勒索，而以前的模型有时高达96% 的时间都会这样做。”

造成这种差异的原因是什么？该公司表示，它发现“有关Claude宪法的文件和有关人工智能行为令人钦佩的虚构故事改善了一致性。”

相关的是，Anthropic表示，它发现，当培训包含“一致行为背后的原则”而不仅仅是“单独展示一致行为”时，培训会更有效。

该公司表示：“两者结合起来似乎是最有效的策略。”