AI资讯 / 发布于 2026.6.26 5:09

Patronus AI获得5000万美元投资，用于构建对AI代理进行压力测试的“数字世界”

人工智能代理正变得越来越复杂。它们正在从回答问题发展到自主执行多步骤的复杂任务。

但在这些代理可以代表用户预订旅行或进行财务分析之前，模型提供商和构建此类代理的初创公司希望确保它们在各种场景中都能可靠地执行。

人工智能实验室经常使用基准测试来展示其模型的能力，但即使在面向代理的基准测试中获得高分，也实际上并不能证明人工智能可以正确完成各种复杂的现实世界工作。

Patronus AI是一家由前Meta人工智能研究人员Anand Kannappan和Rebecca Qien于2023年创立的初创公司，它正在帮助模型制作者和公司微调模型，通过构建模拟数字环境来评估智能体的表现，从而实现这一目标。

这家位于旧金山的初创公司必须解决一个重要问题。 Notable Capital董事总经理格伦·所罗门 (Glenn Solomon) 表示，几乎每个前沿人工智能实验室和许多新兴初创公司现在都是客户，他表示对该公司模拟环境的需求几乎是无法满足的。

去年，Patronus的收入增长了15倍，极大地激发了投资者的兴趣。周四，该公司宣布完成5000万美元的B轮融资，由Greenfield Partners领投，Notable Capital、Lightspeed、Datadog和三星跟投。此轮融资使该公司的总资金达到7000万美元。

守护神使用所谓的“数字世界模型”来创建网站和内部系统的副本。在这些环境中，代理在使用强化学习进行训练后进行压力测试，这会迭代地奖励成功完成任务并惩罚错误。

人工智能实验室看到了这些数字模拟的巨大价值，因为它们让代理有机会尝试不同的、有时是不可预测的场景。该公司将其方法与Waymo训练自动驾驶汽车的方法进行了比较，首先构建合成世界来测试车辆应对罕见危险的能力，例如恶劣天气或儿童追球。

人工智能代理的不同之处在于它们倾向于走捷径，这意味着它们无法正确完成任务。 “守护神非常擅长发现黑客行为并确保他们追究模型的责任，”所罗门说。

卡纳潘表示，守护神目前正在为软件工程和金融提供模拟数字世界，但这只是一个开始。

“今天我们非常关注可验证的问题，因此你可以立即检查和验证这些问题，但还有很多领域非常不可验证或很难验证，”他说。

仅仅因为这些过程是可验证的并不意味着它们很简单。 “我们希望能够真正创建一个环境，让您可以运行一个可以运行10小时、10天或10周的代理，”Kannappan说。

至于竞争对手，Patronus认为它主要是与人工智能实验室已经建立的用于评估代理行为的内部团队竞争。 Mercor和Surge等人类数据公司帮助模型制作者进行强化学习，而Patronus的运作方式则不同，它会在没有任何人类参与的情况下评估智能体的行为方式。