热门机器人初创公司Physical Intelligence表示,其新的机器人大脑可以解决从未教授过的任务

总部位于旧金山的机器人初创公司Physical Intelligence已悄然成为湾区最受关注的人工智能公司之一,该公司周四发布了一项新研究,显示其最新模型可以指导机器人执行从未明确训练过的任务,该公司自己的研究人员表示,这一能力让他们措手不及。

这个名为 π0.7的新模型代表了该公司向着长期追求的通用机器人大脑目标迈出的早期但有意义的一步:它可以指向一项不熟悉的任务,用简单的语言进行指导,并真正完成它。如果这些发现经得起推敲,他们表明机器人人工智能可能正在接近一个拐点,类似于该领域在大型语言模型中看到的情况——能力开始以超出基础数据预测的方式复合。

但首先:本文的核心主张是组合泛化——结合在不同背景下学到的技能来解决模型从未遇到过的问题的能力。到目前为止,机器人训练的标准方法本质上是死记硬背——收集特定任务的数据,据该数据训练专业模型,然后对每个新任务重复此操作。物理智能认为,π0.7打破了这种模式。

“一旦它跨越了这个门槛,从只做收集数据的事情,到以新的方式实际重新混合事物,”Physical Intelligence联合创始人、加州大学伯克利分校专注于机器人人工智能的教授谢尔盖·莱文 (Sergey Levine) 表示,“其能力将随着数据量的增加而不仅仅是线性增长。这种更有利的扩展特性是我们在其他领域看到的,比如语言和视觉。”

该论文最引人注目的演示涉及模型在训练中基本上从未见过的空气炸锅。当研究团队进行调查时,他们在整个训练数据集中发现了两个相关的事件:一个是不同的机器人只是将空气炸锅关闭,另一个是来自开源数据集,另一个机器人按照某人的指示将一个塑料瓶放入其中。该模型以某种方式综合了这些片段,加上更广泛的基于网络的预训练数据,形成了对设备工作原理的功能性理解。

物理智能研究科学家、斯坦福大学计算机科学博士生阿什温·巴拉克里希纳 (Ashwin Balakrishna) 表示:“很难追踪知识从何而来,或者知识会在哪里成功或失败。”尽管如此,在零指导的情况下,该模型还是尝试使用该设备来煮红薯。通过逐步的口头指令——本质上是一个人引导机器人完成任务,就像你向新员工解释一些事情一样——它成功地执行了。

这种辅导能力很重要,因为它表明机器人可以部署在新环境中并实时改进,而无需额外的数据收集或模型重新训练。

那么这一切意味着什么呢?研究人员并不回避该模型的局限性,并且小心翼翼地避免超前。至少在一种情况下,他们将矛头直指自己的球队。

“有时故障模式并不在机器人或模型上,”巴拉克里希纳说。 “这是我们的责任。不擅长即时工程。”他描述了一项早期的空气炸锅实验,该实验的成功率为5%。他说,在花了大约半个小时改进向模型解释任务的方式后,它的完成率跃升至95%。

该模型还无法通过单个高级命令自主执行复杂的多步骤任务。 “你不能告诉它,‘嘿,去给我做点吐司’,”莱文说。 “但如果你逐步完成——‘对于烤面包机,打开这个部件,按下那个按钮,执行此操作’——那么它实际上往往会工作得很好。”

该团队还承认,机器人技术的标准化基准实际上并不存在,这使得外部验证他们的主张变得困难。相反,该公司将 π0.7与自己之前的专业模型(针对单个任务进行训练的专用系统)进行了比较,发现通才模型与他们在一系列复杂工作中的表现相匹配,包括煮咖啡、折叠衣服和组装盒子。

What may be most notable about the research — if you take the researchers at their word — is not any single demo but the degree to which the results surprised them, people whose job it is to know exactly what is in the training data and therefore what the model should and shouldn’t be able to do.

“我的经验一直是,当我深入了解数据中的内容时,我可以猜测模型将能够做什么,”巴拉克里希纳说。 “我很少感到惊讶。但在过去的几个月里,我第一次真正感到惊讶。我只是随机购买了一套齿轮组,然后问机器人,‘嘿,你能旋转这个齿轮吗?’然后它就起作用了。”

Levine回忆起研究人员第一次遇到GPT-2生成有关安第斯山脉独角兽故事的那一刻。 “它到底是从哪里了解到秘鲁的独角兽的?”他说。 “这是一个非常奇怪的组合。我认为在机器人技术中看到这一点真的很特别。”

当然,批评者会指出这里存在令人不安的不对称:语言模型可以向整个互联网学习。机器人则不然,无论怎样巧妙的提示也无法完全弥合这一差距。但当被问及他预计哪里会出现怀疑时,莱文完全指出了其他地方。

“任何机器人泛化演示中总会受到的批评是,这些任务有点无聊,”他说。 “机器人没有做后空翻。”他反驳了这一框架,认为令人印象深刻的机器人演示和实际概括的机器人系统之间的区别正是关键所在。他认为,概括总是不像精心设计的特技那样引人注目,但它更有用。

论文本身自始至终都使用了谨慎的对冲语言,将 π0.7描述为显示了泛化的“早期迹象”和新功能的“初步演示”。这些是研究成果,而不是已部署的产品,物理智能从一开始就受到商业时间表的限制。

当被直接问到基于这些发现的系统何时可以准备好用于现实世界部署时,莱文拒绝猜测。 “我认为有充分的理由保持乐观,而且进展速度肯定比我几年前的预期要快,”他说。 “但我很难回答这个问题。”

迄今为止,Physical Intelligence已筹集超过10亿美元,最近估值为56亿美元。投资者对该公司的热情很大一部分归功于联合创始人拉奇·格鲁姆(Lachy Groom),他多年来一直是硅谷最受尊敬的天使投资者之一,支持Figma、Notion和Ramp等公司,然后才决定Physical Intelligence就是他一直在寻找的公司。这种血统帮助这家初创公司吸引了大量的机构资金,尽管它拒绝向投资者提供商业化时间表。

据称,该公司目前正在讨论新一轮融资,融资金额将几乎翻一番,达到110亿美元。该团队拒绝发表评论。

← 上一篇文章 从创业战场阶段到国际空间站:geCKo Materials打造了粘性产品 下一篇文章 → 据报道,高端人工智能正在洽谈以20亿美元估值筹集资金

← 返回列表