迪卡特的新世界模型可以模拟数小时的逼真驾驶——但有一些注意事项

据TechCrunch独家获悉,人工智能初创公司Decarton周三推出了Oasis 3,这是其最新的交互式世界模型,可以实时生成逼真的驾驶环境。该模型目前可通过API获取。
该初创公司最初瞄准的是需要大规模模拟罕见驾驶场景的自动驾驶汽车公司,并计划扩展到机器人和其他物理人工智能应用领域。但更大的赌注是在开发人员身上:通过从第一天起提供API访问,Decart试图围绕世界模型构建一个开发人员生态系统,就像OpenAI对语言模型所做的那样。
“这将是第一个人们可以实际编程的可用世界模型,”Decart联合创始人兼CEODean Leitersdorf告诉TechCrunch。 “我认为在此之上将会出现一个完整的开发者社区。”
该初创公司已经拥有超过100,000名开发人员的社区,其中许多人正在其实时视频模型Lucy的基础上构建产品,主要是电子商务和直播领域。 Oasis 3基于该基础模型,它代表了该公司进军物理人工智能领域的努力。 Decart表示,访问定价为每秒0.02美元,企业定价取决于用例。
迪卡特 (Decart) 正在日益拥挤的世界模特舞台上竞争。去年,Google发布了Genie 3研究预览版,李飞飞的世界实验室推出了用于商业用例的Marble,Luma和Runway等视频生成初创公司也将其物理感知视频模型转化为世界模型。

Oasis 3发布几周前,成立两年的Decart筹集了3亿美元资金,Leitersdorf表示,这是因为电子商务、直播和物理人工智能领域“对我们构建的模型的需求大幅增长”。本轮融资将Decart的估值提升至近40亿美元,并引入了丰田、Adobe、eBay等一系列战略投资者。莱特斯多夫说,所有这些公司都是潜在客户。现有投资者英伟达也参与了此轮融资。
Oasis 3的优势在于其模型的逼真度和无限生成能力。这是由于Decart的一些效率魔法,由该公司的其他主要产品提供支持:DOS(Decart Optimization Stack)软件,该软件允许模型在Nvidia、Amazon和Google硬件上高效运行,使其模型的运行成本远低于竞争对手。
“这是建立在我们整个实时堆栈之上的,我们一直优化到硬件,”莱特斯多夫说。 “通过如此垂直整合,我们能够比业内其他任何人便宜一个数量级以上来运行这些模型。”
Leitersdorf表示,这家初创公司的模式非常高效,以至于它在其生命周期中所消耗的资金“大大少于”1亿美元。
Oasis 3为训练和测试系统生成物理精确的多摄像头环境(一个正面和两个侧面)。 Decart不提供有限的演示和研究预览,而是允许开发人员无限地生成场景,这对于希望尝试尽可能多的边缘情况的自动驾驶汽车开发人员来说是完美的。
与我尝试过的其他模型(例如Google的Genie 3或World Labs的Marble)相比,Oasis 3通过我所见过的单个文本提示提供了最逼真的环境。事实上,你可以与他们互动几个小时,这表明迪卡特的竞争对手可能缺乏的效率水平。
但是,让你长时间生成一个世界,模型也会显着退化。

在我的测试中,我发现系统可以始终如一地设置一个与提示相匹配的强大的初始场景,但随着我在世界中移动,主题完整性迅速下降。我早上让它生成一条纽约市的街道,它做得非常漂亮。但当我开车行驶时,周围的环境看起来不太像纽约,而更像任何西方城市的标准版本。
当我试图转身回到最初的十字路口时,它已经消失了,取而代之的是一个全新的环境。最重要的是,控制装置反应不太灵敏,我经常无法控制汽车的行驶方向(这也是我测试过的其他世界车型所共有的缺点)。这种体验感觉不像是连贯的模拟,而更像是一种梦幻般、脱节的意识流,很快就变得毫无意义。
另一个问题,我在其他世界模型中也看到过,是汽车只会穿过其他汽车,这意味着该模型无法正确模拟环境中的物理现象。 Leitersdorf称这是“我们现在正在解决的重大研究问题”,并将其归因于“与事故相比,关于良好驾驶的数据要多得多”。
造成这种物理一致性困难的部分原因是这个世界模型如何运作的基础。 Oasis 3是自回归的,这意味着它一次生成一帧,并回顾之前生成的内容来决定接下来会发生什么。这是许多世界模型的一个关键架构特征,也是一个计算密集型特征。

Leitersdorf表示,为了保持一致性,Decart团队正在努力提高模型的记忆长度。
“我们生成的每一帧大约有8,000个令牌,”他说。 “以每秒数十帧的速度生成,即每秒生成数十万个令牌。上下文窗口很快就会填满。我们正在研究如何使用更长的上下文来存储数百万个令牌,以及如何将内存压缩为更少的令牌。”
Leitersdorf认为一致性问题可能会在模型的下一个版本中得到部分解决,这将允许用户开始据环境视频而不是图像生成世界。他承认世界模型作为一个领域还处于早期阶段。
不过,这位创始人不太关注其技术当前的局限性,而更关注开发人员掌握该技术后会发生什么。
“这让我回到了法学硕士的早期阶段,当时OpenAI发明了模型API,”他说,并指出开发者社区的出现,该社区通过寻找和构建新的用例来推进该领域的发展。
“当我们在三个月后再次讨论时,我们会说,‘这里有100名开发人员,他们都用Oasis构建了100个不同的应用程序,这让我们所有人都感到惊讶,’”他说。