Google的Genie世界模型现在可以通过街景模拟真实街道

我们都曾在Google地图上打开街景视图,向朋友展示我们儿时的家是什么样子,或者将那个小人图标放到巴黎的街道上,看看我们是否在一次很酷的社区预订了酒店。想象一下能够做到这一点,但以一种更身临其境的互动方式,让您能够真正模拟街道及其周围环境,甚至可以做一些事情,例如调整天气或看看“后天”场景中的情况。
这是Google最新整合的目标之一。从今天开始,Google DeepMind将街景与Project Genie连接起来,Project Genie是该公司的通用世界模型,可以生成多样化的交互式环境。该新功能在Google I/O开发者大会期间推出。
DeepMind开放性团队的研究科学家Jack Parker-Holder告诉TechCrunch:“它对于代理(和机器人)用例和人类玩起来都非常强大,这一直是Genie的论点。”
他举了一个在很少见到阳光的伦敦部署新机器人的例子。帕克-霍尔德说,精灵可以模拟那些罕见的阳光照射维多利亚时代房屋的情况,这样当这种情况发生时,光线就不会震动机器人。
正在加载播放器...
“同时,你可能会说,‘我要去纽约市,但不是每年的这个时候,’”他继续说道。 “‘马上就要下雪了。我想看看那个街区在雪地里是什么样子。’”
Google 20年来一直通过装有摄像头的汽车和背着“追踪器背包”的个人收集街景数据。这家科技巨头已在110个国家和七大洲收集了超过2800亿张图像。
“通过街景,我们可以获得来自世界各地的大量图像,”杰克说。 “你可以想象,将丰富的现实世界信息和数据来源与模拟世界的能力结合起来,其潜力有多大。”
Google去年8月发布了最新的世界模型Genie 3用于研究预览,并于1月份向美国的Google AI Ultra订阅者开放了该工具的使用权限,允许客户通过文本提示或图像创建交互式游戏世界。目标是使用Genie进行教育体验、游戏和机器人培训。
Genie 3已经在帮助Waymo的一个模拟器提供动力,以训练其自动驾驶汽车应对龙卷风或偶然遭遇大象等“极其罕见的事件”。添加街景数据可以帮助Waymo准备在全球更多城市推出。
Waymo拥有自己的模拟器,并依靠该模拟器扩展到美国11个城市,并在更多城市测试其人工智能驱动程序。 Parker-Holder表示,与Genie的不同之处在于,这些都是从汽车的角度来看的。街景不仅可以模拟锚定在真实地点的世界,还可以将视角转移到其他类型的代理,例如人类或机器人。
Google从今天开始向美国的一些Ultra用户推出Genie中的街景,并随着时间的推移大规模推出。据该公司称,Global Ultra用户将在未来几周内获得访问权限。
DeepMind产品经理迭戈·里瓦斯 (Diego Rivas) 表示,研究人员的目标是将这种新功能交给尽可能多的人。他警告说,街景(尤其是街景)和Genie总体而言仍处于实验阶段,因此在准确性方面还有很多需要改进的地方。
在Google团队向我展示的样本中(包括我曾经居住的社区的水下模拟),结果令人印象深刻且可识别,但仍然是视频游戏质量而不是照片级真实感。这些模型还没有物理意识,这意味着它们还不了解因果关系。例如,在模拟一名女子跑过白雪皑皑的约书亚树时,她直接跑过仙人掌和灌木丛。
相比之下,Google的图像生成器Nano Banana(现在可以在信息图表中生成完美的文本)或其视频生成器Veo(它可以理解纸船在水流中漂流、烟雾扩散到空气中以及织物覆盖在形式上)。
物理学并没有被硬编码到这些模型中;而是被硬编码到这些模型中。随着时间的推移,他们通过被动观察直观地学习它,就像一个生物一样。
“我认为对于这种模型,在准确性和质量方面可能落后视频6到12个月,所以我认为这是我们将解决的问题,”Parker-Holder说。
Google Maps总监Jonathan Herbert 12年前以实习生身份加入街景团队,他表示Genie还无法忠实地重建街道。他认为真正的突破是人工智能的空间连续性。如果你转动360度,AI会正确记住并模拟你身后的环境。从那时起,模型可以在此基础上构建一个新环境。
“我们长期以来一直在思考如何在街景数据的基础上构建世界上最好、最丰富的模型,”赫伯特说。 “长期以来,以新方式使用地图数据并进行新型人工智能研究绝对是我们的想法。”