AI资讯 / 发布于 2026.5.20 2:16

Google的Genie世界模型现在可以通过街景模拟真实街道

我们都曾在Google地图上打开街景视图，向朋友展示我们儿时的家是什么样子，或者将那个小人图标放到巴黎的街道上，看看我们是否在一次很酷的社区预订了酒店。想象一下能够做到这一点，但以一种更身临其境的互动方式，让您能够真正模拟街道及其周围环境，甚至可以做一些事情，例如调整天气或看看“后天”场景中的情况。

这是Google最新整合的目标之一。从今天开始，Google DeepMind将街景与Project Genie连接起来，Project Genie是该公司的通用世界模型，可以生成多样化的交互式环境。该新功能在Google I/O开发者大会期间推出。

DeepMind开放性团队的研究科学家Jack Parker-Holder告诉TechCrunch：“它对于代理（和机器人）用例和人类玩起来都非常强大，这一直是Genie的论点。”

他举了一个在很少见到阳光的伦敦部署新机器人的例子。帕克-霍尔德说，精灵可以模拟那些罕见的阳光照射维多利亚时代房屋的情况，这样当这种情况发生时，光线就不会震动机器人。

正在加载播放器...

“同时，你可能会说，‘我要去纽约市，但不是每年的这个时候，’”他继续说道。 “‘马上就要下雪了。我想看看那个街区在雪地里是什么样子。’”

Google 20年来一直通过装有摄像头的汽车和背着“追踪器背包”的个人收集街景数据。这家科技巨头已在110个国家和七大洲收集了超过2800亿张图像。

“通过街景，我们可以获得来自世界各地的大量图像，”杰克说。 “你可以想象，将丰富的现实世界信息和数据来源与模拟世界的能力结合起来，其潜力有多大。”

Google去年8月发布了最新的世界模型Genie 3用于研究预览，并于1月份向美国的Google AI Ultra订阅者开放了该工具的使用权限，允许客户通过文本提示或图像创建交互式游戏世界。目标是使用Genie进行教育体验、游戏和机器人培训。

Genie 3已经在帮助Waymo的一个模拟器提供动力，以训练其自动驾驶汽车应对龙卷风或偶然遭遇大象等“极其罕见的事件”。添加街景数据可以帮助Waymo准备在全球更多城市推出。

Waymo拥有自己的模拟器，并依靠该模拟器扩展到美国11个城市，并在更多城市测试其人工智能驱动程序。 Parker-Holder表示，与Genie的不同之处在于，这些都是从汽车的角度来看的。街景不仅可以模拟锚定在真实地点的世界，还可以将视角转移到其他类型的代理，例如人类或机器人。

Google从今天开始向美国的一些Ultra用户推出Genie中的街景，并随着时间的推移大规模推出。据该公司称，Global Ultra用户将在未来几周内获得访问权限。

DeepMind产品经理迭戈·里瓦斯 (Diego Rivas) 表示，研究人员的目标是将这种新功能交给尽可能多的人。他警告说，街景（尤其是街景）和Genie总体而言仍处于实验阶段，因此在准确性方面还有很多需要改进的地方。

在Google团队向我展示的样本中（包括我曾经居住的社区的水下模拟），结果令人印象深刻且可识别，但仍然是视频游戏质量而不是照片级真实感。这些模型还没有物理意识，这意味着它们还不了解因果关系。例如，在模拟一名女子跑过白雪皑皑的约书亚树时，她直接跑过仙人掌和灌木丛。

相比之下，Google的图像生成器Nano Banana（现在可以在信息图表中生成完美的文本）或其视频生成器Veo（它可以理解纸船在水流中漂流、烟雾扩散到空气中以及织物覆盖在形式上）。

物理学并没有被硬编码到这些模型中；而是被硬编码到这些模型中。随着时间的推移，他们通过被动观察直观地学习它，就像一个生物一样。

“我认为对于这种模型，在准确性和质量方面可能落后视频6到12个月，所以我认为这是我们将解决的问题，”Parker-Holder说。

Google Maps总监Jonathan Herbert 12年前以实习生身份加入街景团队，他表示Genie还无法忠实地重建街道。他认为真正的突破是人工智能的空间连续性。如果你转动360度，AI会正确记住并模拟你身后的环境。从那时起，模型可以在此基础上构建一个新环境。

“我们长期以来一直在思考如何在街景数据的基础上构建世界上最好、最丰富的模型，”赫伯特说。 “长期以来，以新方式使用地图数据并进行新型人工智能研究绝对是我们的想法。”

← 返回列表