Google的Gemini Omni将图像、音频和文本转换为视频 - 这仅仅是开始

三年前,当Google推出Gemini时,目标是构建一个多模式大型语言模型——一个经过文本、图像、音频和视频训练的单一神经网络,可以生成任何这些格式的内容。
今天,在Google I/O开发者大会上,该公司通过Gemini Omni朝着这一目标迈出了具体的一步,这是一个新的多模式模型系列,GoogleCEOSundar Pichai表示将能够“据任何输入创建任何内容”。
Omni将从视频开始。用户现在可以组合图像、音频、视频和文本,而不是简单地将这些输入拼接在一起,Omni会跨所有这些输入产生一致的输出。其结果是高质量的视频反映了对物理、文化、历史和科学的理解。
Omni还允许用户使用纯文本命令而不是复杂的编辑软件来编辑照片,类似于谷歌的Nano Banana。
Google已经有了一个专用的视频模型Veo,它可以让用户将文本和图像转换成视频,甚至可以直接和自定义头像。但Google DeepMind产品管理总监Nicole Brichtova表示,今天的发布不仅仅是Veo更新:“这是将Gemini的智能与我们媒体模型的渲染功能相结合的下一步。”
DeepMind首席技术专家Koray Kavukcuoglu在周一的媒体吹风会上向记者提供了一个例子:当Omni收到一个简单的提示(例如“蛋白质折叠的粘土动画解释器”)时,它很快就呈现了一段定格动画解释器的视频,并配有画外音,“蛋白质从氨基酸链开始。它们折叠成 α 螺旋和称为 β 片层的扁平部分等模式,形成完美的三维形状。”
Omni的长期愿景更为广泛,涉及使用该模型来执行从音频生成图像或从视频生成音频等操作。
“当我们首次宣布Gemini时,这是我们第一个原生多模式的人工智能模型,”皮查伊在简报中说。 “我们知道,结合文本、代码、音频、图像和视频对其进行训练将使其对世界有更深入的了解。通过世界模型,人工智能正在从预测文本转向模拟现实。Gemini Omni是朝这个方向迈出的下一步。”
作为该版本的一部分,用户还可以使用自己的数字化身创建视频——这在现已不复存在的Sora应用程序与Cameos上得到了普及。布里托娃表示,为了防止深度造假,用户必须经历专门的产品入职培训,其中包括录制自己的声音并说出一系列数字。然后存储该头像以供将来使用。
此外,使用Omni创建的所有视频都将包含Google的SynthID数字水印,允许用户验证视频是否是通过Gemini产品生成的。
该系列中的第一个型号是Gemini Omni Flash,将于今天在Gemini应用、YouTube Shorts和AI创意工作室Flow上推出。 Flash将能够渲染10秒的视频,Brichtova表示这并不是模型的限制,而是基于希望让更多人使用Flash以及大多数用户还不想制作更长视频的预期而做出的决定。不过,在不久的将来,更长的视频时长正在酝酿之中。
Google似乎将Omni Flash定位为更多的消费工具。 Brichtova和DeepMind研究工程师Gabe Barth-Maron在与TechCrunch的电话会议中给出的关于数字化身用途的例子都是个人的:制作自己获奖或登上月球的视频,或者从度假视频的背景中删除路人。
巴特-马龙说得更简单:“它们就像个性化的模因。”
“我们确实致力于让消费者更容易使用它,”布里托娃说。 “没有多少视频模型能够打破与消费者之间的鸿沟,所以这就是我们要做的事情。”
易用性伴随着一个警告:Brichtova和Barth-Maron指出,编辑提示需要非常具体,否则Omni可能会过度编辑或无意中更改用户想要保留的元素 - Nano Banana用户可能会遇到这个问题。

尽管近期关注的是消费者,但Omni的企业和创意影响是显而易见的,Google将在未来几周内通过API提供Omni。头像生成工具(现已在Shorts上提供)是Google希望内容创作者能够使用的功能。但更广泛地说,端到端多模式工作流程可能会给广告商和电影制作人带来变革。
初创公司Luma AI正在构建类似的东西,一种代理工具,可以据简短的简介和产品图像生成整个广告活动,并由其自己的“统一”模型提供支持。
“实际上,我们对该模型的文本渲染功能感到非常自豪,这对于广告等事情非常有用,”布里希托娃说。 “如果你想要一个产品,甚至只是一个口号,它就必须准确……我们肯定预计电影制片人和其他类型的创作者也会使用这种模式。”
Omni Pro模型可能会更好地服务于更专业的用例,它应该在所有Omni任务中表现更好。 Google尚未透露何时发布Pro,但Brichtova表示,当“我们感觉我们已经到了超越Flash的阶段”时,就会发生这种情况。