AI资讯 / 发布于 2026.5.20 2:10

Google的Gemini Omni将图像、音频和文本转换为视频 - 这仅仅是开始

三年前，当Google推出Gemini时，目标是构建一个多模式大型语言模型——一个经过文本、图像、音频和视频训练的单一神经网络，可以生成任何这些格式的内容。

今天，在Google I/O开发者大会上，该公司通过Gemini Omni朝着这一目标迈出了具体的一步，这是一个新的多模式模型系列，GoogleCEOSundar Pichai表示将能够“据任何输入创建任何内容”。

Omni将从视频开始。用户现在可以组合图像、音频、视频和文本，而不是简单地将这些输入拼接在一起，Omni会跨所有这些输入产生一致的输出。其结果是高质量的视频反映了对物理、文化、历史和科学的理解。

Omni还允许用户使用纯文本命令而不是复杂的编辑软件来编辑照片，类似于谷歌的Nano Banana。

Google已经有了一个专用的视频模型Veo，它可以让用户将文本和图像转换成视频，甚至可以直接和自定义头像。但Google DeepMind产品管理总监Nicole Brichtova表示，今天的发布不仅仅是Veo更新：“这是将Gemini的智能与我们媒体模型的渲染功能相结合的下一步。”

DeepMind首席技术专家Koray Kavukcuoglu在周一的媒体吹风会上向记者提供了一个例子：当Omni收到一个简单的提示（例如“蛋白质折叠的粘土动画解释器”）时，它很快就呈现了一段定格动画解释器的视频，并配有画外音，“蛋白质从氨基酸链开始。它们折叠成 α 螺旋和称为 β 片层的扁平部分等模式，形成完美的三维形状。”

Omni的长期愿景更为广泛，涉及使用该模型来执行从音频生成图像或从视频生成音频等操作。

“当我们首次宣布Gemini时，这是我们第一个原生多模式的人工智能模型，”皮查伊在简报中说。 “我们知道，结合文本、代码、音频、图像和视频对其进行训练将使其对世界有更深入的了解。通过世界模型，人工智能正在从预测文本转向模拟现实。Gemini Omni是朝这个方向迈出的下一步。”

作为该版本的一部分，用户还可以使用自己的数字化身创建视频——这在现已不复存在的Sora应用程序与Cameos上得到了普及。布里托娃表示，为了防止深度造假，用户必须经历专门的产品入职培训，其中包括录制自己的声音并说出一系列数字。然后存储该头像以供将来使用。

此外，使用Omni创建的所有视频都将包含Google的SynthID数字水印，允许用户验证视频是否是通过Gemini产品生成的。

该系列中的第一个型号是Gemini Omni Flash，将于今天在Gemini应用、YouTube Shorts和AI创意工作室Flow上推出。 Flash将能够渲染10秒的视频，Brichtova表示这并不是模型的限制，而是基于希望让更多人使用Flash以及大多数用户还不想制作更长视频的预期而做出的决定。不过，在不久的将来，更长的视频时长正在酝酿之中。

Google似乎将Omni Flash定位为更多的消费工具。 Brichtova和DeepMind研究工程师Gabe Barth-Maron在与TechCrunch的电话会议中给出的关于数字化身用途的例子都是个人的：制作自己获奖或登上月球的视频，或者从度假视频的背景中删除路人。

巴特-马龙说得更简单：“它们就像个性化的模因。”

“我们确实致力于让消费者更容易使用它，”布里托娃说。 “没有多少视频模型能够打破与消费者之间的鸿沟，所以这就是我们要做的事情。”

易用性伴随着一个警告：Brichtova和Barth-Maron指出，编辑提示需要非常具体，否则Omni可能会过度编辑或无意中更改用户想要保留的元素 - Nano Banana用户可能会遇到这个问题。

尽管近期关注的是消费者，但Omni的企业和创意影响是显而易见的，Google将在未来几周内通过API提供Omni。头像生成工具（现已在Shorts上提供）是Google希望内容创作者能够使用的功能。但更广泛地说，端到端多模式工作流程可能会给广告商和电影制作人带来变革。

初创公司Luma AI正在构建类似的东西，一种代理工具，可以据简短的简介和产品图像生成整个广告活动，并由其自己的“统一”模型提供支持。

“实际上，我们对该模型的文本渲染功能感到非常自豪，这对于广告等事情非常有用，”布里希托娃说。 “如果你想要一个产品，甚至只是一个口号，它就必须准确……我们肯定预计电影制片人和其他类型的创作者也会使用这种模式。”

Omni Pro模型可能会更好地服务于更专业的用例，它应该在所有Omni任务中表现更好。 Google尚未透露何时发布Pro，但Brichtova表示，当“我们感觉我们已经到了超越Flash的阶段”时，就会发生这种情况。

← 返回列表