X
Ultralytics YOLOv8.2 发布Ultralytics YOLOv8.2 发布Ultralytics YOLOv8.2 释放箭头
绿色检查
链接复制到剪贴板

使用 Google DeepMind 的 Veo 生成视频

了解有关 Veo 的更多信息,Veo 是 Google DeepMind 最新推出的生成式视频模型,可根据文本、图像和视频提示轻松创建高质量的 1080P 视频。

在 5 月 14 日举行的谷歌 2024 I/O 大会上谷歌分享了其人工智能部门 DeepMind 的最新进展。其中最令人兴奋的是他们最新的生成视频模型 Veo。Veo 可以根据文本、图像和视频提示创建高质量的 1080P 视频。它甚至可以让你根据后续提示编辑生成的视频。Veo 将生成式人工智能提升到了一个新的水平。让我们仔细看看 Veo 提供的功能。 

了解 Veo 的功能

Veo 是一种生成式视频模型,它利用对语言和视觉效果的深刻理解,创建出与用户的创意构想非常吻合的视频。它能准确捕捉较长提示语的语气和细节,是创作者将创意转化为精确视频内容的强大工具。

由于 Veo 能够理解 "延时摄影 "和 "风景航拍 "等电影技术,因此用户可以对生成的视频进行突破性的创意控制。这种创造性的控制使用户可以创建人物、动物和物体自然移动的视频。Veo 生成的视频引人入胜,极具视觉吸引力,因为很难发现它们是由人工智能模型生成的。

Veo 不仅仅能根据提示创建视频。如果您提供先前生成的视频和特定的编辑要求,例如在海岸线鸟瞰图中插入皮划艇,Veo 可以将这一更改无缝集成到原始视频中,生成更新版本。

图 1.使用 Veo 编辑视频的示例。

以下是 Veo 提供的其他功能:

  • 遮罩编辑:Veo 可帮助您编辑视频的指定区域。
  • 受图像启发的视频制作:使用图像和文本提示,Veo 可生成与图像风格一致的视频,并遵循提示的指示。
  • 扩展视频片段:Veo 可根据单个提示或一连串提示创建视频片段并将其扩展至 60 秒或更长,从而共同讲述一个故事。

Veo 制作的精彩视频

让我们回顾一下 Veo 制作的一些视频,看看它为何如此令人惊叹。 

根据简短的文字提示生成延时摄影视频具有挑战性。通常情况下,简短的文字提示无法准确表达延时摄影场景中的变化和运动。因此,令人惊讶的是,Veo 可以在不了解细节的情况下理解延时摄影的预期效果。 

图 2.Veo 生成的延时视频中的一帧。

同样,生成具有准确物理特性的视频也并非易事。人工智能模型需要理解并模拟重力、动量和碰撞等物理定律,才能使动作和互动看起来逼真。令人印象深刻的是,Veo 能够在没有文本提示详细指导的情况下准确模拟这些动态。

图 3.使用 Veo 生成的视频中的一帧画面准确捕捉到了水母运动的物理过程。

到目前为止,由于计算能力的限制以及在较长的序列中保持连贯性的复杂性,我们只能看到人工智能生成的较短视频。在谷歌 2024 I/O 演示会上,Veo 制作更长、更复杂视频的能力令人惊叹。

图 4.在谷歌 2024 I/O 演示会上播放的较长 Veo 视频中的画面。

Veo 如何工作?

与许多其他人工智能模型一样,Veo 也是站在巨人的肩膀上。它借鉴了以往的先进技术,如生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,以及谷歌专有的 Transformer 架构和 Gemini。此外,为了提高 Veo 准确解释提示的能力,其训练数据集中每个视频的字幕都更加详细。 

根据 Google 分享的粗略工作流程模型,Veo 的工作原理如下:

  • 输入提示:您可提供文本提示,也可选择图像提示。
  • 编码:文本提示由 UL2 编码器处理,图像提示由图像编码器处理。
  • 嵌入式提示:将文本和图像编码器的输出合并为一个嵌入式提示。
  • 潜在扩散模型:嵌入式提示和有噪声的压缩视频会传递给该模型,该模型会使用它们生成压缩视频。Veo 使用高质量的压缩视频表示法(称为潜像)来提高效率,同时保持质量。
  • 解码:最后一步是从压缩视频中解码输出 1080p 视频。
图 5.Veo 的工作原理。

令人信服的电影制作案例研究

为了测试 Veo 的能力,谷歌与电影制片人唐纳德-格洛弗及其创意工作室 Gilga 合作。他们使用 Veo 探索各种创意技术,包括动态跟踪拍摄,这需要精确的移动和一致的取景。 

图 6.在电影制作过程中使用 Veo。

传统上,由于时间和资源的限制,电影制作人面临着种种限制。有了 Veo,Glover 和他的团队可以快速尝试并生成复杂的镜头,这反过来又为电影制作过程提供了更多的灵活性和创新性。

有了 Veo,Glover 和他的团队可以在实际拍摄前快速试验并生成复杂的镜头。例如,他们可以测试各种动态跟踪镜头,了解它们的效果,并根据需要进行调整。这种预可视化过程有助于他们完善自己的想法,并确保镜头能达到预期效果,最终减少了实际拍摄时所需的拍摄次数。他们能够创建一个引人注目的案例研究,展示 Veo 改变电影业的潜力。它提供了一种更快、更高效的方式,将创意变为现实。

Veo 在各行各业的实际用途 

Veo 先进的视频生成功能在许多行业都有实际应用。在广告业,它可以为目标受众快速制作定制的高质量商业广告,从而节省时间和制作成本。在教育领域,Veo 可以制作引人入胜的教学视频,使复杂的概念更容易理解。 

企业可以使用 Veo 进行培训和企业宣传。医疗保健专业人员可以使用 Veo 来模拟医疗程序,以达到培训目的。在虚拟活动和会议方面,Veo 可以创建逼真的模拟场地和舞台,让与会者在任何地方都能获得引人入胜的互动体验。组织者将受益于扩大的影响力和对未来活动的宝贵见解。有了 Veo,我们将迎来无数机遇。

当一种人工智能模型有可能触及不同行业时,必须牢记人工智能的安全性和道德性。为了让人工智能得到更广泛的应用并确保负责任的使用,谷歌采取了多项安全措施。由 Veo 创建的视频会使用 SynthID(一种用于水印和识别人工智能生成内容的工具)添加水印。SynthId 可确保透明度,有助于降低隐私、版权和偏见风险。除此之外,所有生成的视频都要经过安全过滤器和记忆检查程序。这些保障措施使 Veo 成为一个有价值、合乎道德的工具,支持负责任的创新视频制作。

从何处访问 Veo

在接下来的几周内,谷歌将开始通过 Labs.google 上的新工具 VideoFX 向特定创作者提供 Veo 的部分突破性功能。这一举措允许早期使用 Veo 先进的视频生成功能,让创作者有机会尝试其创新功能。目前,Veo 的等待名单已经开放,邀请感兴趣的创作者注册并在他们的项目中使用 Veo 的强大工具。

有关 DeepMind 2024 年生成式人工智能更新的更多信息

除了 Veo 之外,DeepMind 还在 2024 年推出了生成式人工智能方面的几项尖端更新。其中一项更新是Imagen 3,这是迄今为止最先进的文本到图像模型。Imagen 3 擅长创建逼真、栩栩如生的图像。它能深入理解自然语言提示,捕捉错综复杂的细节,同时最大限度地减少视觉伪影。

图 7.使用 Imagen 3 生成的图像。

DeepMind 还开发了Lyria,这是其最先进的人工智能音乐生成模型。作为这项工作的一部分,DeepMind 开发了一套名为 "音乐人工智能沙盒 "的音乐人工智能工具。这些工具使音乐家和制作人能够在音乐创作和声音转换方面探索新的创造性可能性。

图 8.DeepMind 人工智能音乐工具的用户界面示例。

与 Veo 类似,DeepMind 也对其他更新采取了多项安全措施。SynthID 将在这些更新中使用,作为水印和识别人工智能生成内容的工具。DeepMind 的这些更新有望通过提供先进、高效和负责任的工具来创建高质量的视觉和音频内容,从而改变各行各业。

引领下一阶段的生成式人工智能

DeepMind 2024 年的生成式人工智能进展,包括 Veo、Imagen 3 和 Lyria,标志着人工智能能力的大幅跃升。Veo 能够根据简单的提示生成高质量的 1080p 视频,改变了视频创作方式,成为电影制作人和内容创作者的多功能工具。Imagen 3 在制作逼真图像方面大放异彩,而 Lyria 则利用先进的人工智能工具为音乐制作带来了新的可能性。

这些技术有望改变各行各业,为创建高质量的视听内容提供高效、负责任的工具。借助 SynthID 等安全措施,DeepMind 将继续拓展人工智能的边界,为未来的创新应用铺平道路。

访问我们的GitHub 存储库并加入我们的社区,深入了解人工智能。浏览我们的解决方案页面,了解人工智能如何应用于制造业农业

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅