Google DeepMind Veo：新型人工智能视频生成器 |Ultralytics

在 5 月 14 日举行的Google 2024 I/O 大会上，Google分享了其人工智能部门 DeepMind 的最新进展。其中最令人兴奋的是他们最新的生成视频模型 Veo。Veo 可以根据文本、图像和视频提示创建高质量的 1080P 视频。它甚至可以让你根据后续提示编辑生成的视频。Veo 将生成式人工智能提升到了一个新的水平。让我们仔细看看 Veo 提供的功能。

了解 Veo 的功能

Veo 是一种生成式视频模型，它利用对语言和视觉效果的深刻理解来创建与用户创意愿景紧密匹配的视频。它可以准确地捕捉较长提示的语气和细节，使其成为希望将想法转化为精确视频内容的创作者的强大工具。

用户可以对生成的视频进行开创性的创意控制，因为 Veo 可以理解诸如“延时摄影”和“景观航拍”之类的电影技术。这种创意控制使用户可以创建人物、动物和物体自然移动的视频。Veo 生成的视频引人入胜且具有视觉吸引力，因为很难发现它们是由 AI 模型生成的。

Veo 不仅仅是从提示创建视频。如果您提供先前生成的视频和特定的编辑请求，例如将皮划艇插入海岸线的航拍视图中，Veo 可以将此更改无缝集成到原始视频中，从而生成更新的版本。

以下是 Veo 提供的一些更多功能：

蒙版编辑：Veo 可以帮助您编辑视频的指定区域。
‍
图像启发式视频创作：使用图像和文本提示，Veo 可以生成反映图像风格并遵循提示方向的视频。
‍
扩展视频片段：Veo可以创建和扩展视频片段至60秒或更长，既可以从单个提示生成，也可以从一系列共同讲述一个故事的提示生成。

Veo生成的令人惊叹的视频

让我们一起来看看Veo生成的这些令人惊叹的视频，并分析其原因。

通过简短的文本提示生成延时视频是一项具有挑战性的任务。通常，简短的文本提示无法准确传达延时场景中的变化和运动。因此，Veo能够在不深入细节的情况下理解延时视频的预期效果，这令人震惊。

同样，生成具有精确物理效果的视频也并非易事。AI模型需要理解并模拟物理定律，如重力、动量和碰撞，以使运动和交互看起来逼真。令人印象深刻的是，Veo能够在没有文本提示详细指导的情况下，准确地模拟这些动态。

到目前为止，由于计算能力的限制以及在较长的序列中保持连贯性的复杂性，我们只能看到人工智能生成的较短视频。在Google2024 年 I/O 演示会上，Veo 制作更长、更复杂视频的能力令人叹为观止。

图 4.在Google 2024 I/O 演示会上播放的较长 Veo 视频中的画面。

Veo是如何工作的？

与许多其他人工智能模型一样，Veo 也是站在巨人的肩膀上。它借鉴了以往的先进技术，如生成查询网络（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere，以及Google专有的Transformer 架构和 Gemini。此外，为了提高 Veo 准确解释提示的能力，其训练数据集中每个视频的字幕都更加详细。

根据Google 分享的粗略工作流程模型，Veo 的工作原理如下：

输入提示：您提供一个文本提示，以及可选的图像提示。
‍
编码：文本提示由UL2编码器处理，图像提示由图像编码器处理。
‍
嵌入式提示：文本和图像编码器的输出被组合成一个单一的嵌入式提示。
‍
潜在扩散模型：嵌入式提示和一个嘈杂的压缩视频被传递给该模型，该模型使用它们生成一个压缩视频。Veo使用高质量的压缩视频表示，称为潜在变量（latents），以提高效率，同时保持质量。
‍
解码：最后一步是从压缩视频中解码1080p视频输出。

一个引人注目的电影制作案例研究

为了测试 Veo 的能力，Google 与电影制片人唐纳德-格洛弗及其创意工作室 Gilga 合作。他们使用 Veo 探索各种创意技术，包括动态跟踪拍摄，这需要精确的移动和一致的取景。

传统上，电影制作人面临着时间和资源限制。借助Veo，格洛弗和他的团队可以快速试验和生成复杂的镜头，从而在电影制作过程中提供更大的灵活性和创新性。

借助Veo，格洛弗和他的团队可以在实际拍摄之前快速试验和生成复杂的镜头。例如，他们可以测试各种动态跟踪镜头，看看它们的效果如何，并根据需要进行调整。这种预可视化过程帮助他们完善想法，并确保镜头能够按预期工作，最终减少实际拍摄所需的次数。他们能够创建一个引人注目的案例研究，以展示Veo改变电影行业的潜力。它提供了一种更快、更有效的方式来实现创意愿景。

Veo在各个行业的实际应用

Veo先进的视频生成能力在许多行业都有实际应用。在广告领域，它可以快速为目标受众制作定制的高质量商业广告，从而节省时间和制作成本。在教育领域，Veo可以创建引人入胜的教学视频，使复杂的概念更容易理解。

企业可以使用 Veo 进行培训和企业沟通。医疗保健专业人员可以使用 Veo 模拟医疗程序以进行培训。在虚拟活动和会议方面，Veo 可以创建逼真的场地和舞台模拟，让与会者无论身在何处都能获得引人入胜的互动体验。组织者可以扩大覆盖范围，并为未来的活动获得宝贵的见解。感谢 Veo，无数的机会得以开启。

当一个人工智能模型有可能触及不同行业时，必须牢记人工智能的安全性和道德性。为了让人工智能得到更广泛的应用并确保负责任的使用，Google 采取了多项安全措施。由 Veo 创建的视频会使用 SynthID（一种用于水印和识别人工智能生成内容的工具）进行水印处理。SynthId 可确保透明度，有助于降低隐私、版权和偏见风险。除此之外，所有生成的视频都要经过安全过滤器和记忆检查程序。这些保障措施使 Veo 成为一个有价值、合乎道德的工具，支持负责任的创新视频制作。

在哪里可以访问 Veo

在未来几周内，Google 将开始通过 Labsgoogle 上的新工具 VideoFX 向特定创作者提供 Veo 的部分突破性功能。这一举措允许早期使用 Veo 先进的视频生成功能，让创作者有机会尝试其创新功能。Veo 的候补名单目前已经开放，欢迎感兴趣的创作者注册并在他们的项目中使用 Veo 的强大工具。

关于 DeepMind 2024 年生成式 AI 更新的更多信息

除了 Veo 之外，DeepMind 还推出了 2024 年生成式 AI 的多项前沿更新。其中一项更新是 Imagen 3，这是他们迄今为止最先进的文本到图像模型。 Imagen 3 擅长创建逼真的图像。它可以深入理解自然语言提示，并捕捉复杂的细节，同时最大限度地减少视觉伪影。

DeepMind 还开发了 Lyria，这是其用于 AI 音乐生成的最先进的模型。作为这项工作的一部分，DeepMind 创建了一套名为 Music AI Sandbox 的音乐 AI 工具。这些工具使音乐家和制作人能够探索音乐创作和声音转换方面的新创意。

与 Veo 类似，DeepMind 也针对其其他更新实施了多项安全措施。 SynthID 将在这些更新中用作水印工具和识别 AI 生成的内容。 DeepMind 的这些更新有望通过提供用于创建高质量视觉和音频内容的高级、高效和负责任的工具来改变各个行业。

驾驭生成式 AI 的下一阶段

DeepMind 2024 年在生成式 AI 方面的进步，包括 Veo、Imagen 3 和 Lyria，标志着 AI 能力的显着飞跃。 Veo 凭借其通过简单提示生成高质量 1080p 视频的能力改变了视频创作，使其成为电影制作人和内容创作者的多功能工具。 Imagen 3 在生成逼真的图像方面表现出色，而 Lyria 通过先进的 AI 工具为音乐生成带来了新的可能性。

这些技术有望通过提供高效且负责任的工具来创建高质量的视觉和音频内容，从而改变各个行业。凭借 SynthID 等安全措施确保合乎道德的使用，DeepMind 将继续扩展 AI 的边界，为未来的创新应用铺平道路。

访问我们的 GitHub 存储库并加入我们的社区，深入了解 AI。浏览我们的解决方案页面，了解 AI 如何应用于制造业和农业。

使用Google DeepMind 的 Veo 生成视频

了解 Veo 的功能

Veo生成的令人惊叹的视频

Veo是如何工作的？

一个引人注目的电影制作案例研究

Veo在各个行业的实际应用

在哪里可以访问 Veo

关于 DeepMind 2024 年生成式 AI 更新的更多信息

驾驭生成式 AI 的下一阶段

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

医疗诊断用视觉人工智能工具

从数据到决策：运用视觉人工智能制定企业战略

让我们一起构建人工智能的未来！