了解有关 Veo 的更多信息,Google DeepMind 最新的生成式视频模型,它可以毫不费力地根据文本、图像和视频提示创建高质量的 1080P 视频。
在 5 月 14 日举行的Google 2024 I/O演示会上,他们分享了其人工智能部门 DeepMind 的最新进展。其中最令人兴奋的是他们最新的生成视频模型 Veo。Veo 可以根据文本、图像和视频提示创建高质量的 1080P 视频。它甚至可以让你根据后续提示编辑生成的视频。Veo 将生成式人工智能提升到了一个新的水平。让我们仔细看看 Veo 提供的功能。
Veo 是一种生成式视频模型,它利用对语言和视觉效果的深刻理解,创建出与用户的创意构想非常吻合的视频。它能准确捕捉较长提示语的语气和细节,是创作者将创意转化为精确视频内容的强大工具。
由于 Veo 能够理解 "延时摄影 "和 "风景航拍 "等电影技术,因此用户可以对生成的视频进行突破性的创意控制。这种创造性的控制使用户可以创建人物、动物和物体自然移动的视频。Veo 生成的视频引人入胜,极具视觉吸引力,因为很难发现它们是由人工智能模型生成的。
Veo 不仅仅能根据提示创建视频。如果您提供先前生成的视频和特定的编辑要求,例如在海岸线鸟瞰图中插入皮划艇,Veo 可以将这一更改无缝集成到原始视频中,生成更新版本。
以下是 Veo 提供的其他功能:
让我们回顾一下 Veo 制作的一些视频,看看它为何如此令人惊叹。
根据简短的文字提示生成延时摄影视频具有挑战性。通常情况下,简短的文字提示无法准确表达延时摄影场景中的变化和运动。因此,令人惊讶的是,Veo 可以在不了解细节的情况下理解延时摄影的预期效果。
同样,生成具有准确物理特性的视频也并非易事。人工智能模型需要理解并模拟重力、动量和碰撞等物理定律,才能使动作和互动看起来逼真。令人印象深刻的是,Veo 能够在没有文本提示详细指导的情况下准确模拟这些动态。
到目前为止,由于计算能力的限制以及在较长的序列中保持连贯性的复杂性,我们只能看到人工智能生成的较短视频。在Google的 2024 I/O 演示会上,Veo 制作更长、更复杂视频的能力令人惊叹。
与许多其他人工智能模型一样,Veo 也是站在巨人的肩膀上。它借鉴了以往的先进技术,如生成查询网络 (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,以及Google专有的 Transformer 架构和 Gemini。此外,为了提高 Veo 准确解释提示的能力,其训练数据集中每个视频的字幕都更加详细。
根据Google 分享的粗略模型工作流程,以下是 Veo 的工作原理:
为了测试 Veo 的能力,Google 与电影制片人 Donald Glover 及其创意工作室 Gilga 合作。他们使用 Veo 探索各种创意技术,包括动态跟踪拍摄,这需要精确的动作和一致的取景。
传统上,由于时间和资源的限制,电影制作人面临着种种限制。有了 Veo,Glover 和他的团队可以快速尝试并生成复杂的镜头,这反过来又为电影制作过程提供了更多的灵活性和创新性。
有了 Veo,Glover 和他的团队可以在实际拍摄前快速试验并生成复杂的镜头。例如,他们可以测试各种动态跟踪镜头,了解它们的效果,并根据需要进行调整。这种预可视化过程有助于他们完善自己的想法,并确保镜头能达到预期效果,最终减少了实际拍摄时所需的拍摄次数。他们能够创建一个引人注目的案例研究,展示 Veo 改变电影业的潜力。它提供了一种更快、更高效的方式,将创意变为现实。
Veo 先进的视频生成功能在许多行业都有实际应用。在广告业,它可以为目标受众快速制作定制的高质量商业广告,从而节省时间和制作成本。在教育领域,Veo 可以制作引人入胜的教学视频,使复杂的概念更容易理解。
企业可以使用 Veo 进行培训和企业宣传。医疗保健专业人员可以使用 Veo 来模拟医疗程序,以达到培训目的。在虚拟活动和会议方面,Veo 可以创建逼真的模拟场地和舞台,让与会者在任何地方都能获得引人入胜的互动体验。组织者将受益于扩大的影响力和对未来活动的宝贵见解。有了 Veo,我们将迎来无数机遇。
当人工智能模型有可能触及不同行业时,必须牢记人工智能的安全性和道德性。为了让人工智能得到更广泛的应用,并确保负责任地使用人工智能,Google 采取了多项安全措施。由 Veo 制作的视频使用 SynthID(一种用于水印和识别人工智能生成内容的工具)添加水印。SynthId 可确保透明度,有助于降低隐私、版权和偏见风险。除此之外,所有生成的视频都要经过安全过滤器和记忆检查程序。这些保障措施使 Veo 成为一个有价值、合乎道德的工具,支持负责任的创新视频制作。
在接下来的几周内,Google 将开始通过 VideoFX 向特定创作者提供 Veo 的一些突破性功能,VideoFX 是一种可在实验室使用的新工具。google 。这一举措允许创作者尽早使用 Veo 先进的视频生成功能,让创作者有机会尝试其创新功能。目前,Veo 的等待名单已经开放,邀请感兴趣的创作者注册并在他们的项目中使用 Veo 的强大工具。
除了 Veo 之外,DeepMind 还在 2024 年推出了生成式人工智能方面的几项尖端更新。其中一项更新是Imagen 3,这是迄今为止最先进的文本到图像模型。Imagen 3 擅长创建逼真、栩栩如生的图像。它能深入理解自然语言提示,捕捉错综复杂的细节,同时最大限度地减少视觉伪影。
DeepMind 还开发了Lyria,这是其最先进的人工智能音乐生成模型。作为这项工作的一部分,DeepMind 开发了一套名为 "音乐人工智能沙盒 "的音乐人工智能工具。这些工具使音乐家和制作人能够在音乐创作和声音转换方面探索新的创造性可能性。
与 Veo 类似,DeepMind 也对其他更新采取了多项安全措施。SynthID 将在这些更新中使用,作为水印和识别人工智能生成内容的工具。DeepMind 的这些更新有望通过提供先进、高效和负责任的工具来创建高质量的视觉和音频内容,从而改变各行各业。
DeepMind 2024 年的生成式人工智能进展,包括 Veo、Imagen 3 和 Lyria,标志着人工智能能力的大幅跃升。Veo 能够根据简单的提示生成高质量的 1080p 视频,改变了视频创作方式,成为电影制作人和内容创作者的多功能工具。Imagen 3 在制作逼真图像方面大放异彩,而 Lyria 则利用先进的人工智能工具为音乐制作带来了新的可能性。
这些技术有望改变各行各业,为创建高质量的视听内容提供高效、负责任的工具。借助 SynthID 等安全措施,DeepMind 将继续拓展人工智能的边界,为未来的创新应用铺平道路。
访问我们的GitHub 存储库并加入我们的社区,深入了解人工智能。浏览我们的解决方案页面,了解人工智能如何应用于制造业和农业。