绿色检查
链接复制到剪贴板

元电影基因重新想象内容创作

了解 Meta Movie Gen 如何重新定义视频和声音创作。了解该机型如何提供精确的视频编辑并支持个性化媒体创建。

无论你是一位有抱负的电影制作人,还是一位喜欢为观众制作视频的内容创作者,拥有能扩展你的创造力的人工智能工具总是很有帮助的。最近,Meta 推出了最新的生成视频模型,即MetaMovie Gen。 

预计到 2033 年,媒体和娱乐领域的全球人工智能生成市场规模将达到 115.7 亿美元,Runway、OpenAIMeta等公司将引领突破性创新。Meta Movie Gen 尤其适用于电影制作、视频内容创作和数字故事讲述等应用,通过高质量的人工智能生成视频,比以往任何时候都更容易实现创意构想。在本文中,我们将探讨MetaMovie Gen 及其工作原理。我们还将进一步了解它的一些应用。让我们开始吧!

图 1.使用 Meta Movie Gen 生成的视频片段的一帧。

什么是 Meta Movie Gen?

在讨论 Meta Movie Gen 是什么之前,我们先来看看它是如何诞生的。 

Meta 在生成式人工智能方面的研究始于其Make-A-Scene 系列模型。这项研究的重点是一种多模态生成式人工智能方法,它可以帮助艺术家和幻想家将想象变为现实。艺术家可以输入图像、音频、视频或三维动画,以获得他们想要的图像输出。创新的下一个飞跃出现在扩散模型上,如喇嘛图像基础模型(Emu),它使生成质量更高的图像和视频成为可能,并实现了图像编辑功能。

图 2.使用 Make-A-Scene 的草图和文本输入生成图像的示例。

Movie Gen 是 Meta 对生成式人工智能研究的最新贡献。它结合了前面提到的所有模式,并允许进一步细粒度控制,以便人们以更具创造性的方式使用模型。Meta Movie Gen 是一个基础模型集合,用于生成不同类型的媒体,包括文本到视频、文本到音频和文本到图像。它由四个模型组成,这四个模型是在授权数据集和公开数据集的组合上训练出来的。 

下面是这些型号的简要介绍:

  • Movie Gen 视频模型:拥有 300 亿个参数的模型,可根据文字提示生成高质量视频。 
  • 电影基因音频模型:拥有 130 亿个参数的模型,可创建与视频内容同步的配乐。 
  • 个性化电影生成视频模型:它根据文字提示和单张图片生成特定个人的视频,并保留其肖像。 
  • 电影基因编辑模型: 该模型可对真实和虚构的视频进行详细的、基于文本的视频编辑。 

训练元电影基因视频模型

创建和训练"电影基因视频 "模型涉及几个关键过程。第一步是收集和准备视觉数据,包括图像和视频剪辑,主要是经过质量、动作和相关性过滤的人类活动。然后将这些数据与解释每个场景中发生了什么的文字说明配对。使用Meta 的 LLaMa3-Video 模型生成的字幕提供了有关每个场景内容的丰富细节,增强了模型的视觉叙事能力。

图 3. 电影基因视频模型的预训练数据整理流程概览。

训练过程从模型学习将文本转换为低分辨率图像开始。然后,通过文本到图像和文本到视频的组合训练,使用质量越来越高的视觉效果创建完整的视频片段。 

一种名为 "时空自动编码器"(TAE)的工具对视频进行了压缩,以有效管理大量数据。微调进一步提高了视频质量,而一种称为模型平均的方法(它将多个模型输出结果结合在一起,使结果更平滑、更一致)则确保了输出结果的一致性。最后,使用空间上采样器技术将最初为 768p 的视频提升到清晰的 1080p 分辨率,该技术通过增加像素数据来提高图像分辨率,从而获得更清晰的视觉效果。最终,输出了高质量、细节丰富的视频。

探索元电影生成功能

元电影元模型主要支持四种不同的能力。让我们逐一详细了解一下。

视频和音频生成

Meta Movie Gen 可以生成高质量的视频。这些视频片段最长可达 16 秒,以 16 fps(每秒帧数)的速度运行,创建逼真的视觉效果,捕捉文本提示中的动作、互动和摄像机角度。配合 130 亿参数的音频模型,它可以生成与视觉效果相匹配的同步音频,包括环境音、Foley 效果和音乐。 

这种设置确保了无缝、逼真的体验,在不同的场景和提示中,视觉和音频都保持一致和逼真。例如,这些模型被用于制作泰国病毒猪河马(Moo Deng)的视频剪辑。

图 4.使用 Meta 的 Movie Gen 制作的 Moo Deng 视频片段的一帧。

个性化视频生成

Meta Movie Gen 模型的另一个有趣功能是个性化视频生成。用户可以提供人物的图像和文字提示,说明视频片段的生成方式,从而生成包含参考人物并包含文字提示中指定的丰富视觉细节的视频。该模型使用这两种输入(图像和文本)来保持人物独特的外貌和自然的肢体动作,同时准确地遵循提示中描述的场景。

图 5.该模型的个性化视频生成功能示例。

精确的视频编辑 

使用 "电影生成编辑 "模型,用户可以提供视频片段和文本提示作为输入,以创造性的方式编辑视频。该模型将视频生成与高级图像编辑相结合,可执行非常具体的编辑,如添加、删除或替换元素。它还可以执行全局更改,如修改视频剪辑的背景或整体风格。但该模型的真正独特之处在于其精确性:它可以只针对需要编辑的特定像素进行编辑,而对其他像素不做任何处理。这就尽可能地保留了原始内容。 

图 6.Movie Gen Edit 模型视频编辑功能的各种示例。

Meta Movie Gen 的基准工具

除了生成式人工智能模型,Meta 还推出了 Movie Gen Bench,这是一套用于测试生成式人工智能模型性能的基准测试工具。它包含两个主要工具:Movie Gen Video Bench 和 Movie Gen Audio Bench。这两个工具旨在测试视频和音频生成的不同方面。

下面是这两种工具的一瞥:

  • Movie Gen Video Bench:它由 1003 个提示组成,涵盖各种测试类别,如人类活动、动物自然风景物理以及非同寻常的主题和活动。该评估基准的特别之处在于它涵盖了各种运动级别,确保视频生成模型既能在快节奏序列中进行测试,也能在慢速序列中进行测试。
  • Movie Gen Audio Bench:它旨在测试 527 个提示的音频生成能力。这些提示与生成的视频配对,以评估模型将音效和音乐与视觉内容同步的能力。
图 7.该图显示了评价提示的分类,左边是概念列表,右边是常用名词和动词的词云。

元电影基因的实际应用

既然我们已经介绍了 Meta Movie Gen 模型是什么以及它们是如何工作的,让我们来探讨一下它们的实际应用。 

电影创作中的人工智能创新

Meta 的 Movie Gen 最令人兴奋的用途之一是如何通过人工智能驱动的视频和音频创作来改变电影制作。有了 Movie Gen,创作者可以根据简单的文字提示生成高质量的视觉效果和声音,从而开辟了讲述故事的新途径。 

事实上,Meta 与Blumhouse和一群电影制作人合作,收集他们对 Movie Gen 如何为创作过程提供最佳支持的反馈意见。Aneesh Chaganty、Spurlock 姐妹和 Casey Affleck 等电影制作人测试了该工具捕捉情绪、基调和视觉方向的能力。他们发现这些模型有助于激发新的创意。

这项试点计划表明,虽然 Movie Gen 不能取代传统的电影制作,但它为导演提供了一种新的方法,可以快速、创造性地尝试使用视觉和音频元素。电影制片人还对该工具的编辑功能表示赞赏,因为它能让他们更自由地使用背景声音、效果和视觉风格。 

图 8.使用 Meta Movie Gen 制作的短片的一个画面。

主要收获

Meta Movie Gen 是利用人工智能生成技术,通过简单的文字描述制作高质量视频和声音的一个进步。该工具可帮助用户轻松创建逼真的定制视频。凭借精确的视频编辑和个性化媒体生成等功能,Meta Movie Gen 提供了一个灵活的工具集,为讲故事、电影制作等开辟了新的可能性。Meta Movie Gen 使创建详细、有用的视觉效果变得更加容易,它正在改变不同领域的视频制作和使用方式,并为人工智能驱动的内容创建设定了新标准。

要了解更多信息,请访问我们的GitHub 存储库,并与我们的社区互动。在我们的解决方案页面探索人工智能在自动驾驶汽车农业领域的应用。🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅