メタ・ムービー・ゲンコンテンツ制作の再構築

メタ・ムービー・ジェネレーションが映像と音作りをどのように再定義したかをご覧ください。このモデルがいかに精密なビデオ編集を提供し、パーソナライズされたメディア制作をサポートするかをご覧ください。

執筆者

アビラミ・ヴィナ

min read

2024年11月15日

2025年4月13日

Meta Movie Genビデオモデルのトレーニング

映画製作におけるAIイノベーション

映像制作を志す人であれ、視聴者向けのビデオ制作を楽しむコンテンツ・クリエイターであれ、創造性を広げるAIツールがあれば、いつでも役に立つ。最近、Metaは MetaMovie Genとして知られる最新のジェネレーティブ・ビデオ・モデルを発表した。

メディアとエンターテインメントにおける世界のジェネレーティブAI市場は、2033年までに115億7000万ドルに達すると予測されており、Runway、OpenAI、Metaなどの企業が画期的なイノベーションをリードしている。特にMeta Movie Genは、映画制作、ビデオコンテンツ制作、デジタルストーリーテリングなどの用途に最適で、高品質なAI生成ビデオを通じて、クリエイティブなビジョンにこれまで以上に簡単に命を吹き込むことができる。この記事では、MetaMovie Genとその仕組みについてご紹介します。また、その応用例についても詳しく見ていきましょう。さっそく始めよう！

__wf_reserved_inherit — 図1.Meta Movie Genを使用して生成されたビデオクリップのフレーム。

‍

メタ・ムービー・ゲンとは？

メタ・ムービー・ゲンとは何かを語る前に、その成り立ちを見てみよう。

メタ社のジェネレーティブAIに関する研究は、同社のMake-A-Sceneシリーズから始まった。この研究は、アーティストや空想家が想像力に命を吹き込むのを助けるマルチモーダル生成AI手法に焦点を当てている。アーティストは画像、音声、動画、3Dアニメーションを入力することで、思い通りの画像出力を得ることができる。次の飛躍的な技術革新は、ラマ・イメージ・ファンデーション・モデル（Emu）のような拡散モデルによってもたらされ、はるかに高品質な画像や動画の生成が可能になり、画像編集が可能になった。

‍

Movie Genは、生成AI研究に対するメタの最新の貢献である。先に述べたすべてのモダリティを組み合わせ、人々がより創造的な方法でモデルを使用できるように、さらにきめ細かな制御を可能にする。Meta Movie Genは、テキストからビデオ、テキストからオーディオ、テキストから画像など、さまざまなタイプのメディアを生成するための基礎モデルのコレクションである。これは4つのモデルで構成され、ライセンスされたデータセットと一般に利用可能なデータセットの組み合わせで学習される。

これらのモデルの概要は以下の通り：

Movie Gen 動画モデル：テキストプロンプトから高品質の動画を生成する300億パラメータモデル。
‍
Movie Gen Audioモデル：映像コンテンツと同期したサウンドトラックを作成できる130億パラメータモデル。
‍
パーソナライズド動画生成モデル：テキストプロンプトと1枚の画像に基づき、特定の人物の似顔絵を保持した動画を生成。
‍
Movie Gen Editモデル： このモデルでは、実際の映像や架空の映像に対して、詳細なテキストベースの映像編集を行うことができる。

Meta Movie Genビデオモデルのトレーニング

Movie Gen Videoモデルの作成とトレーニングには、いくつかの重要な工程があった。最初のステップでは、画像やビデオクリップを含むビジュアルデータの収集と準備が行われた。そのデータは、各シーンで何が起こっているかを説明するテキストキャプションと対にされた。MetaのLLaMa3-Videoモデルを使用して生成されたキャプションは、各シーンのコンテンツに関する豊富な詳細を提供し、モデルのビジュアル・ストーリーテリング機能を強化した。

‍

学習プロセスは、モデルがテキストを低解像度の画像に変換する学習から始まった。その後、テキストを画像に変換する学習と、テキストを動画に変換する学習を組み合わせ、次第に高品質のビジュアルを使用して、完全なビデオクリップを作成するようになった。

Temporal Autoencoder（TAE）と呼ばれるツールは、大量のデータを効率的に管理するために動画を圧縮した。微調整により、映像品質はさらにシャープになり、モデル平均化（複数のモデル出力を組み合わせて、より滑らかで一貫性のある結果を得る）と呼ばれる手法により、出力の一貫性が確保された。最終的に、最初は768pだった映像は、空間アップサンプラー技術を使ってシャープな1080p解像度にアップスケールされた。その結果、高品質で詳細な映像出力が実現した。

メタ・ムービー・ジェネの機能を探る

メタ・ムービー・ゲンのモデルは、主に4つの異なる能力をサポートしている。それぞれを詳しく見てみよう。

ビデオとオーディオの生成

Meta Movie Genは高品質のビデオを生成することができます。これらのビデオクリップは最大16秒で、16fps（フレーム/秒）で動作し、テキストプロンプトから動き、インタラクション、カメラアングルをキャプチャしたリアルなビジュアルを作成します。130億パラメータのオーディオモデルと組み合わせることで、ビジュアルにマッチした環境音、フォーリーエフェクト、音楽などの同期オーディオを生成できます。

このセットアップにより、さまざまなシーンやプロンプトにおいて、ビジュアルとオーディオの両方が一致し、リアルに保たれる、シームレスでリアルな体験が保証されます。例えば、これらのモデルは、タイで流行しているブタカバのビデオクリップを作成するために使用されました。

‍

パーソナライズされたビデオ生成

Meta Movie Genモデルのもう一つの興味深い機能は、パーソナライズされたビデオ生成である。ユーザーは、人物の画像と、ビデオクリップをどのように生成すべきかを説明するテキストプロンプトを提供することができ、その結果、参照人物を含み、テキストプロンプトで指定された豊富な視覚的詳細を組み込んだビデオが生成される。モデルは両方の入力（画像とテキスト）を使用して、プロンプトに記述されたシーンに正確に従いながら、人物のユニークな外観と自然な体の動きを維持します。

‍

精密なビデオ編集

Movie Gen Editモデルを使用すると、ユーザーはビデオクリップとテキストプロンプトの両方を入力として提供し、創造的な方法でビデオを編集することができます。このモデルは、ビデオ生成と高度な画像編集を組み合わせ、要素の追加、削除、置換などの非常に特殊な編集を実行します。また、ビデオクリップの背景や全体的なスタイルの変更など、グローバルな変更も可能です。編集が必要な特定のピクセルのみを対象とし、それ以外の部分はそのままにしておくことができます。これにより、オリジナルのコンテンツが可能な限り維持されます。

‍

メタ・ムービー・ゲンのベンチマーク・ツール

Metaは生成AIモデルとともに、生成AIモデルのパフォーマンスをテストするためのベンチマークツール群「Movie Gen Bench」も発表した。これは2つの主要なツールで構成されている：Movie Gen Video BenchとMovie Gen Audio Benchだ。どちらもビデオとオーディオ生成の異なる側面をテストするように設計されている。

両ツールの一部を紹介しよう：

Movie Gen ビデオベンチ：これは、人間の活動、動物、自然の風景、物理、さらに珍しい題材や活動など、幅広いテストカテゴリをカバーする1003のプロンプトで構成されています。
‍ この評価ベンチマークが特に価値があるのは、動きのレベルをカバーしていることである。
Movie Gen オーディオベンチ：これは、527のプロンプトにわたってオーディオ生成能力をテストするように設計されています。これらのプロンプトは、生成されたビデオと組み合わされ、モデルが効果音や音楽をビジュアルコンテンツとどの程度同期させることができるかを評価します。

‍

メタ・ムービー・ゲンの実用化

メタ・ムービー・ジェネレーションがどのようなモデルであり、どのように機能するのかを説明したところで、その実用的な応用例のひとつを探ってみよう。

映画製作におけるAIイノベーション

MetaのMovie Genの最もエキサイティングな用途のひとつは、AIを活用したビデオとオーディオの作成を通じて、映画制作をどのように変革できるかということだ。Movie Genを使えば、クリエイターはシンプルなテキストプロンプトから高品質のビジュアルとサウンドを生成することができ、ストーリーを伝える新しい方法を切り開くことができる。

実際、MetaはBlumhouseと映画制作者グループと協力し、Movie Genがクリエイティブなプロセスをどのようにサポートできるかについて、彼らのフィードバックを集めた。アニーシュ・チャガンティ、スパーロック姉妹、ケイシー・アフレックといった映画製作者たちは、ムード、トーン、視覚的方向性を捉えるツールの能力をテストした。彼らは、モデルが斬新なアイデアを生み出すのに役立つことを発見しました。

このパイロットプログラムは、Movie Genが従来の映画制作に取って代わるものではないものの、映像や音声の要素を迅速かつ創造的に試す新しい方法を監督に提供することを示している。また、このツールの編集機能によって、背景音やエフェクト、ビジュアル・スタイルをより自由に遊ぶことができることも、映画制作者たちに高く評価されました。

‍

要点

Meta Movie Genは、ジェネレーティブAIを使用して、シンプルなテキスト記述から高品質のビデオやサウンドを作成する一歩進んだツールです。このツールは、ユーザーが簡単にリアルなカスタムビデオを作成するのに役立ちます。正確なビデオ編集やパーソナライズされたメディア生成のような機能により、Meta Movie Genは、ストーリーテリングや映画制作、そしてそれ以上の新たな可能性を切り開く柔軟なツールセットを提供します。Meta Movie Genは、詳細で有用なビジュアルの作成を容易にすることで、様々な分野での動画の作成方法と使用方法を変革し、AI主導のコンテンツ作成の新たな基準を打ち立てようとしている。

詳しくはGitHubリポジトリをご覧ください。自動運転車や農業におけるAIアプリケーションについては、ソリューションページをご覧ください。🚀

メタ・ムービー・ゲンコンテンツ制作の再構築

メタ・ムービー・ゲンとは？

Meta Movie Genビデオモデルのトレーニング