グリーンチェック
クリップボードにコピーされたリンク

メタ・ムービー・ジェンコンテンツ制作の再構築

メタ・ムービー・ジェネレーションが映像と音作りをどのように再定義したかをご覧ください。このモデルがいかに精密なビデオ編集を提供し、パーソナライズされたメディア制作をサポートするかをご覧ください。

映像制作を志す人であれ、視聴者向けのビデオ制作を楽しむコンテンツ・クリエイターであれ、創造性を広げるAIツールがあれば、いつでも役に立つ。最近、Metaは MetaMovie Genとして知られる最新のジェネレーティブ・ビデオ・モデルを発表した。 

メディアとエンターテインメントにおける世界のジェネレーティブAI市場は、2033年までに115億7000万ドルに達すると予測されており、Runway、OpenAIMetaなどの企業が画期的なイノベーションをリードしている。特にMeta Movie Genは、映画制作、ビデオコンテンツ制作、デジタルストーリーテリングなどの用途に最適で、高品質なAI生成ビデオを通じて、クリエイティブなビジョンにこれまで以上に簡単に命を吹き込むことができる。この記事では、MetaMovie Genとその仕組みについてご紹介します。また、その応用例についても詳しく見ていきましょう。さっそく始めよう!

図1.Meta Movie Genを使用して生成されたビデオクリップのフレーム。

メタ・ムービー・ゲンとは?

メタ・ムービー・ゲンとは何かを語る前に、その成り立ちを見てみよう。 

メタ社のジェネレーティブAIに関する研究は、同社のMake-A-Sceneシリーズから始まった。この研究は、アーティストや空想家が想像力に命を吹き込むのを助けるマルチモーダル生成AI手法に焦点を当てている。アーティストは画像、音声、動画、3Dアニメーションを入力することで、思い通りの画像出力を得ることができる。次の飛躍的な技術革新は、ラマ・イメージ・ファンデーション・モデル(Emu)のような拡散モデルによってもたらされ、はるかに高品質な画像や動画の生成が可能になり、画像編集が可能になった。

図2.Make-A-Sceneのスケッチとテキスト入力を使って生成した画像の例。

Movie Genは、生成AI研究に対するメタの最新の貢献である。先に述べたすべてのモダリティを組み合わせ、人々がより創造的な方法でモデルを使用できるように、さらにきめ細かな制御を可能にする。Meta Movie Genは、テキストからビデオ、テキストからオーディオ、テキストから画像など、さまざまなタイプのメディアを生成するための基礎モデルのコレクションである。これは4つのモデルで構成され、ライセンスされたデータセットと一般に利用可能なデータセットの組み合わせで学習される。 

これらのモデルの概要は以下の通り:

  • Movie Gen 動画モデル:テキストプロンプトから高品質のビデオを生成する300億パラメータモデル。 
  • Movie Gen Audioモデル:映像コンテンツと同期したサウンドトラックを作成できる130億パラメータのモデル。 
  • パーソナライズド動画生成モデル:テキストプロンプトと1枚の画像に基づいて、特定の個人の動画を生成する。 
  • Movie Gen Editモデル: このモデルでは、実際の映像や架空の映像に対して、詳細なテキストベースの映像編集を行うことができる。 

メタ・ムービー・ジェネレーション・ビデオ・モデルのトレーニング

Movie Gen Videoモデルの作成とトレーニングには、いくつかの重要な工程があった。最初のステップでは、画像やビデオクリップを含むビジュアルデータの収集と準備が行われた。そのデータは、各シーンで何が起こっているかを説明するテキストキャプションと対にされた。MetaのLLaMa3-Videoモデルを使用して生成されたキャプションは、各シーンのコンテンツに関する豊富な詳細を提供し、モデルのビジュアル・ストーリーテリング機能を強化した。

図3. Movie Gen Videoモデルの事前学習データキュレーションパイプラインの概要。

学習プロセスは、モデルがテキストを低解像度の画像に変換する学習から始まった。その後、テキストを画像に変換する学習と、テキストを動画に変換する学習を組み合わせ、次第に高品質のビジュアルを使用して、完全なビデオクリップを作成するようになった。 

Temporal Autoencoder(TAE)と呼ばれるツールは、大量のデータを効率的に管理するために動画を圧縮した。微調整により、映像品質はさらにシャープになり、モデル平均化(複数のモデル出力を組み合わせて、より滑らかで一貫性のある結果を得る)と呼ばれる手法により、出力の一貫性が確保された。最終的に、最初は768pだった映像は、空間アップサンプラー技術を使ってシャープな1080p解像度にアップスケールされた。その結果、高品質で詳細な映像出力が実現した。

メタ・ムービー・ジェネレーションの能力を探る

メタ・ムービー・ゲンのモデルは、主に4つの異なる能力をサポートしている。それぞれを詳しく見てみよう。

ビデオとオーディオの生成

Meta Movie Genは高品質のビデオを生成することができます。これらのビデオクリップは最大16秒で、16fps(フレーム/秒)で動作し、テキストプロンプトから動き、インタラクション、カメラアングルをキャプチャしたリアルなビジュアルを作成します。130億パラメータのオーディオモデルと組み合わせることで、ビジュアルにマッチした環境音、フォーリーエフェクト、音楽などの同期オーディオを生成できます。 

このセットアップにより、さまざまなシーンやプロンプトにおいて、ビジュアルとオーディオの両方が一致し、リアルに保たれる、シームレスでリアルな体験が保証されます。例えば、これらのモデルは、タイで流行しているブタカバのビデオクリップを作成するために使用されました

図4.MetaのMovie Genを使って作成したムー・デンのビデオクリップの一コマ。

パーソナライズされたビデオ生成

Meta Movie Genモデルのもう一つの興味深い機能は、パーソナライズされたビデオ生成である。ユーザーは、人物の画像と、ビデオクリップをどのように生成すべきかを説明するテキストプロンプトを提供することができ、その結果、参照人物を含み、テキストプロンプトで指定された豊富な視覚的詳細を組み込んだビデオが生成される。モデルは両方の入力(画像とテキスト)を使用して、プロンプトに記述されたシーンに正確に従いながら、人物のユニークな外観と自然な体の動きを維持します。

図5.モデルのパーソナライズド・ビデオ生成機能の例。

正確なビデオ編集 

Movie Gen Editモデルを使用すると、ユーザーはビデオクリップとテキストプロンプトの両方を入力として提供し、創造的な方法でビデオを編集することができます。このモデルは、ビデオ生成と高度な画像編集を組み合わせ、要素の追加、削除、置換などの非常に特殊な編集を実行します。また、ビデオクリップの背景や全体的なスタイルの変更など、グローバルな変更も可能です。編集が必要な特定のピクセルのみを対象とし、それ以外の部分はそのままにしておくことができます。これにより、オリジナルのコンテンツが可能な限り維持されます。 

図6.Movie Gen Editモデルのビデオ編集機能の様々な例。

メタ・ムービー・ゲンのベンチマーク・ツール

Metaは生成AIモデルとともに、生成AIモデルのパフォーマンスをテストするためのベンチマークツール群「Movie Gen Bench」も発表した。これは2つの主要なツールで構成されている:Movie Gen Video BenchとMovie Gen Audio Benchだ。どちらもビデオとオーディオ生成の異なる側面をテストするように設計されている。

両ツールの一部を紹介しよう:

  • Movie Gen ビデオベンチ:これは、人間の活動、動物自然風景物理、さらに珍しい題材や活動など、さまざまなテストカテゴリをカバーする1003のプロンプトで構成されています。この評価ベンチマークが特に価値があるのは、動きのレベルをカバーしていることで、ビデオ生成モデルが速いテンポのシーケンスと遅いテンポのシーケンスの両方でテストされるようになっています。
  • Movie Gen オーディオベンチ:これは、527のプロンプトにわたってオーディオ生成能力をテストするように設計されています。これらのプロンプトは、生成されたビデオと組み合わされ、モデルが効果音や音楽をビジュアルコンテンツとどの程度同期させることができるかを評価します。
図7.この図は、評価プロンプトの内訳を示しており、左側にコンセプトのリスト、右側によく使われる名詞と動詞のワードクラウドが表示されている。

メタ・ムービー・ゲンの実用化

メタ・ムービー・ジェネレーションがどのようなモデルであり、どのように機能するのかを説明したところで、その実用的な応用例のひとつを探ってみよう。 

映画製作におけるAIイノベーション

MetaのMovie Genの最もエキサイティングな用途のひとつは、AIを活用したビデオとオーディオの作成を通じて映画制作をどのように変革できるかということだ。Movie Genを使えば、クリエイターはシンプルなテキストプロンプトから高品質のビジュアルとサウンドを生成することができ、ストーリーを伝える新しい方法を切り開くことができる。 

実際、MetaはBlumhouseと映画制作者グループと協力し、Movie Genがクリエイティブなプロセスをどのようにサポートできるかについて、彼らのフィードバックを集めた。アニーシュ・チャガンティ、スパーロック姉妹、ケイシー・アフレックといった映画製作者たちは、ムード、トーン、視覚的方向性を捉えるツールの能力をテストした。彼らは、モデルが斬新なアイデアを生み出すのに役立つことを発見しました。

このパイロットプログラムは、Movie Genが従来の映画制作に取って代わるものではないものの、映像や音声の要素を迅速かつ創造的に試す新しい方法を監督に提供することを示している。また、このツールの編集機能によって、背景音やエフェクト、ビジュアル・スタイルをより自由に遊ぶことができることも、映画制作者たちに高く評価されました。 

図8.Meta Movie Genを使って作成されたショートフィルムの1フレーム。

要点

Meta Movie Genは、ジェネレーティブAIを使用して、シンプルなテキスト記述から高品質のビデオやサウンドを作成する一歩進んだツールです。このツールは、ユーザーが簡単にリアルなカスタムビデオを作成するのに役立ちます。正確なビデオ編集やパーソナライズされたメディア生成のような機能により、Meta Movie Genは、ストーリーテリングや映画制作、そしてそれ以上の新たな可能性を切り開く柔軟なツールセットを提供します。Meta Movie Genは、詳細で有用なビジュアルの作成を容易にすることで、様々な分野での動画の作成方法と使用方法を変革し、AI主導のコンテンツ作成の新たな基準を打ち立てようとしている。

詳しくはGitHubリポジトリをご覧ください。自動運転車や 農業におけるAIアプリケーションについては、ソリューションページをご覧ください。🚀

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう