メタ・ムービー・ジェネレーションが映像と音作りをどのように再定義したかをご覧ください。このモデルがいかに精密なビデオ編集を提供し、パーソナライズされたメディア制作をサポートするかをご覧ください。
映像制作を志す人であれ、視聴者向けのビデオ制作を楽しむコンテンツ・クリエイターであれ、創造性を広げるAIツールがあれば、いつでも役に立つ。最近、Metaは MetaMovie Genとして知られる最新のジェネレーティブ・ビデオ・モデルを発表した。
メディアとエンターテインメントにおける世界のジェネレーティブAI市場は、2033年までに115億7000万ドルに達すると予測されており、Runway、OpenAI、Metaなどの企業が画期的なイノベーションをリードしている。特にMeta Movie Genは、映画制作、ビデオコンテンツ制作、デジタルストーリーテリングなどの用途に最適で、高品質なAI生成ビデオを通じて、クリエイティブなビジョンにこれまで以上に簡単に命を吹き込むことができる。この記事では、MetaMovie Genとその仕組みについてご紹介します。また、その応用例についても詳しく見ていきましょう。さっそく始めよう!
メタ・ムービー・ゲンとは何かを語る前に、その成り立ちを見てみよう。
メタ社のジェネレーティブAIに関する研究は、同社のMake-A-Sceneシリーズから始まった。この研究は、アーティストや空想家が想像力に命を吹き込むのを助けるマルチモーダル生成AI手法に焦点を当てている。アーティストは画像、音声、動画、3Dアニメーションを入力することで、思い通りの画像出力を得ることができる。次の飛躍的な技術革新は、ラマ・イメージ・ファンデーション・モデル(Emu)のような拡散モデルによってもたらされ、はるかに高品質な画像や動画の生成が可能になり、画像編集が可能になった。
Movie Genは、生成AI研究に対するメタの最新の貢献である。先に述べたすべてのモダリティを組み合わせ、人々がより創造的な方法でモデルを使用できるように、さらにきめ細かな制御を可能にする。Meta Movie Genは、テキストからビデオ、テキストからオーディオ、テキストから画像など、さまざまなタイプのメディアを生成するための基礎モデルのコレクションである。これは4つのモデルで構成され、ライセンスされたデータセットと一般に利用可能なデータセットの組み合わせで学習される。
これらのモデルの概要は以下の通り:
Movie Gen Videoモデルの作成とトレーニングには、いくつかの重要な工程があった。最初のステップでは、画像やビデオクリップを含むビジュアルデータの収集と準備が行われた。そのデータは、各シーンで何が起こっているかを説明するテキストキャプションと対にされた。MetaのLLaMa3-Videoモデルを使用して生成されたキャプションは、各シーンのコンテンツに関する豊富な詳細を提供し、モデルのビジュアル・ストーリーテリング機能を強化した。
学習プロセスは、モデルがテキストを低解像度の画像に変換する学習から始まった。その後、テキストを画像に変換する学習と、テキストを動画に変換する学習を組み合わせ、次第に高品質のビジュアルを使用して、完全なビデオクリップを作成するようになった。
Temporal Autoencoder(TAE)と呼ばれるツールは、大量のデータを効率的に管理するために動画を圧縮した。微調整により、映像品質はさらにシャープになり、モデル平均化(複数のモデル出力を組み合わせて、より滑らかで一貫性のある結果を得る)と呼ばれる手法により、出力の一貫性が確保された。最終的に、最初は768pだった映像は、空間アップサンプラー技術を使ってシャープな1080p解像度にアップスケールされた。その結果、高品質で詳細な映像出力が実現した。
メタ・ムービー・ゲンのモデルは、主に4つの異なる能力をサポートしている。それぞれを詳しく見てみよう。
Meta Movie Genは高品質のビデオを生成することができます。これらのビデオクリップは最大16秒で、16fps(フレーム/秒)で動作し、テキストプロンプトから動き、インタラクション、カメラアングルをキャプチャしたリアルなビジュアルを作成します。130億パラメータのオーディオモデルと組み合わせることで、ビジュアルにマッチした環境音、フォーリーエフェクト、音楽などの同期オーディオを生成できます。
このセットアップにより、さまざまなシーンやプロンプトにおいて、ビジュアルとオーディオの両方が一致し、リアルに保たれる、シームレスでリアルな体験が保証されます。例えば、これらのモデルは、タイで流行しているブタカバのビデオクリップを作成するために使用されました。
Meta Movie Genモデルのもう一つの興味深い機能は、パーソナライズされたビデオ生成である。ユーザーは、人物の画像と、ビデオクリップをどのように生成すべきかを説明するテキストプロンプトを提供することができ、その結果、参照人物を含み、テキストプロンプトで指定された豊富な視覚的詳細を組み込んだビデオが生成される。モデルは両方の入力(画像とテキスト)を使用して、プロンプトに記述されたシーンに正確に従いながら、人物のユニークな外観と自然な体の動きを維持します。
Movie Gen Editモデルを使用すると、ユーザーはビデオクリップとテキストプロンプトの両方を入力として提供し、創造的な方法でビデオを編集することができます。このモデルは、ビデオ生成と高度な画像編集を組み合わせ、要素の追加、削除、置換などの非常に特殊な編集を実行します。また、ビデオクリップの背景や全体的なスタイルの変更など、グローバルな変更も可能です。編集が必要な特定のピクセルのみを対象とし、それ以外の部分はそのままにしておくことができます。これにより、オリジナルのコンテンツが可能な限り維持されます。
Metaは生成AIモデルとともに、生成AIモデルのパフォーマンスをテストするためのベンチマークツール群「Movie Gen Bench」も発表した。これは2つの主要なツールで構成されている:Movie Gen Video BenchとMovie Gen Audio Benchだ。どちらもビデオとオーディオ生成の異なる側面をテストするように設計されている。
両ツールの一部を紹介しよう:
メタ・ムービー・ジェネレーションがどのようなモデルであり、どのように機能するのかを説明したところで、その実用的な応用例のひとつを探ってみよう。
MetaのMovie Genの最もエキサイティングな用途のひとつは、AIを活用したビデオとオーディオの作成を通じて、映画制作をどのように変革できるかということだ。Movie Genを使えば、クリエイターはシンプルなテキストプロンプトから高品質のビジュアルとサウンドを生成することができ、ストーリーを伝える新しい方法を切り開くことができる。
実際、MetaはBlumhouseと映画制作者グループと協力し、Movie Genがクリエイティブなプロセスをどのようにサポートできるかについて、彼らのフィードバックを集めた。アニーシュ・チャガンティ、スパーロック姉妹、ケイシー・アフレックといった映画製作者たちは、ムード、トーン、視覚的方向性を捉えるツールの能力をテストした。彼らは、モデルが斬新なアイデアを生み出すのに役立つことを発見しました。
このパイロットプログラムは、Movie Genが従来の映画制作に取って代わるものではないものの、映像や音声の要素を迅速かつ創造的に試す新しい方法を監督に提供することを示している。また、このツールの編集機能によって、背景音やエフェクト、ビジュアル・スタイルをより自由に遊ぶことができることも、映画制作者たちに高く評価されました。
Meta Movie Genは、ジェネレーティブAIを使用して、シンプルなテキスト記述から高品質のビデオやサウンドを作成する一歩進んだツールです。このツールは、ユーザーが簡単にリアルなカスタムビデオを作成するのに役立ちます。正確なビデオ編集やパーソナライズされたメディア生成のような機能により、Meta Movie Genは、ストーリーテリングや映画制作、そしてそれ以上の新たな可能性を切り開く柔軟なツールセットを提供します。Meta Movie Genは、詳細で有用なビジュアルの作成を容易にすることで、様々な分野での動画の作成方法と使用方法を変革し、AI主導のコンテンツ作成の新たな基準を打ち立てようとしている。
詳しくはGitHubリポジトリをご覧ください。自動運転車や 農業におけるAIアプリケーションについては、ソリューションページをご覧ください。🚀