X
Ultralytics YOLOv8.2 リリースUltralytics YOLOv8.2 リリースUltralytics YOLOv8.2 リリース・アロー
グリーンチェック
クリップボードにコピーされたリンク

Google DeepMindのVeoで動画を生成する

テキスト、画像、動画のプロンプトから高品質の1080P動画を簡単に作成できるGoogle DeepMindの最新のジェネレーティブ動画モデル、Veoの詳細をご覧ください。

5月14日に行われたグーグルの2024年I/Oプレゼンテーションで、AI部門であるDeepMindの最新情報が発表された。最もエキサイティングな進歩のひとつは、最新のジェネレーティブ・ビデオ・モデル「Veo」だ。Veoは、テキスト、画像、ビデオプロンプトに基づいて高品質の1080Pビデオを作成することができる。さらに、生成された動画を編集することもできる。VeoはジェネレーティブAIを次のレベルに引き上げる。Veoが提供する機能を詳しく見てみよう。 

Veoの能力を理解する

Veoは、言語とビジュアルを深く理解することで、ユーザーのクリエイティブなビジョンに近い動画を作成するジェネレーティブ動画モデルです。長いプロンプトのトーンや詳細を正確に捉えることができるため、アイデアを正確な動画コンテンツに変換したいクリエイターにとって強力なツールとなります。

Veoは、"タイムラプス "や "風景の空撮 "といった撮影テクニックを理解できるため、ユーザーは、生成されるビデオに対して画期的なクリエイティブコントロールを行うことができる。このクリエイティブなコントロールにより、ユーザーは、人、動物、および物体が自然に動く動画を作成することができます。Veoによって生成された動画は、AIモデルによって生成されたことがわかりにくいため、魅力的で視覚的に魅力的です。

Veo は、単にプロンプトからビデオを作成するだけではありません。たとえば、海岸線の航空写真にカヤックを挿入するなど、以前に作成された動画と特定の編集要求を提供すると、Veo はこの変更を元の動画にシームレスに統合し、更新されたバージョンを作成できます。

図1.Veoを使用したビデオ編集の例。

以下は、Veoが提供するその他の機能です:

  • マスク編集:Veoは、ビデオの定義された領域を編集するのに役立ちます。
  • 画像にインスパイアされたビデオ作成:画像とテキスト プロンプトを使用して、Veo は画像のスタイルを反映し、プロンプトの指示に従ったビデオを生成できます。
  • 拡張ビデオ クリップ:Veo は、1 つのプロンプトまたは一連のプロンプトから、ストーリーを伝えるビデオ クリップを作成し、60 秒以上に延長できます。

Veoが作成した息をのむようなビデオ

それでは、Veoが作成したビデオのいくつかと、それが息をのむような美しさである理由を紹介しよう。 

短いテキストプロンプトからタイムラプスのビデオを生成するのは難しい。通常、短いテキストプロンプトでは、タイムラプスのシーン内の変化や動きを正確に伝えることはできません。そのため、Veoがタイムラプスの詳細を説明することなく、タイムラプスに期待することを理解できるのは驚くべきことです。 

図2.Veoが作成したタイムラプスビデオの1フレーム。

同様に、正確な物理学で動画を生成することも容易ではない。AIモデルは、動きや相互作用をリアルに見せるために、重力、運動量、衝突などの物理法則を理解し、シミュレーションする必要があります。Veoが、テキストプロンプトによる詳細なガイダンスなしに、これらのダイナミクスを正確にモデル化できることは印象的です。

図3.Veoを使用して生成されたビデオのフレームは、クラゲの動きの物理を正確に捉えている。

これまでは、計算の限界と、より長いシーケンスで一貫性を維持することの複雑さから、AIによって生成される短い動画しか見ることができなかった。グーグルの2024年I/Oプレゼンテーションでは、より長く複雑な動画を作成するVeoの驚異的な能力が示された。

図4.Google 2024 I/Oのプレゼンテーションで上映された長いVeoビデオのフレーム。

Veoの仕組み

他の多くのAIモデルと同様、Veoは巨人の肩の上に立っている。Generative Query Network(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、さらにGoogle独自のTransformerアーキテクチャやGeminiなど、これまでの先進的な技術を活用している。さらに、プロンプトを正確に解釈するVeoの能力を向上させるため、トレーニングデータセットの各動画のキャプションはより詳細になりました。 

グーグルによって共有された大まかなモデルのワークフローに基づくと、Veoの仕組みは以下のようになる:

  • 入力プロンプト:テキストプロンプトと、オプションで画像プロンプトを提供する。
  • エンコード:テキストプロンプトはUL2エンコーダーで処理され、画像プロンプトは画像エンコーダーで処理される。
  • 埋め込みプロンプト:テキストエンコーダーとイメージエンコーダーからの出力が組み合わされ、1つのエンベデッドプロンプトになります。
  • 潜在拡散モデル:埋め込まれたプロンプトとノイズの多い圧縮ビデオがこのモデルに渡され、それらを使用して圧縮ビデオが生成されます。Veo は、潜在と呼ばれる高品質の圧縮ビデオ表現を使用して、品質を維持しながら効率を向上させます。
  • デコード:最後のステップは、圧縮されたビデオから1080pビデオ出力をデコードする。
図5.Veoの仕組み。

映画製作における説得力のあるケーススタディ

Veoの能力を試すため、グーグルは映画監督のドナルド・グローバーと彼のクリエイティブ・スタジオ、ギルガとチームを組んだ。彼らはVeoを使って、正確な動きと一貫したフレーミングを必要とするダイナミック・トラッキング・ショットなど、さまざまなクリエイティブ・テクニックを探求した。 

図6.映画制作プロセスにおけるVeoの使用。

従来、映画制作者は、時間とリソースの制約による限界に直面していました。Veoを使用することで、グローバーと彼のチームは、複雑なショットを素早く試し、生成することができるようになった。

Veoを使用することで、グローバーと彼のチームは、実際の撮影前に複雑なショットを素早く試し、生成することができた。例えば、様々なダイナミック・トラッキング・ショットを試し、どのように見えるかを確認し、必要に応じて調整を加えることができた。このプレビジュアライゼーション・プロセスは、アイデアを洗練させ、ショットが意図通りに機能することを確認するのに役立ち、最終的に実際の撮影に必要なテイク数を減らすことができた。彼らは、Veo が映画業界を変える可能性があることを示す説得力のあるケース スタディを作成することができました。Veoは、クリエイティブなビジョンを実現するための、より迅速で効率的な方法を提供します。

様々な産業におけるVeoの実用的な使用法 

Veo の高度なビデオ生成機能は、さまざまな業界で実用的に使用されています。広告業界では、ターゲットとする視聴者向けにカスタマイズされた高品質のコマーシャルを迅速に作成できるため、時間と制作コストを節約できます。教育分野では、Veo は魅力的な教育ビデオを作成し、複雑な概念を理解しやすくします。 

企業は、トレーニングや企業コミュニケーションに Veo を使用できます。医療従事者は、Veo をトレーニング目的の医療処置のシミュレーションに使用できます。バーチャル イベントや会議では、Veo を使用して、会場やステージの実物そっくりのシミュレーションを作成し、どこからでも参加者に魅力的でインタラクティブな体験を提供できます。オーガナイザーは、今後のイベントに向けて、より広い範囲と貴重な洞察力を得ることができます。Veo のおかげで、無数のチャンスが広がりました。

AIモデルがさまざまな業界に影響を与える可能性がある場合、安全性と倫理的なAIを念頭に置くことが重要だ。より広範な採用を可能にし、責任ある使用を保証するために、グーグルはいくつかの安全対策を実施している。Veoによって作成された動画には、透かしを入れ、AIが生成したコンテンツを識別するためのツールであるSynthIDを使用して透かしが入れられている。SynthIdは透明性を確保し、プライバシー、著作権、偏見のリスクを軽減するのに役立つ。これ以外にも、生成された動画はすべて、安全フィルターおよび記憶チェックプロセスを通過します。これらの保護措置により、Veo は、責任ある革新的なビデオ制作をサポートする価値ある倫理的なツールとなっています。

Veoへのアクセス

今後数週間で、Google は、Veo の画期的な機能の一部を、labs.google で利用可能な新しいツールである VideoFX を通じて、一部のクリエイターに提供し始めます。この取り組みにより、Veo の高度な動画生成機能にいち早くアクセスできるようになり、クリエイターはその革新的な機能を試す機会を得ることができます。現在、Veo のキャンセル待ちリストが公開されており、興味のあるクリエイターに登録してもらい、プロジェクトで Veo の強力なツールを使用してもらうことができます。

ディープマインドの2024年生成AIアップデートの詳細

Veo以外にも、ディープマインドは2024年に向けて、生成AIの最先端のアップデートをいくつか発表した。そのひとつがImagen 3で、これまでで最も先進的なテキストから画像への変換モデルだ。Imagen 3は、写実的で本物そっくりの画像を作成することに優れている。自然言語のプロンプトを深く理解し、視覚的なアーチファクトを最小限に抑えながら、複雑なディテールを捉えます。

図7.Imagen 3を使用して生成された画像。

ディープマインドはまた、AI音楽生成のための最先端モデルであるLyriaを開発した。この取り組みの一環として、ディープマインドは「Music AI Sandbox」と呼ばれる音楽AIツール群を作成した。これらのツールにより、ミュージシャンやプロデューサーは作曲や音響変換における新たな創造の可能性を探求することができる。

図8.DeepMindのAI音楽ツールのUI例。

Veoと同様に、DeepMindは他のアップデートに関してもいくつかの安全対策を実施している。SynthIDは、AIが生成したコンテンツに透かしを入れ、識別するためのツールとして、これらのアップデートで使用される。ディープマインドが提供するこれらのアップデートは、高品質の映像・音声コンテンツを作成するための高度で効率的、かつ責任あるツールを提供することで、様々な業界を変革することを約束する。

ジェネレーティブAIの次の段階をナビゲートする

Veo、Imagen 3、およびLyriaを含むDeepMindの2024年のジェネレーティブAIの進歩は、AI能力の大幅な飛躍を意味する。Veoは、シンプルなプロンプトから高品質の1080p動画を生成する能力で動画作成を一変させ、映画制作者やコンテンツ制作者にとって多用途のツールとなる。Imagen 3は写実的な画像の生成で輝きを放ち、Lyriaは高度なAIツールで音楽生成に新たな可能性をもたらしている。

これらの技術は、高品質の映像・音声コンテンツを作成するための効率的かつ責任あるツールを提供することで、様々な業界を変革することを約束する。倫理的な使用を保証するSynthIDのような安全対策により、DeepMindはAIの境界を広げ続け、将来の革新的なアプリケーションへの道を開く。

GitHubリポジトリにアクセスし、私たちのコミュニティに参加してAIに飛び込んでください。AIが製造業や 農業にどのように応用されているか、ソリューションのページをご覧ください。

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう