テキスト、画像、ビデオプロンプトから高品質の1080Pビデオを簡単に作成できる、Google DeepMindの最新のジェネレーティブ・ビデオ・モデル、Veoの詳細をご覧ください。
5月14日に行われたGoogle の2024 I/Oプレゼンテーションで、AI部門であるDeepMindの最新情報が発表された。共有された最もエキサイティングな進歩の1つは、最新のジェネレーティブ・ビデオ・モデル「Veo」だ。Veoは、テキスト、画像、ビデオプロンプトに基づいて高品質の1080Pビデオを作成することができる。さらに、生成された動画を編集することもできる。VeoはジェネレーティブAIを次のレベルに引き上げる。Veoが提供する機能を詳しく見てみよう。
Veoは、言語とビジュアルを深く理解することで、ユーザーのクリエイティブなビジョンに近い動画を作成するジェネレーティブ動画モデルです。長いプロンプトのトーンや詳細を正確に捉えることができるため、アイデアを正確な動画コンテンツに変換したいクリエイターにとって強力なツールとなります。
Veoは、"タイムラプス "や "風景の空撮 "といった撮影テクニックを理解できるため、ユーザーは、生成されるビデオに対して画期的なクリエイティブコントロールを行うことができる。このクリエイティブなコントロールにより、ユーザーは、人、動物、および物体が自然に動く動画を作成することができます。Veoによって生成された動画は、AIモデルによって生成されたことがわかりにくいため、魅力的で視覚的に魅力的です。
Veo は、単にプロンプトからビデオを作成するだけではありません。たとえば、海岸線の航空写真にカヤックを挿入するなど、以前に作成された動画と特定の編集要求を提供すると、Veo はこの変更を元の動画にシームレスに統合し、更新されたバージョンを作成できます。
以下は、Veoが提供するその他の機能です:
それでは、Veoが作成したビデオのいくつかと、それが息をのむような美しさである理由を紹介しよう。
短いテキストプロンプトからタイムラプスのビデオを生成するのは難しい。通常、短いテキストプロンプトでは、タイムラプスのシーン内の変化や動きを正確に伝えることはできません。そのため、Veoがタイムラプスの詳細を説明することなく、タイムラプスに期待することを理解できるのは驚くべきことです。
同様に、正確な物理学で動画を生成することも容易ではない。AIモデルは、動きや相互作用をリアルに見せるために、重力、運動量、衝突などの物理法則を理解し、シミュレーションする必要があります。Veoが、テキストプロンプトによる詳細なガイダンスなしに、これらのダイナミクスを正確にモデル化できることは印象的です。
これまでは、計算の限界と、長いシーケンスで一貫性を維持する複雑さのために、AIによって生成された短い動画しか見ることができなかった。Google'2024年のI/Oプレゼンテーションでは、より長く、より複雑なビデオを作成するVeoの驚異的な能力が示された。
他の多くのAIモデルと同様、Veoも巨人の肩の上に立っている。Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、Google'独自のTransformerアーキテクチャやGeminiなど、これまでの先進技術を活用している。さらに、プロンプトを正確に解釈するVeoの能力を向上させるため、トレーニングデータセットの各動画のキャプションをより詳細にしました。
Google によって共有された大まかなモデルのワークフローに基づいて、Veoがどのように機能するかを説明します:
Veoの能力を試すため、Google 、映画監督のドナルド・グローバーと彼のクリエイティブ・スタジオであるGilgaとチームを組んだ。彼らはVeoを使って、正確な動きと一貫したフレーミングを必要とするダイナミック・トラッキング・ショットなど、さまざまなクリエイティブ・テクニックを探求した。
従来、映画制作者は、時間とリソースの制約による限界に直面していました。Veoを使用することで、グローバーと彼のチームは、複雑なショットを素早く試し、生成することができるようになった。
Veoを使用することで、グローバーと彼のチームは、実際の撮影前に複雑なショットを素早く試し、生成することができた。例えば、様々なダイナミック・トラッキング・ショットを試し、どのように見えるかを確認し、必要に応じて調整を加えることができた。このプレビジュアライゼーション・プロセスは、アイデアを洗練させ、ショットが意図通りに機能することを確認するのに役立ち、最終的に実際の撮影に必要なテイク数を減らすことができた。彼らは、Veo が映画業界を変える可能性があることを示す説得力のあるケース スタディを作成することができました。Veoは、クリエイティブなビジョンを実現するための、より迅速で効率的な方法を提供します。
Veo の高度なビデオ生成機能は、さまざまな業界で実用的に使用されています。広告業界では、ターゲットとする視聴者向けにカスタマイズされた高品質のコマーシャルを迅速に作成できるため、時間と制作コストを節約できます。教育分野では、Veo は魅力的な教育ビデオを作成し、複雑な概念を理解しやすくします。
企業は、トレーニングや企業コミュニケーションに Veo を使用できます。医療従事者は、Veo をトレーニング目的の医療処置のシミュレーションに使用できます。バーチャル イベントや会議では、Veo を使用して、会場やステージの実物そっくりのシミュレーションを作成し、どこからでも参加者に魅力的でインタラクティブな体験を提供できます。オーガナイザーは、今後のイベントに向けて、より広い範囲と貴重な洞察力を得ることができます。Veo のおかげで、無数のチャンスが広がりました。
AIモデルがさまざまな業界に影響を与える可能性がある場合、安全性と倫理的なAIを念頭に置くことが重要です。より広範な採用を可能にし、責任ある使用を保証するため、Google 、いくつかの安全対策を実施している。Veoが作成した動画には、透かしを入れ、AIが生成したコンテンツを識別するためのツールであるSynthIDを使用して透かしが入れられている。SynthIdは透明性を確保し、プライバシー、著作権、偏見のリスクを軽減するのに役立つ。これ以外にも、生成された動画はすべて、安全フィルターおよび記憶チェックプロセスを通過します。これらの保護措置により、Veo は、責任ある革新的なビデオ制作をサポートする価値ある倫理的なツールとなっています。
今後数週間で、Google は、Veo の画期的な機能の一部を一部のクリエイターに提供し始めます。VideoFX は、ラボで利用可能な新しいツールです。google 。この取り組みにより、Veo の高度な動画生成機能にいち早くアクセスできるようになり、クリエイターはその革新的な機能を試す機会を得ることができます。現在、Veo のキャンセル待ちリストが公開されており、興味のあるクリエイターは登録して、Veo の強力なツールをプロジェクトで使用することができます。
Veo以外にも、ディープマインドは2024年に向けて、生成AIの最先端のアップデートをいくつか発表した。そのひとつがImagen 3で、これまでで最も先進的なテキストから画像への変換モデルだ。Imagen 3は、写実的で本物そっくりの画像を作成することに優れている。自然言語のプロンプトを深く理解し、視覚的なアーチファクトを最小限に抑えながら、複雑なディテールを捉えます。
ディープマインドはまた、AI音楽生成のための最先端モデルであるLyriaを開発した。この取り組みの一環として、ディープマインドは「Music AI Sandbox」と呼ばれる音楽AIツール群を作成した。これらのツールにより、ミュージシャンやプロデューサーは作曲や音響変換における新たな創造の可能性を探求することができる。
Veoと同様に、DeepMindは他のアップデートに関してもいくつかの安全対策を実施している。SynthIDは、AIが生成したコンテンツに透かしを入れ、識別するためのツールとして、これらのアップデートで使用される。ディープマインドが提供するこれらのアップデートは、高品質の映像・音声コンテンツを作成するための高度で効率的、かつ責任あるツールを提供することで、様々な業界を変革することを約束する。
Veo、Imagen 3、およびLyriaを含むDeepMindの2024年のジェネレーティブAIの進歩は、AI能力の大幅な飛躍を意味する。Veoは、シンプルなプロンプトから高品質の1080p動画を生成する能力で動画作成を一変させ、映画制作者やコンテンツ制作者にとって多用途のツールとなる。Imagen 3は写実的な画像の生成で輝きを放ち、Lyriaは高度なAIツールで音楽生成に新たな可能性をもたらしている。
これらの技術は、高品質の映像・音声コンテンツを作成するための効率的かつ責任あるツールを提供することで、様々な業界を変革することを約束する。倫理的な使用を保証するSynthIDのような安全対策により、DeepMindはAIの境界を広げ続け、将来の革新的なアプリケーションへの道を開く。
GitHubリポジトリにアクセスし、私たちのコミュニティに参加してAIに飛び込んでください。AIが製造業や 農業にどのように応用されているか、ソリューションのページをご覧ください。