用語集

ジェネレーティブAI

ジェネレーティブAIがどのようにテキスト、画像、音声などのオリジナルコンテンツを作成し、革新的なアプリケーションで業界を変革しているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ジェネレーティブ・アーティフィシャル・インテリジェンス(AI)は、幅広い人工知能(AI)分野の中でも重要な位置を占めており、特に、まったく新しいオリジナルのコンテンツを生成できるシステムの構築に焦点を当てている。このコンテンツは、テキスト、画像、音声、コード、さらには合成データなど、さまざまなモダリティにまたがる。オブジェクト検出を使用して画像内のオブジェクトを識別するように)入力データに基づいて分類または予測を行うように訓練された識別AIモデルとは異なり、生成モデルは、訓練データセット内の基本的なパターン、構造、および確率分布を学習する。そして、この学習した知識を使用して、元のデータの特性を模倣した新しい出力を生成する。特にGPT(Generative Pre-trained Transformers)や拡散モデルのようなアーキテクチャに後押しされた最近のブレークスルーは、機械の創造性の限界を押し広げ、驚くほどリアルで複雑なコンテンツの作成を可能にしている。

生成AIの仕組み

ほとんどの生成モデルの核となる考え方は、データの分布表現を学習することである。一旦この分布が学習されると、モデルはそこからサンプリングして、学習されたデータと統計的に類似した新しいデータ点を生成することができる。これには複雑なニューラルネットワーク(NN)アーキテクチャーと高度な学習技術が必要である。著名なアーキテクチャには次のようなものがある:

ジェネレーティブAIとコンピュータ・ビジョンの比較

どちらもAIの一分野ではあるが、ジェネレーティブAIとコンピュータビジョン(CV)は根本的に目的が異なる。CVは、機械が世界からの視覚情報を解釈理解できるようにすることに重点を置き、画像分類、物体検出、インスタンス分割などのタスクを実行する。逆に、ジェネレーティブAIは、新しい視覚的(またはその他の)コンテンツを作成することに重点を置いている。

YOLO ビジョン2024でのような議論の中で浮き彫りになった主な違いは以下の通り:

  1. モデルのサイズ:生成モデル、特にLLMや大規模な画像モデルは、数十億から数兆のパラメータを含むことが多い。リアルタイム分析用に設計されたCVモデル、例えば Ultralytics YOLO11のようなリアルタイム分析用に設計されたCVモデルは、一般的にはるかに小さく、より効率的で、数百万のパラメータしか持たないものもあります(YOLO モデルの比較)。
  2. 計算リソース:大規模な生成モデルのトレーニングや実行には、多くの場合GPUの分散クラスターを含む、かなりの計算能力が必要です。Ultralyticsモデルを含む多くのCVモデルは、効率のために最適化されており、以下のようなフレームワークを使用して、標準的なハードウェアまたは特殊なエッジデバイス上に展開することができます。 ONNXまたは TensorRT.
  3. ゴール:CVは既存のデータを分析し、ジェネレーティブAIは新しいデータを合成する。

このような違いはあるものの、両分野の相互関係はますます深まっている。ジェネレーティブAIは、高品質の合成データを生成することで、CVに有用であることを証明している。この合成データは実世界のデータセットを補強することができ、特に自律走行シミュレーションや稀な病状の画像化(ヘルスケアにおけるAI)など、実データが乏しかったり入手が困難だったりするシナリオにおいて、より頑健で正確なCVモデルの訓練に役立つ。

実世界での応用

ジェネレーティブAIは多くの産業に変革をもたらしつつある:

  • コンテンツ制作:記事、マーケティングコピー、スクリプトの自動生成(GPT-3)、ユニークな画像やアートワークの作成(MidjourneyDALL-E 3)、作曲、ビデオコンテンツの生成(OpenAI Sora)
  • 合成データ生成: ロボット工学、金融(金融におけるコンピュータ・ビジョン・モデル)、ヘルスケアなどの分野で、MLモデルを訓練するための現実的なデータセットを作成し、モデルの性能を向上させ、データ・プライバシーの問題に対処する。例えば、実際の患者データを使用することなく、診断ツールを訓練するための合成医療画像を生成する。
  • 創薬と材料科学: Google DeepMindのような組織が実証しているように、新しい分子構造を設計し、その特性を予測し、研究開発を加速する。
  • パーソナライゼーション: チャットボット、バーチャルアシスタント、レコメンデーションエンジンにおけるダイナミックなコンテンツ生成を通じて、高度にカスタマイズされたユーザー体験を提供します。
  • ソフトウェア開発:コードスニペットの生成、バグ修正の提案、さらには自然言語による記述に基づいて関数全体を作成することで、開発者を支援する(GitHub Copilot)。

課題と倫理的配慮

ジェネレーティブAIの急速な進歩は、課題ももたらしている。特にディープフェイク、誤情報、知的財産権、学習データから学んだ固有のバイアスに関しては、こうした強力なツールの倫理的な使用を保証することが最も重要である。これらに対処するには、慎重なモデル開発、ロバストな検出方法、AI倫理の原則に概説された明確なガイドラインが必要となる。さらに、膨大な計算リソースが必要となるため、環境やアクセシビリティへの懸念も生じる。Ultralytics HUBのようなプラットフォームは、ワークフローを合理化し、特定のAIタスクの参入障壁を下げる可能性があることを目指している。

すべて読む