用語集

生成逆数ネットワーク(GAN)

リアルな画像を生成し、データを強化し、ヘルスケアやゲームなどのイノベーションを推進することで、GANがどのようにAIに革命をもたらすかをご覧ください。

Generative Adversarial Network(GAN)は、実データの所与の分布を模倣した新しい合成データを作成することに秀でた、生成AIモデルの強力なクラスである。2014年にイアン・グッドフェロー(Ian Goodfellow)氏らによって初めて紹介されたGANは、ジェネレーター(Generator)とディスリミネーター(Discriminator)という2つの競合するニューラルネットワーク間の巧妙な敵対プロセスを採用している。この競争力学により、GANは画像やテキストから音楽や3Dモデルまで、非常に現実的な出力を生成することができ、現代のディープラーニングの基礎となっている。

GANの仕組み

GANの核となる考え方は、ゼロサムゲームで2つのモデルを同時に訓練することである。

  1. ジェネレーター:このネットワークの仕事は偽のデータを作成することである。ランダムなノイズを入力とし、元のトレーニングデータから得られたようなサンプルに変換しようとする。例えば、人間の顔のリアルな画像を生成しようとするかもしれない。
  2. 差別者:このネットワークは評論家または探偵として機能する。このネットワークの目的は、(トレーニングセットからの)本物のデータと、ジェネレーターによって生成された偽のデータを区別することである。Discriminatorは、入力サンプルが本物である可能性がどれだけ高いかを示す確率を出力する。

学習中、ジェネレーターは継続的に識別器を欺く能力を向上させようとし、一方識別器は偽物を見分ける能力を向上させようとする。バックプロパゲーションによって駆動されるこの敵対的なプロセスは、ジェネレーターが、もはや本物のデータと見分けがつかないほど説得力のあるサンプルを生成し、ナッシュ均衡として知られる状態になるまで続く。

実世界での応用

GANは、様々な産業において革新的なアプリケーションの数々を可能にしてきた。

  • 合成データの生成:GANの最も重要な用途の1つは、実際のデータセットを補強するための高品質な人工データの作成である。例えば、自律走行車の開発において、GANは現実世界では撮影が困難な稀で危険なシナリオを含むリアルな道路シーンを生成することができる。これにより、実世界で大規模なデータ収集を行うことなく、Ultralytics YOLO11のような物体検出モデルのロバスト性を向上させることができます。
  • 画像と芸術の生成:GANは、斬新で写実的な画像を生成する能力で有名だ。NVIDIAのStyleGANのようなプロジェクトは、実在しない人物の顔を驚くほど詳細に生成することができる。この技術は、アーティストがユニークな作品を創作することを可能にするアートや、新しい服のスタイルをデザインするファッションの分野でも使用されています。
  • 画像間の翻訳:GANは、異なる領域の画像間のマッピングを学習することができる。例えば、衛星画像を地図に変換したり、スケッチを写実的な画像に変換したり、昼間の写真を夜景に変換したりするようにモデルを学習させることができる。
  • 顔の老化と編集:GANを使ったアプリケーションでは、人の顔が時間とともにどのように老けていくかをリアルに予測したり、髪の色を変えたり、笑顔を加えたり、表情を変えたりといった編集を行うことができる。

GANと他の生成モデルとの比較

GANは、より広範な生成モデルファミリーの一部であるが、明確な特徴を持っている。

  • 拡散モデル Stable Diffusionの背後にあるような拡散モデルは、通常、より安定した学習を提供し、GANよりも高品質で多様なサンプルを生成することができる。しかし、これはしばしば推論のレイテンシーが遅くなるという代償を伴います。
  • オートエンコーダ変分オートエンコーダ(VAE)も生成モデルの一種である。GANとVAEはどちらもデータを生成するが、GANはよりシャープでリアルな出力を生成することで知られているのに対し、VAEは構造化された解釈可能な潜在空間を生成することに優れていることが多い。

課題と前進

GANのトレーニングは、いくつかの課題があるため、難しいことで知られている:

  • モードの崩壊:これは、ジェネレーターが識別器を欺くのに非常に効果的ないくつかの出力を見つけ、それらの限られたバリエーションのみを生成し、訓練データの完全な多様性をキャプチャできない場合に発生する。Googleの研究者はこの問題を深く研究している。
  • トレーニングの不安定性:GANの競争的な性質は、2つのネットワークがスムーズに収束しない不安定なトレーニングにつながる可能性がある。これは、消失勾配問題のような問題によって引き起こされる可能性がある。
  • 評価の難しさ:生成されたサンプルの品質と多様性を定量化することは自明ではない。インセプション・スコア(IS)やフレシェット・インセプション・ディスタンス(FID)のような指標が用いられるが、これらには限界がある。

これらの問題を克服するために、研究者は、より優れた安定性を実現するWasserstein GAN(WGAN)や、より制御された生成を可能にするConditional GAN(cGAN)など、多くのGANの亜種を開発してきた。GANの開発はAI研究の活発な分野であり続け、PyTorchや TensorFlowのようなフレームワークの強力なツールによって、開発者がよりアクセスしやすくなっている。より広範なMLワークフローを管理するために、Ultralytics HUBのようなプラットフォームは、データ管理とモデル展開を合理化するのに役立ちます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク