用語集

生成逆数ネットワーク(GAN)

Generative Adversarial Networks (GANs)の仕組み、主要なコンポーネント、アプリケーション、リアルな合成データを作成する上での課題について学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Generative Adversarial Network(GAN)は、学習データセットに似た新しいデータを生成するように設計されたディープラーニングフレームワークの一種である。2014年にイアン・グッドフェロー(Ian Goodfellow)氏らによって初めて紹介されたGANは、ジェネレーターとディスクリミネーターという2つのニューラルネットワークで構成され、競争的な設定で一緒に訓練される。ジェネレーターが新しいデータインスタンスを作成し、ディスクリミネーターが真正性を評価する。これら2つのネットワークの相互作用により、ジェネレーターはますます現実的なデータを生成するようになり、GANは合成データを生成するための強力なツールとなる。

生成逆説的ネットワークの仕組み

GANの核となる考え方は、生成器と識別器の間の敵対プロセスである。生成器の目標は、識別器が実際のデータと区別できないようなデータを生成することである。識別器の目標は、受け取ったデータが本物か生成されたものかを正しく識別することである。このダイナミックは、両方のネットワークが時間とともに改善するフィードバック・ループを生み出す。

訓練プロセスは、ジェネレーターがランダムなデータを生成することから始まる。その後、識別器は訓練データセットからの実データとジェネレータからの偽データの両方で訓練される。識別器は実データと偽データの区別を学習し、ジェネレータにフィードバックを提供する。ジェネレーターはこのフィードバックを使って出力を改善し、識別器を欺く可能性の高いデータを作成する。このプロセスは反復的に続けられ、それぞれのネットワークが他方のネットワークがより良いパフォーマンスを発揮できるように後押しする。

生成的逆数ネットワークの主な構成要素

発電機

ジェネレーターは、ランダムなノイズを入力とし、それを画像、テキスト、音声などのデータサンプルに変換するニューラルネットワークである。ジェネレーターのアーキテクチャは通常、画像生成の場合は転置畳み込みのようなアップサンプリング技術を含み、最初のノイズから徐々に望ましい出力を構築する。

ディスクリミネーター

識別器は2値分類器として機能するもう1つのニューラルネットワークである。実データまたは生成されたデータサンプルを入力とし、入力が実データである確率を出力する。識別器は、その予測精度を最大化することを目標に、標準的な教師あり学習手法を用いて学習される。

生成的逆数ネットワークの応用

GANは様々な領域で応用されており、その多様性と可能性を示している。以下はその顕著な例である:

画像生成

GANの最も一般的な用途の1つは画像生成である。GANは、顔、物体、シーンの非常にリアルな画像を生成することができる。例えば、NVIDIA 「StyleGAN」は、現実には存在しない、驚くほどリアルな人間の顔の画像を生成するために使用されている。この能力は、エンターテインメント、アート、デザインなどの分野に影響を与える。

データ補強

GANは、新しい合成データサンプルを生成することで、既存のデータセットを補強するために使用することができる。これは、実データを大量に収集することが困難であったり、コストがかかったりするシナリオで特に有用である。例えば、医療画像診断では、GANは希少疾患の合成画像を生成し、よりロバストな診断モデルの学習に役立てることができる。

画像から画像への翻訳

GANは、ある領域の画像を別の領域の画像に変換する、画像間の変換を行うことができる。例えば、CycleGANは、写真を特定の画家のスタイルの絵画に変換したり、衛星画像を地図ビューに変換したりするのに使われている。

生成的逆説的ネットワークと他の生成モデルとの比較

GANはデータ生成のための強力なツールだが、生成モデルの種類はそれだけではない。他の注目すべき生成モデルには、変分オートエンコーダ(VAE)や自己回帰モデルがある。

変分オートエンコーダ(VAE)

VAEは、データを生成するために確率的アプローチを使用する、生成モデルの別のクラスである。GANとは異なり、VAEは入力データを潜在空間にエンコードし、それを元のデータ空間にデコードして戻す。VAEは、画像のノイズ除去や異常検出などのタスクによく使用される。VAEは、GANに比べて滑らかな画像を生成する傾向があるが、時にはぼやけた画像を生成することもある。

自己回帰モデル

GPT (Generative Pre-trained Transformer)のような自己回帰モデルは、データを一度に1つの要素ずつ逐次的に生成する。これらのモデルはテキスト生成に特に効果的で、高度に首尾一貫した、文脈に関連したテキストを作成するために使用されている。GANとは異なり、自己回帰モデルは敵対的なプロセスを伴わず、その代わりに前の要素に基づいてシーケンスの次の要素を予測することに重点を置く。

課題と限界

その素晴らしい能力にもかかわらず、GANにはいくつかの課題がある:

  • トレーニングの不安定性:GANは、発生器と識別器の間の複雑なダイナミクスのため、訓練が難しいことで有名である。一方が他方を圧倒することなく、両方のネットワークが向上するようなバランスを達成することは難しい。
  • モード崩壊:モード崩壊は、ジェネレーターが限られた種類のサンプルを生成し、トレーニングデータの完全な多様性をキャプチャできない場合に発生します。その結果、反復的な出力や低品質な出力が生じることがあります。
  • 評価指標:従来の機械学習モデルとは異なり、GANには評価のための明確な目的関数がない。生成されたデータの品質を評価することは、主観的な判断や間接的な指標に頼ることが多く、異なるGANモデルを比較することを困難にしている。

生成的逆数ネットワークの未来

GANの分野は急速に進化しており、課題への対処と応用の拡大を目指した研究が続けられている。学習技術の改善、新しいアーキテクチャ、GANの長所を他の生成モデルと組み合わせたハイブリッドモデルなどの革新により、より安定した汎用性の高いGANへの道が開かれつつある。

コンピュータ・ビジョンと ジェネレーティブAIの最新の進歩については、Ultralytics ブログをご覧ください。関連用語の詳細については、Ultralytics'AI & コンピュータビジョン用語集をご覧ください。

すべて読む