用語集

安定した拡散

テキストプロンプトからリアルな画像を生成し、創造性と効率性に革命をもたらす最先端のAIモデル、Stable Diffusionをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Stable Diffusionは拡散モデルのカテゴリーに属する著名なディープラーニングモデルで、特にテキストから画像生成用に設計されている。CompVis、Stability AI、LAIONの研究者やエンジニアによって2022年にリリースされたこのモデルは、テキスト記述から詳細で高品質な画像を生成する能力と、オープンソースという性質により、高度な生成AI機能を広く利用できるようにしたことで、瞬く間に人気を博した。当時の他の多くの強力な生成モデルとは異なり、Stable Diffusionは適切な GPU.

安定した拡散の仕組み

その中核となるStable Diffusionは、計算効率のために低次元の潜在空間内で動作する拡散プロセスを利用する。このプロセスには主に2つの段階がある:

  1. 前方拡散(ノイズ):実画像から始め、ランダムなノイズだけが残るまで、何段階にもわたってガウスノイズを段階的に加えていく。このプロセスは、ノイズが異なるレベルでどのように分布するかをモデルに教えます。
  2. 逆拡散(ノイズ除去):画像を生成するために、モデルは潜在空間内のランダムなノイズから開始し、ステップごとに反復的にノイズを除去する。このノイズ除去プロセスは、入力されたテキストプロンプトによって導かれます。このテキストプロンプトはエンコードされ、生成された画像がテキストの説明と一致することを確認するために、通常CLIP(Contrastive Language-Image Pre-training)のような技術を用いてモデルに入力されます。そして、最終的にノイズ除去された潜在表現は、完全な解像度の画像にデコードされる。

この反復的な改良により、モデルは多様なテキスト入力に基づいて、複雑で首尾一貫した画像を合成することができる。

GANとの主な違い

画像生成には安定拡散と生成的逆説的ネットワーク(GAN)の両方が使用されるが、その動作は異なる:

  • 学習プロセス:GANは生成器と識別器が互いに競合するため、学習が不安定になることがある。安定拡散(Stable Diffusion)のような拡散モデルは、固定されたノイジング手順を逆転させる学習に基づく、より安定した学習プロセスを持つ。
  • 生成プロセス:GANは通常、ジェネレーター・ネットワークを通過する1回のフォワード・パスで画像を生成する。Stable Diffusionは、複数ステップにわたる反復的なノイズ除去プロセスを通じて画像を生成する。
  • 出力品質と多様性:拡散モデルは、多様で忠実度の高い画像を生成することに優れていることが多いが、推論時間ではGANの方が速いこともある。技術的な詳細については、オリジナルのStable Diffusion研究論文をお読みください。

実世界での応用

Stable Diffusionの多用途性は、様々な分野での応用を可能にする:

  • アートとコンテンツ制作アーティスト、デザイナー、コンテンツ制作者は、Stable Diffusionを使用して、テキストプロンプトからユニークなビジュアル、イラスト、コンセプトアートを生成し、アイデアを迅速に反復します。Stability AIDreamStudioのようなプラットフォームは、ユーザーフレンドリーなインターフェースを提供します。
  • 合成データの生成:特に、実世界のデータが乏しかったり、ラベル付けにコストがかかったりするようなコンピュータ・ビジョンのタスクにおいて、他の機械学習モデルを訓練するための現実的な合成データを作成するために使用できる。これはデータ増強戦略を補うことができる。
  • 教育と研究:研究者はディープラーニングの研究、生成モデルの能力と限界の探求、アルゴリズムのバイアスなどの問題の調査に利用しています。
  • パーソナライズされたメディア:特定のユーザーリクエストに基づいて、プレゼンテーション、ソーシャルメディア、エンターテイメント用のカスタム画像を生成します。

アクセスと利用

安定した拡散モデルと関連ツールは、以下のようなプラットフォームを通じて広く利用できる。 Hugging Face多くの場合、人気のあるDiffusersライブラリのようなライブラリを利用している。そのオープンな性質は、コミュニティ開発や特定のタスクやスタイルに合わせた微調整を促し、人工知能(AI)の急速な進化に貢献しています。Ultralytics 、主に次のような効率的なオブジェクト検出モデルに焦点を当てています。 Ultralytics YOLOUltralytics HUBのようなツールに焦点を当てていますが、Stable Diffusionのような生成モデルを理解することは、より広いAIランドスケープにおいて非常に重要です。

すべて読む