用語集

安定した拡散

テキストプロンプトからリアルな画像を生成し、創造性と効率性に革命をもたらす最先端のAIモデル、Stable Diffusionをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Stable Diffusionは、拡散モデルのカテゴリーに属する著名なディープラーニング(DL)モデルで、特にテキストから画像への生成用に設計されている。CompVisの研究者とエンジニアによって2022年にリリースされた、 Stability AIおよびLAIONの研究者によって2022年にリリースされたこのモデルは、テキスト記述から詳細で高品質な画像を生成する能力により、瞬く間に人気を博した。そのオープンソースの性質により、高度な生成AIの機能が広く利用できるようになった。当時の他の多くの強力な生成モデルとは異なり、Stable Diffusionは、適切なGPU (Graphics Processing Unit)を備えた民生グレードのハードウェアで実行することができます。

安定した拡散の仕組み

ステイブル・ディフュージョンの核心は、拡散プロセスを利用することである。このプロセスは、ランダムなノイズのパターンから始まり、テキストプロンプトによって提供されるガイダンスに従ってノイズを除去しながら、段階的にそれを徐々に洗練していく。計算効率を高めるため、処理の大部分は、高解像度のピクセルデータを直接処理するのではなく、低次元の潜在空間内で行われる。テキストプロンプトは、多くの場合CLIP(Contrastive Language-Image Pre-training)のようなモデルに基づくテキストエンコーダを使用して解釈され、画像生成プロセスが理解できる表現に単語を変換する。この反復的な改良により、元のStable Diffusionの研究論文に詳述されているように、モデルは多様なテキスト入力に基づいて、複雑で首尾一貫した画像を合成することができる。

GANとの主な違い

画像生成には安定拡散と生成的逆説的ネットワーク(GAN)の両方が使用されるが、その動作は異なる:

  • 学習プロセス:GANは、ジェネレーター(画像生成)とディスクリミネーター(画像判定)の間の競争プロセスを伴うため、学習が不安定になることがある。安定拡散(Stable Diffusion)のような拡散モデルは、一般に、より安定した学習ダイナミクスを持ち、ノイズの付加過程を逆向きに学習する。
  • 画質と多様性:GANは歴史的にシャープな画像を生成することに優れているが、限られたバリエーションを生成する「モード崩壊」に悩まされることがある。拡散モデルは多くの場合、より優れた画像の多様性と一貫性を達成し、複雑なプロンプトとうまく整合する。
  • メカニズムGANはランダムなベクトルから画像を直接生成するように学習する。拡散モデルは、条件付け情報(テキストなど)に基づいて、ランダムなノイズパターンを反復的にノイズ除去することを学習する。

実世界での応用

Stable Diffusionの多用途性は、様々な分野での応用を可能にする:

  • クリエイティブアートとデザイン:アーティスト、デザイナー、コンテンツ制作者は、Stability AIDreamStudioや統合ソフトウェアなどのツールを使用して、テキスト記述に基づいて、ユニークなビジュアル、コンセプトアート、イラスト、マーケティング資料、さらには3Dモデルのテクスチャを生成します。
  • 合成データの生成: 機械学習(ML)、特にコンピュータビジョン(CV)において、安定拡散は合成データを作成することができる。例えば、珍しい物体や特定のシナリオの様々な画像を生成することで、物体検出のようなタスクの学習データを補強することができ、以下のようなモデルのロバスト性を向上させる可能性があります。 Ultralytics YOLO.これはデータ増強の一形態である。
  • 教育と研究:複雑なトピックの視覚教材を作成したり、シミュレーションで潜在的な結果を探る。
  • エンターテイメント:ゲームやバーチャルワールドのアセット作成、映画制作におけるストーリーボード作成など。

アクセスと利用

安定した拡散モデルと関連ツールは、以下のようなプラットフォームを通じて広く利用できる。 Hugging Faceのようなフレームワークで、よく使われるDiffusersライブラリのようなライブラリを利用しています。 PyTorchまたは TensorFlow.そのオープンな性質は、コミュニティによる開発と特定のタスクやスタイルに合わせた微調整を促し、人工知能(AI)の急速な進化に貢献している。Ultralytics 主に効率的な物体検出モデル(YOLOv8YOLOv10YOLO11)や、MLOpsを合理化するためのUltralytics HUBのようなツールに焦点を当てていますが、安定拡散のような生成モデルを理解することは、より広範なAIランドスケープにおいて極めて重要です。

倫理的配慮

Stable Diffusionのような生成モデルのパワーは、倫理的な課題ももたらす。懸念されるのは、説得力のあるディープフェイクを作成する可能性、同意のない明示的なコンテンツを生成する可能性、あるいは学習データに存在する社会的バイアスを永続化させ、アルゴリズムのバイアスにつながる可能性などである。このような技術を開発・展開するには、AIの倫理を慎重に考慮し、責任あるAIの実践のためのセーフガードを導入する必要があります。

すべて読む