用語集

拡散モデル

ディフュージョンモデルが、比類ないディテールと安定性を備えたリアルな画像、ビデオ、データを作成することで、ジェネレーティブAIにどのような革命をもたらすかをご覧ください。

拡散モデルは生成モデルの一種で、現代の生成AIの基礎となっている。拡散モデルは、画像や音声など、学習させたデータと類似した新しいデータを生成するように設計されている。核となるアイデアは熱力学に着想を得ている。このモデルは、画像が純粋な静止画になるまで、徐々にノイズを加えていくプロセスを逆に学習する。この "ノイズ除去 "プロセスを学習することで、モデルはランダムなノイズからスタートし、徐々に首尾一貫した高品質のサンプルへと洗練させていくことができる。この段階的な洗練プロセスが、非常に詳細でリアルな出力を生成する能力の鍵なのだ。

拡散モデルはどのように機能するのか?

普及モデルの背景には、主に2つの段階がある:

  1. 前方プロセス(拡散):この段階では、少量のガウスノイズを何段階にもわたって加えることで、鮮明な画像を系統的に劣化させる。これは画像が純粋なノイズと区別できなくなるまで続けられる。この前方プロセスは固定されており、いかなる学習も伴わない。これは単に、モデルが逆に学習するための目標を提供するだけである。
  2. 逆プロセス(ノイズ除去):ここで学習が行われる。ニューラル・ネットワークは、フォワード・プロセスからノイズの多い画像を取り出し、前のステップで加えられたノイズを予測するように学習される。この予測されたノイズを繰り返し差し引くことで、モデルは完全にランダムな画像(純粋なノイズ)からスタートし、徐々にクリーンでクリアな画像に戻すことができる。この学習されたノイズ除去プロセスによって、モデルはゼロから新しいデータを生成することができる。基礎となった論文「Denoising Diffusion Probabilistic Models」は、このアプローチの基礎の多くを築いた。

拡散モデルと他の生成モデルの比較

拡散モデルは、Generative Adversarial Networks(GAN)のような他の一般的な生成アプローチとは大きく異なる。

  • トレーニングの安定性:拡散モデルは一般的に、GANに比べて学習過程が安定している。GANは、生成器と識別器の間の複雑な敵対的ゲームを含み、そのバランスをとるのが難しく、収束に失敗することがある。
  • サンプルの質と多様性:どちらも高品質な結果を生成することができるが、拡散モデルは非常に多様で写実的な画像を生成することに優れていることが多く、特定のベンチマークではGANを上回ることもある。しかし、この品質は、より高い推論レイテンシという代償を払うことになります。
  • 推論速度:従来、拡散モデルは多くの反復ノイズ除去ステップを必要とするため、サンプルの生成に時間がかかる。一方、GANは1回のフォワードパスでサンプルを生成することができる。しかし、積極的な研究と知識蒸留のような技術により、この速度差は急速に縮まっています。

実世界での応用

拡散モデルは、さまざまな分野における創造性と革新の新しい波を後押ししている:

  • 高忠実度画像生成:これは最も有名なアプリケーションだ。Stability AIや OpenAIのような企業が開発したモデルは、シンプルなテキストプロンプトから驚くほどリアルで芸術的な画像を作成することができる。著名な例としては、Stable DiffusionDALL-E 3Midjourney、GoogleのImagenなどがある。これらのツールは、デジタルアートやコンテンツ制作を一変させた。
  • 画像編集とインペインティング:拡散モデルは、ゼロから画像を作成するためだけのものではありません。拡散モデルは、オブジェクトの追加や削除、アーティスティックなスタイルの変更、写真の欠落部分の補填(インペインティング)など、指示に基づいて既存の画像をインテリジェントに修正することができます。Adobe Fireflyのようなツールは、これらの機能を活用しています。
  • オーディオとビデオの合成:拡散の原理は他のデータタイプにも応用されている。AudioLDMのようなモデルは、リアルな音声、音楽、効果音を生成することができ、OpenAIのSoraのようなモデルは、テキストからビデオへの生成の限界を押し広げています。
  • データの増強: コンピュータビジョンでは、拡散モデルを用いて合成学習データを生成することができる。これは、物体検出や 画像セグメンテーションなどのタスクにおいて、特に実世界のデータが乏しい場合に、Ultralytics YOLOのようなモデルのロバスト性を向上させるのに役立ちます。

ツールと開発

拡散モデルの開発と使用には、一般的にPyTorchや TensorFlowのような機械学習フレームワークが使用されます。開発を容易にするために、Hugging Face Diffusersライブラリのようなライブラリは、事前に訓練されたモデルとツールを提供します。これらのツールは生成モデルそのものに焦点を当てているが、Ultralytics HUBのようなプラットフォームは、データセットの管理やデプロイメントを含む幅広いワークフローの管理を支援し、包括的なAIソリューションの開発を補完することができる。このようなモデルが普及するにつれ、AIの倫理を考慮し、アルゴリズムのバイアスなどの課題に対処することが極めて重要になる。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク