用語集

テキストから画像へ

Text-to-Image AIでテキストを魅力的なビジュアルに変換。創造的なイノベーションのために、生成モデルがどのように言語とイメージを橋渡ししているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Text-to-Image生成は、ジェネレーティブAIの魅力的なサブセットであり、モデルがユーザーによって提供された純粋なテキスト記述に基づいて斬新な画像を作成する。この技術は、ディープラーニング(DL)と自然言語処理(NLP)の進歩を活用し、言語と視覚表現のギャップを埋めることで、シンプルなテキストプロンプトから複雑で創造的なビジュアルを作成することを可能にする。これは人工知能(AI)における重要な一歩であり、ユーザーは従来の芸術的スキルを必要とせずに、概念、アイデア、シーンを視覚化することができる。

テキスト画像モデルの仕組み

テキストから画像への変換モデルには通常、テキスト入力を理解することと、対応する画像を生成することの2つの主要な要素が含まれる。まず、入力されたテキストは、単語の意味的な意味を捉えるエンベッディングと呼ばれる数値表現に変換されます。CLIP: Connecting Text and Imagesのような技術は、これらのテキスト埋め込みを画像概念と整合させるためによく使用される。

次に、生成モデルがこれらの埋め込みを使用して画像を生成する。一般的なアーキテクチャには拡散モデルがあり、これは画像に徐々にノイズを追加していく過程を逆に学習するもので、ノイズから始めてテキストプロンプトに基づいて徐々に洗練させていくことで効果的に画像を生成する。別のアプローチには、Generative Adversarial Networks (GANs)が含まれるが、拡散モデルは忠実度の高い画像生成のために最近より顕著になってきている。出力画像の品質と関連性は、入力プロンプトの詳細さと明瞭さ、およびモデルの学習データに大きく依存する。

キーコンセプト

  • プロンプト・エンジニアリング:効果的なテキストプロンプトを作成することは、AIが望ましいイメージを生成するよう導くために非常に重要です。これには、説明的な言語を使用し、スタイル、要素、構図を指定することが含まれます。効果的なプロンプトエンジニアリングは、出力品質に大きく影響します。
  • 潜在空間:これは、モデルが画像やテキストプロンプトのような複雑なデータを表現する低次元空間である。生成プロセスでは多くの場合、テキスト埋め込みに基づいてこの潜在空間内の点を操作する。
  • 拡散プロセス:前述したように、拡散モデルはトレーニング画像にノイズを加え、このプロセスを逆に学習することで機能する。生成中、モデルはランダムなノイズから開始し、テキストプロンプトのガイダンスに従ってノイズを繰り返し除去します。

アプリケーション

Text-to-Imageテクノロジーは、さまざまな分野で応用されている:

  • クリエイティブアートとデザイン:アーティストやデザイナーは、Midjourneyや Stability AIStable Diffusionのようなツールを使って、説明的なプロンプトからユニークなアートワーク、映画やゲームのコンセプトアート、マーケティング資料を生成する。
  • コンテンツ制作:記事、ブログ記事、プレゼンテーション、ソーシャルメディアコンテンツ用のカスタムイラストを迅速かつ効率的に生成します。例えば、ブロガーは記事のトピックを説明することで、ユニークなヘッダー画像を生成することができます。
  • プロトタイピングとビジュアライゼーション物理的なプロトタイプや詳細なレンダリングを作成する前に、製品コンセプト、建築デザイン、または科学的なアイデアを、テキストの説明に基づいて素早く視覚化します。
  • 教育複雑なトピックや歴史的な出来事を魅力的に説明するために、カスタムメイドの視覚教材やイラストを作成。

他のAI分野との関係

Text-to-Image生成は、他のComputer Vision(CV)タスクとは異なります。Text-to-Imageがテキストから画像を生成するのに対し、Image Recognitionや Object Detectionのような技術は、既存の画像を分析し、その内容を理解したり、画像内のオブジェクトを特定したりする。以下のようなモデル Ultralytics YOLOのようなモデルは、与えられた視覚データに対する検出と分類タスクを得意としますが、OpenAIによるDALL-E 3のようなテキストから画像へのモデルは、合成に重点を置いています。

この分野は、プロンプトを正確に解釈するために、NLPの進歩に大きく依存している。また、テキスト入力からさまざまな種類のメディアを生成するtext-to-videoやtext-to-speechのような他の生成タスクとも密接に関連している。このような大規模なモデルの学習には、多くの場合、強力なGPU(グラフィック・プロセッシング・ユニット)を中心とした膨大な計算リソースが必要であり、次のようなフレームワークが必要です。 PyTorchまたは TensorFlow.多くの訓練済みモデルは、Hugging Face Hubのようなプラットフォームからアクセスできます。

すべて読む