Glossaire

Modèles de diffusion

Découvre comment les modèles de diffusion révolutionnent l'IA générative en créant des images, des vidéos et des données réalistes avec un niveau de détail et de stabilité inégalé.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les modèles de diffusion sont une classe de modèles génératifs dans l'apprentissage machine (ML) qui ont suscité beaucoup d'attention pour leur capacité à produire des échantillons diversifiés de haute qualité, en particulier dans le domaine de la vision par ordinateur (VA). Inspirés par des concepts de thermodynamique, ces modèles fonctionnent en ajoutant systématiquement du bruit aux données (comme une image) dans un "processus avant" jusqu'à ce qu'elles deviennent du bruit pur, puis en apprenant à inverser ce processus. Le "processus inverse" consiste à entraîner un réseau neuronal à supprimer progressivement le bruit, en partant d'un bruit aléatoire et en l'affinant de façon itérative jusqu'à ce qu'un échantillon de données réaliste soit généré.

Comment fonctionnent les modèles de diffusion

L'idée maîtresse comporte deux étapes :

  1. Processus de diffusion vers l'avant : Cette étape prend un échantillon de données originales (par exemple, une image) et ajoute progressivement une petite quantité de bruit gaussien sur plusieurs étapes. Ce processus se poursuit jusqu'à ce que l'image originale soit indiscernable du bruit aléatoire. Cette étape est fixe et n'implique pas d'apprentissage.
  2. Processus de débruitage inversé : C'est ici que l'apprentissage se produit. Un modèle, généralement une architecture de réseau neuronal sophistiquée comme un U-Net, est formé pour prédire le bruit ajouté à chaque étape du processus de diffusion. Pendant la génération, le modèle commence avec du bruit pur et utilise ses prédictions apprises pour supprimer progressivement le bruit sur le même nombre d'étapes, inversant ainsi la diffusion et générant un nouvel échantillon de données. Ce raffinement étape par étape permet de créer des résultats très détaillés.

Comparaison avec d'autres modèles génératifs

Les modèles de diffusion diffèrent considérablement d'autres approches génératives populaires telles que les réseaux adverbiaux génératifs (GAN). Alors que les GAN impliquent un générateur et un discriminateur en compétition l'un contre l'autre, ce qui conduit souvent à une instabilité de l'apprentissage, les modèles de diffusion ont tendance à avoir une dynamique d'apprentissage plus stable. Ils permettent souvent d'obtenir une meilleure diversité et qualité d'échantillon par rapport aux GAN, bien qu'ils nécessitent généralement plus d'étapes de calcul pendant l'inférence (génération), ce qui les rend plus lents. Contrairement aux autoencodeurs variationnels (VAE), qui apprennent un espace latent compressé, les modèles de diffusion opèrent directement dans l'espace des données par le biais du processus de bruitage et de débruitage. Une variante populaire est la diffusion stable, connue pour son efficacité et ses résultats de haute qualité.

Applications des modèles de diffusion

Les modèles de diffusion excellent dans les tâches nécessitant une génération haute-fidélité :

  • Synthèse texte-image: Des modèles comme Imagen deGoogle et DALL-E 2 d'OpenAI utilisent des techniques de diffusion pour générer des images détaillées à partir de descriptions textuelles. Les utilisateurs peuvent fournir des invites, et le modèle crée les visuels correspondants.
  • Analyse d'images médicales: Elles peuvent être utilisées pour des tâches telles que la génération d'images médicales synthétiques pour l'augmentation des données d'entraînement, la super-résolution d'images pour améliorer la qualité des scans, ou même la détection d'anomalies en apprenant la distribution des tissus sains. Par exemple, la génération d'IRM ou de tomodensitogrammes réalistes peut aider à former des modèles d'IA diagnostiques sans s'appuyer uniquement sur les données limitées des patients, en complétant des tâches telles que la segmentation d'images pour les tumeurs.
  • Autres domaines : La recherche explore leur utilisation dans la génération audio, la génération vidéo(comme Google Veo), la conception de molécules pour la découverte de médicaments et la compression de données.

Des structures comme PyTorch et les bibliothèques telles que la bibliothèqueHugging Face Diffusers fournissent des outils et des modèles pré-entraînés, ce qui permet aux développeurs d'expérimenter et de déployer plus facilement des modèles de diffusion. Leur capacité à générer des données diverses et de haute qualité en fait un outil puissant dans l'évolution continue de l'IA générative.

Tout lire