Glossaire

Modèles de diffusion

Découvrez comment les modèles de diffusion révolutionnent l'IA générative en créant des images, des vidéos et des données réalistes avec un niveau de détail et de stabilité inégalé.

Les modèles de diffusion sont une classe de modèles génératifs qui sont devenus la pierre angulaire de l'IA générative moderne. Ils sont conçus pour créer de nouvelles données, telles que des images ou des sons, qui sont similaires aux données sur lesquelles ils ont été formés. L'idée de base est inspirée de la thermodynamique. Le modèle apprend à inverser un processus consistant à ajouter progressivement du bruit à une image jusqu'à ce qu'elle devienne purement statique. En apprenant ce processus de "débruitage", le modèle peut partir d'un bruit aléatoire et l'affiner progressivement pour obtenir un échantillon cohérent et de haute qualité. Ce processus d'affinage étape par étape est la clé de leur capacité à générer des résultats très détaillés et réalistes.

Comment fonctionnent les modèles de diffusion ?

Le processus qui sous-tend les modèles de diffusion comporte deux étapes principales :

  1. Processus de progression (diffusion) : À ce stade, une image claire est systématiquement dégradée par l'ajout d'une petite quantité de bruit gaussien en plusieurs étapes. Cette opération se poursuit jusqu'à ce que l'image ne puisse plus être distinguée d'un bruit pur. Ce processus de progression est fixe et n'implique aucun apprentissage ; il fournit simplement une cible au modèle pour qu'il apprenne à l'inverser.
  2. Processus inverse (débruitage) : C'est ici que se produit l'apprentissage. Un réseau neuronal est entraîné à prendre une image bruyante issue du processus inverse et à prédire le bruit qui a été ajouté à l'étape précédente. En soustrayant de manière répétée ce bruit prédit, le modèle peut partir d'une image complètement aléatoire (bruit pur) et la retransformer progressivement en une image propre et claire. Ce processus de débruitage par apprentissage permet au modèle de générer de nouvelles données à partir de zéro. L'article fondateur,"Denoising Diffusion Probabilistic Models", a jeté les bases de cette approche.

Modèles de diffusion et autres modèles génératifs

Les modèles de diffusion diffèrent considérablement d'autres approches génératives populaires telles que les réseaux adversariaux génératifs (GAN).

  • Stabilité de la formation : Les modèles de diffusion ont généralement un processus d'apprentissage plus stable que les GAN. Les GAN impliquent un jeu contradictoire complexe entre un générateur et un discriminateur, qui peut parfois être difficile à équilibrer et ne pas converger.
  • Qualité et diversité des échantillons : Bien qu'ils puissent tous deux produire des résultats de haute qualité, les modèles de diffusion excellent souvent dans la génération d'images très diversifiées et photoréalistes, surpassant parfois les GAN sur certains benchmarks. Cependant, cette qualité peut se faire au prix d'une latence d'inférence plus élevée.
  • Vitesse d'inférence : traditionnellement, les modèles de diffusion sont plus lents à générer des échantillons car ils nécessitent de nombreuses étapes de débruitage itératif. En revanche, les GAN peuvent générer un échantillon en un seul passage. Toutefois, des recherches actives et des techniques telles que la distillation des connaissances permettent de combler rapidement cet écart de vitesse.

Applications dans le monde réel

Les modèles de diffusion sont à l'origine d'une nouvelle vague de créativité et d'innovation dans divers domaines :

  • Génération d'images haute fidélité : Il s'agit de l'application la plus connue. Les modèles développés par des entreprises telles que Stability AI et OpenAI peuvent créer des images étonnamment réalistes et artistiques à partir de simples invites textuelles. Parmi les exemples les plus connus, citons Stable Diffusion, DALL-E 3, Midjourney et Imagen de Google. Ces outils ont transformé l'art numérique et la création de contenu.
  • Édition d'images et Inpainting : Les modèles de diffusion ne servent pas uniquement à créer des images à partir de zéro. Les modèles de diffusion peuvent modifier intelligemment des images existantes sur la base d'instructions, par exemple en ajoutant ou en supprimant des objets, en changeant de style artistique ou en remplissant les parties manquantes d'une photo (inpainting). Des outils comme Adobe Firefly exploitent ces capacités.
  • Synthèse audio et vidéo : Les principes de diffusion sont également appliqués à d'autres types de données. Des modèles comme AudioLDM peuvent générer des discours, de la musique et des effets sonores réalistes, tandis que des modèles comme Sora d'OpenAI repoussent les limites de la génération de texte en vidéo.
  • Augmentation des données : Dans le domaine de la vision artificielle, les modèles de diffusion peuvent être utilisés pour générer des données d'entraînement synthétiques. Ceci est particulièrement utile pour améliorer la robustesse de modèles comme Ultralytics YOLO pour des tâches telles que la détection d'objets ou la segmentation d'images, en particulier lorsque les données réelles sont rares.

Outils et développement

Le développement et l'utilisation de modèles de diffusion font généralement appel à des cadres d'apprentissage automatique tels que PyTorch et TensorFlow. Pour faciliter le développement, des bibliothèques comme Hugging Face Diffusers proposent des modèles et des outils pré-entraînés. Alors que ces outils se concentrent sur le modèle génératif lui-même, des plateformes comme Ultralytics HUB peuvent aider à gérer le flux de travail plus large, y compris la gestion et le déploiement des ensembles de données, complétant ainsi le développement de solutions d'IA complètes. À mesure que ces modèles se généralisent, il est essentiel de prendre en compte l'éthique de l'IA et de relever des défis tels que les biais algorithmiques.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers