Glossaire

Diffusion stable

Découvre la diffusion stable, un modèle d'IA de pointe qui permet de générer des images réalistes à partir d'invites textuelles, révolutionnant ainsi la créativité et l'efficacité.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Stable Diffusion est un modèle d'apprentissage profond de premier plan appartenant à la catégorie des modèles de diffusion, spécifiquement conçu pour la génération de texte en image. Publié en 2022 par des chercheurs et des ingénieurs de CompVis, Stability AI et LAION, il a rapidement gagné en popularité grâce à sa capacité à créer des images détaillées et de haute qualité à partir de descriptions textuelles et à sa nature open-source, rendant les capacités avancées d'IA générative largement accessibles. Contrairement à de nombreux autres modèles génératifs puissants de l'époque, Stable Diffusion peut fonctionner sur du matériel grand public doté d'une carte GPU.

Comment fonctionne la diffusion stable

À la base, la diffusion stable utilise un processus de diffusion fonctionnant dans un espace latent de dimension inférieure pour des raisons d'efficacité informatique. Le processus comporte deux étapes principales :

  1. Diffusion vers l'avant (bruitage) : À partir d'une image réelle, un bruit gaussien est ajouté de façon incrémentielle sur plusieurs étapes jusqu'à ce qu'il ne reste plus qu'un bruit aléatoire. Ce processus apprend au modèle comment le bruit est réparti à différents niveaux.
  2. Diffusion inverse (débruitage) : Pour générer une image, le modèle commence avec un bruit aléatoire dans l'espace latent et élimine itérativement le bruit, étape par étape. Ce processus de débruitage est guidé par le texte d'entrée, qui est encodé et introduit dans le modèle, généralement à l'aide de techniques telles que CLIP (Contrastive Language-Image Pre-training), afin de s'assurer que l'image générée correspond à la description du texte. La représentation latente dénoisée finale est ensuite décodée en une image pleine résolution.

Ce raffinement itératif permet au modèle de synthétiser des images complexes et cohérentes à partir de diverses entrées textuelles.

Principales différences avec les GAN

Bien que la diffusion stable et les réseaux adversoriels génératifs (GAN) soient tous deux utilisés pour la génération d'images, ils fonctionnent différemment :

  • Processus de formation : Les GAN impliquent un générateur et un discriminateur en compétition l'un contre l'autre, ce qui peut parfois conduire à une formation instable. Les modèles de diffusion comme la diffusion stable ont un processus de formation plus stable basé sur l'apprentissage de l'inversion d'une procédure de bruits fixe.
  • Processus de génération : Les GAN génèrent généralement des images en un seul passage dans le réseau du générateur. La diffusion stable génère des images par le biais d'un processus de débruitage itératif en plusieurs étapes.
  • Qualité et diversité des résultats : Les modèles de diffusion excellent souvent dans la production d'images diverses et de haute fidélité, bien que les GAN soient parfois plus rapides au moment de l'inférence. Pour plus de détails techniques, consulte l'article de recherche original sur la diffusion stable.

Applications dans le monde réel

La polyvalence de la diffusion stable permet de nombreuses applications dans divers domaines :

  • Création d'art et de contenu : Les artistes, les concepteurs et les créateurs de contenu utilisent Stable Diffusion pour générer des visuels, des illustrations et des concepts artistiques uniques à partir d'invites textuelles, en itérant rapidement sur les idées. Des plateformes comme DreamStudio deStability AI offrent des interfaces conviviales.
  • Génération de données synthétiques : Il peut être utilisé pour créer des données synthétiques réalistes afin d'entraîner d'autres modèles d'apprentissage automatique, en particulier dans les tâches de vision par ordinateur où les données du monde réel peuvent être rares ou coûteuses à étiqueter. Cela peut compléter les stratégies d'augmentation des données.
  • Éducation et recherche : Les chercheurs l'utilisent pour étudier l'apprentissage profond, explorer les capacités et les limites des modèles génératifs et étudier des questions telles que les biais algorithmiques.
  • Médias personnalisés : Générer des images personnalisées pour les présentations, les médias sociaux ou les divertissements en fonction des demandes spécifiques des utilisateurs.

Accès et utilisation

Les modèles de diffusion stable et les outils connexes sont largement disponibles sur des plateformes telles que Hugging FaceLes modèles de diffusion stables et les outils connexes sont largement disponibles sur des plateformes telles que Hugging Face, et utilisent souvent des bibliothèques telles que la bibliothèque populaire Diffusers. Sa nature ouverte encourage le développement de la communauté et le réglage fin pour des tâches ou des styles spécifiques, ce qui contribue à l'évolution rapide de l'intelligence artificielle (IA). Alors qu'Ultralytics se concentre principalement sur des modèles de détection d'objets efficaces comme Ultralytics YOLO et les outils comme Ultralytics HUB, la compréhension des modèles génératifs comme la diffusion stable est cruciale dans le paysage plus large de l'IA.

Tout lire