Glossaire

Diffusion stable

Découvre la diffusion stable, un modèle d'IA de pointe qui permet de générer des images réalistes à partir d'invites textuelles, révolutionnant ainsi la créativité et l'efficacité.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Stable Diffusion est un modèle d'apprentissage profond (DL) éminent appartenant à la catégorie des modèles de diffusion, spécifiquement conçu pour la génération de texte en image. Publié en 2022 par des chercheurs et des ingénieurs de CompVis, Stability AIet LAION, il a rapidement gagné en popularité grâce à sa capacité à créer des images détaillées et de haute qualité à partir de descriptions textuelles. Sa nature open-source a rendu les capacités avancées d'IA générative largement accessibles. Contrairement à de nombreux autres modèles génératifs puissants à l'époque, Stable Diffusion peut fonctionner sur du matériel grand public avec un GPU (Graphics Processing Unit) approprié.

Comment fonctionne la diffusion stable

À la base, la diffusion stable utilise un processus de diffusion. Ce processus part d'un modèle de bruit aléatoire et l'affine progressivement, étape par étape, en supprimant le bruit selon les indications fournies par une invite textuelle. Pour que le calcul soit efficace, une grande partie du processus fonctionne dans un espace latent de dimension inférieure, plutôt que directement sur des données de pixels à haute résolution. Les invites textuelles sont interprétées à l'aide d'un codeur de texte, souvent basé sur des modèles tels que CLIP (Contrastive Language-Image Pre-training), qui traduit les mots en une représentation que le processus de génération d'images peut comprendre. Ce raffinement itératif permet au modèle de synthétiser des images complexes et cohérentes à partir de diverses entrées textuelles, comme l'explique en détail l'article de recherche original sur la diffusion stable.

Principales différences avec les GAN

Bien que la diffusion stable et les réseaux adversoriels génératifs (GAN) soient tous deux utilisés pour la génération d'images, ils fonctionnent différemment :

  • Processus de formation : Les GAN impliquent un processus compétitif entre un générateur (qui crée des images) et un discriminateur (qui juge les images), ce qui peut parfois conduire à un apprentissage instable. Les modèles de diffusion comme la diffusion stable ont généralement une dynamique de formation plus stable, apprenant à inverser un processus d'ajout de bruit.
  • Qualité et diversité des images : Les GAN ont toujours excellé dans la production d'images nettes, mais ils peuvent parfois souffrir d'un "effondrement de mode", c'est-à-dire qu'ils génèrent des variations limitées. Les modèles de diffusion permettent souvent d'obtenir une meilleure diversité et une meilleure cohérence des images, et s'alignent bien sur les invites complexes, bien qu'ils puissent nécessiter plus d'étapes de calcul pendant l'inférence.
  • Mécanisme : Les GAN apprennent à générer directement une image à partir d'un vecteur aléatoire. Les modèles de diffusion apprennent à débruiter un modèle de bruit aléatoire de façon itérative en se basant sur des informations de conditionnement (comme du texte).

Applications dans le monde réel

La polyvalence de la diffusion stable permet de nombreuses applications dans divers domaines :

  • Arts créatifs et design : Les artistes, les concepteurs et les créateurs de contenu utilisent des outils tels que DreamStudio deStability AI ou des logiciels intégrés pour générer des visuels uniques, des concepts artistiques, des illustrations, des documents marketing et même des textures pour des modèles 3D basés sur des descriptions textuelles.
  • Génération de données synthétiques : Dans le domaine de l'apprentissage automatique (ML), et plus particulièrement de la vision artificielle (CV), la diffusion stable permet de créer des données synthétiques. Par exemple, la génération d'images variées d'objets rares ou de scénarios spécifiques peut augmenter les données d'entraînement pour des tâches telles que la détection d'objets, améliorant potentiellement la robustesse de modèles tels que... Ultralytics YOLO. Il s'agit d'une forme d'augmentation des données.
  • Éducation et recherche : Générer des aides visuelles pour des sujets complexes ou explorer des résultats potentiels dans des simulations.
  • Divertissement : Création d'actifs pour les jeux, les mondes virtuels, ou scénarisation dans la réalisation de films.

Accès et utilisation

Les modèles de diffusion stable et les outils connexes sont largement disponibles sur des plateformes telles que Hugging FaceLes modèles de diffusion stables sont largement disponibles sur des plates-formes comme Hugging Face, et utilisent souvent des bibliothèques telles que la populaire bibliothèque Diffusers dans des cadres tels que PyTorch ou TensorFlow. Sa nature ouverte encourage le développement de la communauté et le réglage fin pour des tâches ou des styles spécifiques, ce qui contribue à l'évolution rapide de l'intelligence artificielle (IA). Alors qu'Ultralytics se concentre principalement sur des modèles de détection d'objets efficaces (YOLOv8YOLOv8, YOLOv10, YOLO11) et des outils comme Ultralytics HUB pour rationaliser les MLOps, la compréhension des modèles génératifs comme la diffusion stable est cruciale dans le paysage plus large de l'IA.

Considérations éthiques

La puissance des modèles génératifs comme la diffusion stable entraîne également des défis éthiques. Les inquiétudes portent notamment sur la possibilité de créer des deepfakes convaincants, de générer des contenus explicites non consensuels ou de perpétuer les préjugés sociétaux présents dans les données d'entraînement, ce qui entraîne des biais algorithmiques. Le développement et le déploiement de ces technologies nécessitent un examen attentif de l'éthique de l'IA et la mise en place de garde-fous pour des pratiques d'IA responsables.

Tout lire