Découvre comment les modèles de diffusion révolutionnent l'IA générative en créant des images, des vidéos et des données réalistes avec un niveau de détail et de stabilité inégalé.
Les modèles de diffusion sont une classe de modèles génératifs dans l'apprentissage machine (ML) qui ont suscité beaucoup d'attention pour leur capacité à produire des échantillons diversifiés de haute qualité, en particulier dans le domaine de la vision par ordinateur (VA). Inspirés par des concepts de thermodynamique, ces modèles fonctionnent en ajoutant systématiquement du bruit aux données (comme une image) dans un "processus avant" jusqu'à ce qu'elles deviennent du bruit pur, puis en apprenant à inverser ce processus. Le "processus inverse" consiste à entraîner un réseau neuronal à supprimer progressivement le bruit, en partant d'un bruit aléatoire et en l'affinant de façon itérative jusqu'à ce qu'un échantillon de données réaliste soit généré.
Les modèles de diffusion diffèrent considérablement d'autres approches génératives populaires telles que les réseaux adverbiaux génératifs (GAN). Alors que les GAN impliquent un générateur et un discriminateur en compétition l'un contre l'autre, ce qui conduit souvent à une instabilité de l'apprentissage, les modèles de diffusion ont tendance à avoir une dynamique d'apprentissage plus stable. Ils permettent souvent d'obtenir une meilleure diversité et qualité d'échantillon par rapport aux GAN, bien qu'ils nécessitent généralement plus d'étapes de calcul pendant l'inférence (génération), ce qui les rend plus lents. Contrairement aux autoencodeurs variationnels (VAE), qui apprennent un espace latent compressé, les modèles de diffusion opèrent directement dans l'espace des données par le biais du processus de bruitage et de débruitage. Une variante populaire est la diffusion stable, connue pour son efficacité et ses résultats de haute qualité.
Les modèles de diffusion excellent dans les tâches nécessitant une génération haute-fidélité :
Des structures comme PyTorch et les bibliothèques telles que la bibliothèqueHugging Face Diffusers fournissent des outils et des modèles pré-entraînés, ce qui permet aux développeurs d'expérimenter et de déployer plus facilement des modèles de diffusion. Leur capacité à générer des données diverses et de haute qualité en fait un outil puissant dans l'évolution continue de l'IA générative.
Comment fonctionnent les modèles de diffusion
L'idée maîtresse comporte deux étapes :