Glossario

Modelli di diffusione

Scopri come i modelli di diffusione rivoluzionano l'IA generativa creando immagini, video e dati realistici con dettagli e stabilità senza pari.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I modelli di diffusione sono una classe di modelli generativi nell'ambito dell'apprendimento automatico (ML) che hanno guadagnato una notevole attenzione per la loro capacità di produrre campioni diversificati e di alta qualità, in particolare nel campo della computer vision (CV). Ispirati ai concetti della termodinamica, questi modelli funzionano aggiungendo sistematicamente del rumore ai dati (come un'immagine) in un "processo in avanti" fino a farli diventare puro rumore, per poi imparare a invertire il processo. Il "processo inverso" prevede l'addestramento di una rete neurale per rimuovere gradualmente il rumore, partendo da un rumore casuale e perfezionandolo iterativamente fino a generare un campione di dati realistico.

Come funzionano i modelli di diffusione

L'idea di base prevede due fasi:

  1. Processo di diffusione in avanti: Questa fase prende un campione di dati originale (ad esempio, un'immagine) e aggiunge gradualmente una piccola quantità di rumore gaussiano in più fasi. Questo processo continua finché l'immagine originale non è indistinguibile dal rumore casuale. Questa fase è fissa e non prevede l'apprendimento.
  2. Processo di denoising inverso: È qui che avviene l'apprendimento. Un modello, in genere una sofisticata architettura di rete neurale come una U-Net, viene addestrato per prevedere il rumore aggiunto in ogni fase del processo inverso. Durante la generazione, il modello inizia con un rumore puro e utilizza le previsioni apprese per rimuovere il rumore in modo incrementale nello stesso numero di passi, invertendo di fatto la diffusione e generando un nuovo campione di dati. Questo affinamento graduale consente di creare risultati molto dettagliati.

Confronto con altri modelli generativi

I modelli di diffusione differiscono in modo significativo da altri approcci generativi popolari come le Reti Generative Avversarie (GAN). Mentre le GAN coinvolgono un generatore e un discriminatore in competizione tra loro, portando spesso all'instabilità della formazione, i modelli di diffusione tendono ad avere dinamiche di formazione più stabili. Spesso raggiungono una migliore diversità e qualità dei campioni rispetto alle GAN, anche se in genere richiedono più passaggi computazionali durante l'inferenza (generazione), rendendoli più lenti. A differenza degli autoencoder variazionali (VAE), che apprendono uno spazio latente compresso, i modelli di diffusione operano direttamente nello spazio dei dati attraverso il processo di noising e denoising. Una variante molto diffusa è la Diffusione Stabile, nota per la sua efficienza e per i suoi risultati di alta qualità.

Applicazioni dei modelli di diffusione

I modelli di diffusione eccellono nei compiti che richiedono una generazione ad alta fedeltà:

  • Sintesi testo-immagine: Modelli come Imagen diGoogle e DALL-E 2 di OpenAI utilizzano tecniche di diffusione per generare immagini dettagliate sulla base di descrizioni testuali. Gli utenti possono fornire suggerimenti e il modello crea le immagini corrispondenti.
  • Analisi delle immagini mediche: Possono essere utilizzate per compiti come la generazione di immagini mediche sintetiche per aumentare i dati di addestramento, la super-risoluzione delle immagini per migliorare la qualità delle scansioni o anche il rilevamento di anomalie imparando la distribuzione dei tessuti sani. Ad esempio, la generazione di scansioni MRI o CT realistiche può aiutare ad addestrare modelli di intelligenza artificiale diagnostica senza basarsi esclusivamente sui dati limitati dei pazienti, integrando compiti come la segmentazione delle immagini per i tumori.
  • Altre aree: La ricerca sta esplorando il loro utilizzo nella generazione di audio, nella generazione di video(come Google Veo), nella progettazione di molecole per la scoperta di farmaci e nella compressione dei dati.

Framework come PyTorch e le librerie come la libreriaHugging Face Diffusers forniscono strumenti e modelli pre-addestrati, rendendo più facile per gli sviluppatori sperimentare e distribuire modelli di diffusione. La loro capacità di generare dati diversificati e di alta qualità li rende uno strumento potente nella continua evoluzione dell'IA generativa.

Leggi tutto