Glossario

Modelli di diffusione

Scopri come i modelli di diffusione rivoluzionano l'IA generativa creando immagini, video e dati realistici con dettagli e stabilità senza pari.

I modelli di diffusione rappresentano una potente classe di modelli generativi nell'ambito del deep learning (DL) che hanno acquisito una notevole importanza, soprattutto nella creazione di immagini, audio e altri tipi di dati complessi di alta qualità. Ispirati ai concetti della termodinamica, questi modelli funzionano aggiungendo sistematicamente del rumore ai dati e imparando poi a invertire il processo per generare nuovi campioni di dati da puro rumore. La loro capacità di produrre risultati diversi e realistici li ha resi una pietra miliare della moderna Intelligenza Artificiale (AI).

Come funzionano i modelli di diffusione

L'idea alla base dei modelli di diffusione prevede due processi: un processo in avanti (diffusione) e un processo inverso (denoising).

Processo Forward: Questa fase prende i dati reali (come un'immagine dai dati di addestramento) e aggiunge gradualmente piccole quantità di rumore casuale per molti passi. Alla fine, dopo un numero sufficiente di passaggi, l'immagine originale diventa indistinguibile dal rumore puro (come la statica su un vecchio schermo televisivo). Questo processo è fisso e non comporta alcun apprendimento.
Processo inverso: È qui che avviene l'apprendimento. Il modello, in genere un'architettura di rete neurale come una rete U, viene addestrato per annullare l'aggiunta di rumore passo dopo passo. Partendo da un rumore casuale, il modello rimuove iterativamente il rumore previsto, affinando gradualmente il campione fino a farlo assomigliare ai dati della distribuzione di formazione originale. Questo processo di denoising appreso permette al modello di generare dati completamente nuovi. Ricerche fondamentali come Denoising Diffusion Probabilistic Models (DDPM) hanno gettato molte delle basi per le moderne implementazioni.

L'addestramento consiste nell'insegnare al modello a prevedere con precisione il rumore aggiunto in ogni fase del processo di elaborazione. Imparando questo, il modello impara implicitamente la struttura sottostante dei dati.

Concetti chiave e condizionamento

I modelli di diffusione si basano su diversi concetti:

Tempi: L'aggiunta e la rimozione graduale del rumore avvengono in una serie di tempi discreti. Spesso il modello ha bisogno di sapere quale fase temporale sta elaborando.
Programma di rumore: Definisce la quantità di rumore aggiunto in ogni fase del processo di avanzamento. Programmi diversi possono avere un impatto sulla qualità della formazione e della generazione.
Condizionamento: I modelli di diffusione possono essere guidati per generare output specifici. Ad esempio, nella generazione da testo a immagine, il modello viene condizionato da descrizioni di testo (prompt) per creare immagini corrispondenti. Questo spesso coinvolge meccanismi come l'attenzione incrociata.