Glossario

Incorporazione Stocastica dei Vicini distribuita a t (t-SNE)

Esplora la t-SNE, una potente tecnica per la visualizzazione di dati ad alta dimensionalità. Scopri i suoi usi, i vantaggi e le applicazioni nell'AI e nel ML.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La t-distributed Stochastic Neighbor Embedding (t-SNE) è una tecnica popolare utilizzata per la riduzione della dimensionalità, particolarmente adatta alla visualizzazione di insiemi di dati altamente dimensionali in uno spazio a bassa dimensione, tipicamente a due o tre dimensioni. Sviluppata da Laurens van der Maaten e Geoffrey Hinton, eccelle nel rivelare la struttura sottostante dei dati, come i cluster e i collettori, rendendo i dati complessi più facili da comprendere attraverso un'ispezione visiva. È ampiamente utilizzato nei campi dell'apprendimento automatico (ML) e dell'analisi dei dati.

Capire il t-SNE

L'idea alla base di t-SNE è quella di preservare la struttura locale dei dati. Modella la somiglianza tra i punti di dati ad alta dimensione come probabilità condizionali e poi cerca di trovare un incorporamento a bassa dimensione che produca una distribuzione di probabilità simile tra i punti mappati. A differenza dei metodi lineari come l'analisi delle componenti principali (PCA), t-SNE è non lineare e probabilistico. Questo le permette di catturare relazioni complesse che la PCA potrebbe non cogliere, soprattutto quando i dati si trovano su collettori curvi. Tuttavia, la PCA riesce a preservare meglio la struttura globale e la varianza dei dati.

L'algoritmo calcola le somiglianze a coppie tra punti sia in alta che in bassa dimensione. Utilizza una distribuzione gaussiana nello spazio ad alta dimensione e una distribuzione t (nello specifico, una distribuzione t di Student con un grado di libertà) nello spazio a bassa dimensione. L'uso della distribuzione t aiuta ad alleviare il "problema dell'affollamento" (in cui i punti tendono a raggrupparsi al centro della mappa) e a separare più efficacemente i punti dissimili nella mappa a bassa dimensione. Il processo consiste nel minimizzare la divergenza tra queste due distribuzioni utilizzando la discesa del gradiente. Per una spiegazione tecnica dettagliata, consulta l'articolo originale su t-SNE.

Applicazioni in AI e ML

t-SNE è principalmente una tecnica di visualizzazione, preziosa per esplorare e comprendere i dati ad alta dimensionalità generati dai modelli di intelligenza artificiale. Ecco alcuni esempi:

Considerazioni chiave

Pur essendo potente, t-SNE ha delle caratteristiche che gli utenti devono conoscere:

  • Costo computazionale: t-SNE può essere intensivo dal punto di vista computazionale, soprattutto per i set di dati molto grandi, poiché richiede il calcolo delle somiglianze a coppie.
  • Sensibilità agli iperparametri: I risultati sono sensibili agli iperparametri, in particolare alla "perplessità", che influenza il numero di vicini locali considerati per ogni punto. Spesso è necessaria un'adeguata regolazione dell'iperparametro. Implementazioni come quella di scikit-learn offrono controlli per questi parametri.
  • Interpretazione: Le dimensioni dei cluster e le distanze tra di essi nel grafico t-SNE non sempre corrispondono direttamente alle dimensioni o alle separazioni effettive dei cluster nello spazio originale ad alta dimensionalità. Il grafico rivela principalmente le somiglianze e i raggruppamenti locali. È uno strumento di esplorazione piuttosto che un'analisi di clustering definitiva come K-Means.

In sintesi, la t-SNE è uno strumento prezioso nel kit di strumenti dell'Intelligenza Artificiale (AI) per la visualizzazione e l'intuizione di insiemi di dati complessi e ad alta dimensionalità, a complemento di altri metodi analitici.

Leggi tutto