Glossario

Apprendimento non supervisionato

Scopri come l'apprendimento non supervisionato utilizza il clustering, la riduzione della dimensionalità e il rilevamento delle anomalie per scoprire modelli nascosti nei dati.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'apprendimento non supervisionato è una categoria di apprendimento automatico (ML) in cui gli algoritmi vengono addestrati su dati che non hanno etichette o categorie predefinite. A differenza dell'apprendimento supervisionato, l'obiettivo non è quello di prevedere un risultato noto in base alle caratteristiche dell'input. Al contrario, il sistema cerca di apprendere da solo la struttura sottostante, i modelli e le relazioni all'interno dei dati. È come dare a un computer una grande collezione di oggetti non ordinati e chiedergli di trovare raggruppamenti naturali o caratteristiche interessanti senza dirgli cosa cercare. Questo approccio è fondamentale per esplorare insiemi di dati complessi e scoprire intuizioni che potrebbero non essere evidenti in precedenza, costituendo una parte fondamentale della moderna Intelligenza Artificiale (IA).

Come funziona l'apprendimento non supervisionato

Nell'apprendimento non supervisionato, l'algoritmo esamina i dati in ingresso e cerca di identificare somiglianze, differenze o correlazioni tra di essi. Durante la fase di addestramento non vengono fornite risposte "corrette" o output mirati. Gli algoritmi devono dedurre la struttura intrinseca presente nei dati. Spesso si tratta di organizzare i punti di dati in gruppi(clustering), ridurre la complessità dei dati(riduzione della dimensionalità) o identificare punti di dati insoliti(rilevamento di anomalie). Il successo dei metodi non supervisionati si basa spesso sulla capacità dell'algoritmo di catturare le proprietà intrinseche del set di dati senza una guida esterna.

Tecniche e concetti chiave

Diverse tecniche rientrano nell'ambito dell'apprendimento non supervisionato:

  • Raggruppamento: Si tratta di raggruppare punti di dati simili in base a determinate caratteristiche. L'obiettivo è quello di creare dei cluster in cui gli elementi all'interno di un cluster siano altamente simili e gli elementi in cluster diversi siano dissimili. Gli algoritmi più comuni sono K-Means Clustering e DBSCAN. È utile per attività come la segmentazione dei clienti o l'organizzazione di grandi raccolte di documenti.
  • Riduzione della dimensionalità: Queste tecniche mirano a ridurre il numero di variabili di input (caratteristiche) in un set di dati preservando le informazioni essenziali. Questo semplifica i modelli, riduce i costi computazionali e può aiutare la visualizzazione dei dati. I metodi più diffusi includono l'analisi delle componenti principali (PCA) e il t-Distributed Stochastic Neighbor Embedding (t-SNE).
  • Apprendimento di regole di associazione: Scopre relazioni interessanti o regole di associazione tra variabili in grandi insiemi di dati. Un esempio classico è l'analisi del paniere di mercato, che identifica gli articoli acquistati frequentemente insieme. Algoritmi come Apriori sono comunemente utilizzati in questo caso. Per saperne di più sull'estrazione di regole di associazione.
  • Rilevamento delle anomalie: Questa tecnica si concentra sull'identificazione dei punti di dati che si discostano in modo significativo dalla maggior parte dei dati. È ampiamente utilizzata per il rilevamento delle frodi, la sicurezza delle reti e l'identificazione di difetti nella produzione.
  • Modelli generativi: Alcuni modelli non supervisionati, come le reti avversarie generative (GAN) o gli autoencoder, possono apprendere la distribuzione dei dati sottostanti per generare nuovi campioni di dati che assomigliano ai dati originali.

Applicazioni del mondo reale

L'apprendimento non supervisionato ha varie applicazioni in diversi campi:

Confronto con altri paradigmi di apprendimento

L'apprendimento non supervisionato si differenzia in modo significativo dagli altri approcci di ML:

L'apprendimento non supervisionato è un potente strumento per l'esplorazione dei dati, la scoperta di strutture nascoste e l'estrazione di caratteristiche preziose, spesso come primo passo fondamentale in complesse pipeline di analisi dei dati o come complemento di altre tecniche di ML. Piattaforme come Ultralytics HUB forniscono ambienti in cui possono essere sviluppati e gestiti vari modelli di ML, che potenzialmente incorporano tecniche non supervisionate per la preparazione o l'analisi dei dati. Framework come PyTorch e TensorFlow offrono ampie librerie che supportano l'implementazione di algoritmi non supervisionati.

Leggi tutto