Glossario

Apprendimento semi-supervisionato

Scopri come l'apprendimento semi-supervisionato combina dati etichettati e non etichettati per migliorare i modelli di intelligenza artificiale, ridurre i costi di etichettatura e aumentare la precisione.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'apprendimento semi-supervisionato (SSL) è un tipo di tecnica di apprendimento automatico (ML) che si colloca tra l'apprendimento supervisionato e l'apprendimento non supervisionato. Utilizza una combinazione di una piccola quantità di dati etichettati e una grande quantità di dati non etichettati per addestrare i modelli. La motivazione principale che sta alla base della SSL è l'elevato costo e lo sforzo spesso associato all'etichettatura dei dati, soprattutto in domini complessi. Sfruttando i dati non etichettati prontamente disponibili, SSL mira a migliorare le prestazioni e la generalizzazione dei modelli rispetto a quanto si potrebbe ottenere utilizzando solo i limitati dati etichettati.

Come funziona l'apprendimento semi-supervisionato

Il principio fondamentale dell'apprendimento semi-supervisionato è che i dati non etichettati, nonostante la mancanza di etichette esplicite, contengono informazioni preziose sulla struttura e sulla distribuzione sottostante dei dati. Gli algoritmi SSL cercano di sfruttare questa struttura per migliorare il processo di apprendimento. Gli approcci più comuni spesso prevedono la formulazione di ipotesi sui dati, come l'ipotesi del cluster (è probabile che i punti dello stesso cluster abbiano la stessa etichetta) o l'ipotesi del collettore (i punti dei dati si trovano su un collettore a bassa dimensione).

Le tecniche utilizzate in SSL includono metodi come la pseudo-etichettatura, in cui un modello addestrato sui dati etichettati iniziali viene utilizzato per prevedere le etichette dei dati non etichettati. Le previsioni ad alta affidabilità vengono poi trattate come "pseudo-etichette" e aggiunte al set di formazione. Un altro approccio prevede la regolarizzazione della coerenza, che incoraggia il modello a produrre output simili per versioni perturbate dello stesso input non etichettato, spesso ottenute attraverso tecniche come l'aumento dei dati. Questi metodi aiutano il modello ad apprendere caratteristiche più robuste utilizzando il vasto set di dati non etichettati. Puoi trovare una buona panoramica della SSL su Towards Data Science.

Applicazioni ed esempi

L'apprendimento semi-supervisionato è particolarmente utile negli scenari in cui l'ottenimento di dati etichettati è un collo di bottiglia. Alcune aree di applicazione chiave includono:

  • Classificazione delle immagini: Addestramento di un modello per classificare le immagini (ad esempio, utilizzando set di dati come CIFAR-10) in cui solo una piccola parte delle immagini è etichettata manualmente, ma milioni di immagini non etichettate sono disponibili sul web.
  • Analisi delle immagini mediche: Migliorare i modelli diagnostici addestrandosi su alcune scansioni mediche annotate da esperti insieme a un gruppo più ampio di scansioni non annotate. Questo può migliorare compiti come il rilevamento dei tumori.
  • Classificazione delle pagine web: Classificare le pagine web utilizzando un piccolo insieme di pagine classificate manualmente e un vasto numero di pagine non classificate raccolte da internet. Vedi un primo esempio di ricerca sulla classificazione dei contenuti web.
  • Riconoscimento del parlato: Costruire sistemi che utilizzano una quantità limitata di dati audio trascritti combinati con grandi volumi di parlato non trascritto.
  • Elaborazione del linguaggio naturale (NLP): Migliorare compiti come l'analisi del sentimento o la classificazione dei testi sfruttando grandi corpora di testo non etichettati insieme a piccoli dataset etichettati.

Distinzione dai concetti correlati

È importante distinguere l'apprendimento semi-supervisionato dai paradigmi di ML correlati:

  • Apprendimento supervisionato: Si basa interamente su dati completamente etichettati per l'addestramento. SSL utilizza sia dati etichettati che non etichettati.
  • Apprendimento non supervisionato: Utilizza solo dati non etichettati, in genere per compiti come il clustering o la riduzione della dimensionalità, senza prevedere etichette predefinite. L'SSL utilizza dati non etichettati per migliorare un compito supervisionato.
  • Apprendimento auto-supervisionato: Utilizza anch'esso dati non etichettati, ma genera segnali di supervisione dai dati stessi (ad esempio, la previsione di una parola mascherata, la colorazione di un'immagine). Viene spesso utilizzato per la pre-formazione di modelli che vengono poi perfezionati su dati etichettati, mentre l'SSL incorpora tipicamente entrambi i tipi di dati durante la fase di formazione principale.

Vantaggi dell'apprendimento semi-supervisionato

  • Riduzione dei costi di etichettatura: riduce significativamente la necessità di annotare manualmente i dati in modo costoso e dispendioso in termini di tempo.
  • Miglioramento dell 'accuratezza: Può portare a una maggiore accuratezza del modello rispetto all'addestramento solo su piccoli set di dati etichettati, sfruttando le informazioni dei dati non etichettati.
  • Generalizzazione migliorata: I modelli addestrati con SSL spesso generalizzano meglio a nuovi dati non visti grazie all'apprendimento delle strutture dati sottostanti.
  • Sfrutta l'abbondanza di dati: Utilizza in modo efficace le grandi quantità di dati non etichettati disponibili in molte applicazioni reali.

L'apprendimento semi-supervisionato offre un approccio pratico e potente per la creazione di sistemi di Intelligenza Artificiale (IA) efficaci, in particolare in compiti di computer vision come il rilevamento di oggetti in cui le immagini o i video non etichettati sono abbondanti. Piattaforme come Ultralytics HUB facilitano la gestione di insiemi di dati che potrebbero includere mix di dati etichettati e non etichettati per l'addestramento di modelli quali Ultralytics YOLO. L'esplorazione delle tecniche SSL può essere fondamentale per i progetti che devono affrontare limitazioni nella disponibilità di dati etichettati, come evidenziato in risorse come i post del Google AI Blog sull'SSL.

Leggi tutto