Scopri come l'apprendimento semi-supervisionato combina dati etichettati e non etichettati per migliorare i modelli di intelligenza artificiale, ridurre i costi di etichettatura e aumentare la precisione.
L'apprendimento semi-supervisionato (SSL) rappresenta una potente via di mezzo nel Machine Learning (ML), in quanto combina una piccola quantità di dati etichettati con una grande quantità di dati non etichettati durante l'addestramento. Questo approccio è particolarmente utile negli scenari in cui l'acquisizione di dati etichettati è costosa, lunga o poco pratica, mentre i dati non etichettati sono abbondanti. L'SSL mira a sfruttare la struttura sottostante dei dati non etichettati per migliorare le prestazioni del modello al di là di quanto si potrebbe ottenere utilizzando solo i limitati dati etichettati, rendendola una tecnica pratica per molti problemi di Intelligenza Artificiale (IA) del mondo reale.
Gli algoritmi SSL funzionano facendo alcune ipotesi sulla relazione tra i dati etichettati e quelli non etichettati. Le ipotesi più comuni includono l'"ipotesi di omogeneità" (è probabile che punti vicini tra loro condividano un'etichetta) o l'"ipotesi di cluster" (i dati tendono a formare cluster distinti e i punti all'interno dello stesso cluster probabilmente condividono un'etichetta). Le tecniche spesso prevedono l'addestramento di un modello iniziale sui dati etichettati e il suo utilizzo per generare pseudo-etichette per i dati non etichettati sulla base di previsioni ad alta affidabilità. Il modello viene poi riaddestrato sia sui dati etichettati originali che sui nuovi dati pseudo-etichettati. Un altro approccio è la regolarizzazione della coerenza, in cui il modello è incoraggiato a produrre lo stesso output per un esempio non etichettato anche se il suo input è leggermente perturbato, spesso ottenuto attraverso l'aumento dei dati. Questi metodi permettono al modello di apprendere dai modelli e dalla distribuzione insiti nell'ampio pool di campioni non etichettati. Tecniche più avanzate sono esplorate in risorse come i post del Google AI Blog su SSL.
L'apprendimento semi-supervisionato occupa uno spazio unico tra gli altri tipi di apprendimento primario:
L'SSL è molto efficace nei domini in cui l'etichettatura è un collo di bottiglia:
Il vantaggio principale della SSL è la sua capacità di ridurre la dipendenza da grandi set di dati etichettati, risparmiando tempo e risorse associate all'etichettatura dei dati. Spesso porta a una migliore generalizzazione del modello rispetto ai modelli puramente supervisionati addestrati su dati limitati, sfruttando le informazioni dei campioni non etichettati. Tuttavia, il successo della SSL dipende in larga misura dalla correttezza delle ipotesi di base sui dati. Se questi presupposti non sono validi (ad esempio, la distribuzione dei dati non etichettati è molto diversa da quella dei dati etichettati), i metodi SSL potrebbero addirittura peggiorare le prestazioni. Un'attenta selezione e implementazione delle tecniche SSL è fondamentale e spesso richiede competenze nelle pratiche MLOps.
Molti moderni framework di Deep Learning (DL), tra cui PyTorchPyTorch sito ufficiale diPyTorch ) e TensorFlowTensorFlow sito ufficiale diTensorFlow ), offrono funzionalità o possono essere adattati per implementare algoritmi SSL. Librerie come Scikit-learn forniscono alcuni metodi SSL. Piattaforme come Ultralytics HUB semplificano il processo facilitando la gestione di datasetUltralytics documentazioneUltralytics HUB Datasets) che possono contenere miscele di dati etichettati e non etichettati, semplificando l'addestramentoUltralytics HUB Cloud Training) e la distribuzione(guida alle opzioni di distribuzione dei modelli) di modelli progettati per sfruttare tali strutture di dati. La ricerca in SSL continua ad evolversi e i contributi vengono spesso presentati alle principali conferenze sull'intelligenza artificiale come NeurIPS e ICML.