L'apprendimento semi-supervisionato è una branca dell'apprendimento automatico che colma il divario tra l'apprendimento supervisionato e quello non supervisionato. Sfrutta sia i dati etichettati che quelli non etichettati per addestrare i modelli. In molti scenari del mondo reale, ottenere dati etichettati può essere costoso e richiede tempo e l'annotazione manuale da parte di esperti. I dati non etichettati, invece, sono spesso disponibili in grandi quantità. Le tecniche di apprendimento semi-supervisionato sfruttano questa abbondanza di dati non etichettati per migliorare le prestazioni dei modelli, soprattutto quando i dati etichettati sono scarsi.
Come funziona l'apprendimento semi-supervisionato
A differenza dell'apprendimento supervisionato, che si basa interamente su dati etichettati, e dell'apprendimento non supervisionato, che utilizza solo dati non etichettati, l'apprendimento semi-supervisionato li combina entrambi. L'idea di base è che i dati non etichettati contengono informazioni preziose sulla struttura sottostante della distribuzione dei dati. Incorporando queste informazioni, i modelli di apprendimento semi-supervisionato possono spesso raggiungere un'accuratezza e una generalizzazione migliori rispetto ai modelli addestrati solo su dati etichettati limitati.
Diverse tecniche rientrano nell'ambito dell'apprendimento semi-supervisionato, tra cui:
- Pseudo-etichettatura: Questo metodo prevede l'addestramento di un modello su dati etichettati e il suo utilizzo per prevedere le etichette dei dati non etichettati. Queste etichette previste, o "pseudo-etichette", vengono poi trattate come se fossero etichette vere e utilizzate per riqualificare il modello, spesso in modo iterativo.
- Regolarizzazione della coerenza: Questo approccio incoraggia il modello a produrre previsioni simili per i punti di dati non etichettati anche quando questi sono leggermente perturbati o aumentati. Per creare queste perturbazioni vengono spesso utilizzate tecniche come l'aumento dei dati.
- Metodi basati sui grafi: Questi metodi rappresentano i punti di dati come nodi di un grafo, dove i bordi collegano punti simili. Le etichette vengono poi propagate dai nodi etichettati ai nodi non etichettati in base alla struttura del grafo.
- Auto-formazione: Simile alla pseudo-etichettatura, l'auto-formazione espande iterativamente il set di dati etichettati aggiungendo previsioni ad alta affidabilità su dati non etichettati.
Applicazioni dell'apprendimento semi-supervisionato
L'apprendimento semi-supervisionato è prezioso in diversi ambiti, soprattutto quando i dati etichettati sono limitati:
- Analisi delle immagini mediche: Nell'analisi delle immagini mediche, l'acquisizione di immagini mediche etichettate per compiti come il rilevamento dei tumori o la classificazione delle malattie richiede spesso radiologi esperti, il che rende l'operazione costosa e dispendiosa in termini di tempo. L'apprendimento semi-supervisionato può aiutare ad addestrare modelli accurati utilizzando un set più piccolo di immagini etichettate insieme a un pool più ampio di scansioni non etichettate. Ad esempio, nel rilevamento dei tumori cerebrali utilizzando Ultralytics YOLO per l'individuazione degli oggetti, le tecniche semi-supervisionate possono migliorare le prestazioni del modello con dati di risonanza magnetica etichettati limitati.
- Elaborazione del linguaggio naturale (NLP): Compiti come l'analisi del sentimento o il riconoscimento di entità denominate (NER) spesso traggono vantaggio dall'apprendimento semi-supervisionato. Sono facilmente disponibili grandi quantità di dati testuali, ma l'etichettatura del testo per compiti specifici di NLP può essere laboriosa. I metodi semi-supervisionati possono sfruttare il testo non etichettato per migliorare la comprensione delle sfumature linguistiche e del contesto da parte dei modelli.
- Riconoscimento vocale: Analogamente all'NLP, i sistemi di riconoscimento vocale possono trarre vantaggio da grandi quantità di dati audio non etichettati. L'apprendimento semi-supervisionato aiuta a costruire modelli robusti che generalizzano bene anche con dati vocali etichettati limitati.
- Classificazione di immagini e rilevamento di oggetti: In compiti di computer vision come la classificazione di immagini e il rilevamento di oggetti, l'apprendimento semi-supervisionato può essere utilizzato per migliorare le prestazioni di modelli come Ultralytics YOLOv8 quando vengono addestrati su set di dati in cui solo una parte delle immagini è annotata con caselle di delimitazione o etichette. Ultralytics HUB può essere utilizzato per gestire i dataset e addestrare i modelli e l'apprendimento semi-supervisionato può essere integrato per ottimizzare l'addestramento con dati etichettati limitati.
Vantaggi dell'apprendimento semi-supervisionato
- Miglioramento dell'accuratezza: utilizzando dati non etichettati, l'apprendimento semi-supervisionato può spesso portare a modelli con un'accuratezza maggiore rispetto all'apprendimento supervisionato con dati etichettati limitati.
- Riduzione dei costi di etichettatura: Riduce significativamente la necessità di etichettare manualmente i dati, risparmiando tempo e risorse.
- Migliore generalizzazione: L'addestramento con dati etichettati e non etichettati può aiutare i modelli ad apprendere rappresentazioni più robuste e generalizzabili, con conseguenti migliori prestazioni su dati non visti.
L'apprendimento semi-supervisionato offre un approccio potente all'apprendimento automatico, soprattutto negli scenari in cui i dati etichettati rappresentano un ostacolo. Sfruttando efficacemente la ricchezza di dati non etichettati disponibili, consente di sviluppare sistemi di intelligenza artificiale più accurati ed efficienti in un'ampia gamma di applicazioni.