Glossario

Apprendimento semi-supervisionato

Scopri come l'apprendimento semi-supervisionato combina dati etichettati e non etichettati per migliorare i modelli di intelligenza artificiale, ridurre i costi di etichettatura e aumentare la precisione.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'apprendimento semi-supervisionato è una branca dell'apprendimento automatico che colma il divario tra l'apprendimento supervisionato e quello non supervisionato. Sfrutta sia i dati etichettati che quelli non etichettati per addestrare i modelli. In molti scenari del mondo reale, ottenere dati etichettati può essere costoso e richiede tempo e l'annotazione manuale da parte di esperti. I dati non etichettati, invece, sono spesso disponibili in grandi quantità. Le tecniche di apprendimento semi-supervisionato sfruttano questa abbondanza di dati non etichettati per migliorare le prestazioni dei modelli, soprattutto quando i dati etichettati sono scarsi.

Come funziona l'apprendimento semi-supervisionato

A differenza dell'apprendimento supervisionato, che si basa interamente su dati etichettati, e dell'apprendimento non supervisionato, che utilizza solo dati non etichettati, l'apprendimento semi-supervisionato li combina entrambi. L'idea di base è che i dati non etichettati contengono informazioni preziose sulla struttura sottostante della distribuzione dei dati. Incorporando queste informazioni, i modelli di apprendimento semi-supervisionato possono spesso raggiungere un'accuratezza e una generalizzazione migliori rispetto ai modelli addestrati solo su dati etichettati limitati.

Diverse tecniche rientrano nell'ambito dell'apprendimento semi-supervisionato, tra cui:

  • Pseudo-etichettatura: Questo metodo prevede l'addestramento di un modello su dati etichettati e il suo utilizzo per prevedere le etichette dei dati non etichettati. Queste etichette previste, o "pseudo-etichette", vengono poi trattate come se fossero etichette vere e utilizzate per riqualificare il modello, spesso in modo iterativo.
  • Regolarizzazione della coerenza: Questo approccio incoraggia il modello a produrre previsioni simili per i punti di dati non etichettati anche quando questi sono leggermente perturbati o aumentati. Per creare queste perturbazioni vengono spesso utilizzate tecniche come l'aumento dei dati.
  • Metodi basati sui grafi: Questi metodi rappresentano i punti di dati come nodi di un grafo, dove i bordi collegano punti simili. Le etichette vengono poi propagate dai nodi etichettati ai nodi non etichettati in base alla struttura del grafo.
  • Auto-formazione: Simile alla pseudo-etichettatura, l'auto-formazione espande iterativamente il set di dati etichettati aggiungendo previsioni ad alta affidabilità su dati non etichettati.

Applicazioni dell'apprendimento semi-supervisionato

L'apprendimento semi-supervisionato è prezioso in diversi ambiti, soprattutto quando i dati etichettati sono limitati:

  • Analisi delle immagini mediche: Nell'analisi delle immagini mediche, l'acquisizione di immagini mediche etichettate per compiti come il rilevamento dei tumori o la classificazione delle malattie richiede spesso radiologi esperti, il che rende l'operazione costosa e dispendiosa in termini di tempo. L'apprendimento semi-supervisionato può aiutare ad addestrare modelli accurati utilizzando un set più piccolo di immagini etichettate insieme a un pool più ampio di scansioni non etichettate. Ad esempio, nel rilevamento dei tumori cerebrali utilizzando Ultralytics YOLO per l'individuazione degli oggetti, le tecniche semi-supervisionate possono migliorare le prestazioni del modello con dati di risonanza magnetica etichettati limitati.
  • Elaborazione del linguaggio naturale (NLP): Compiti come l'analisi del sentimento o il riconoscimento di entità denominate (NER) spesso traggono vantaggio dall'apprendimento semi-supervisionato. Sono facilmente disponibili grandi quantità di dati testuali, ma l'etichettatura del testo per compiti specifici di NLP può essere laboriosa. I metodi semi-supervisionati possono sfruttare il testo non etichettato per migliorare la comprensione delle sfumature linguistiche e del contesto da parte dei modelli.
  • Riconoscimento vocale: Analogamente all'NLP, i sistemi di riconoscimento vocale possono trarre vantaggio da grandi quantità di dati audio non etichettati. L'apprendimento semi-supervisionato aiuta a costruire modelli robusti che generalizzano bene anche con dati vocali etichettati limitati.
  • Classificazione di immagini e rilevamento di oggetti: In compiti di computer vision come la classificazione di immagini e il rilevamento di oggetti, l'apprendimento semi-supervisionato può essere utilizzato per migliorare le prestazioni di modelli come Ultralytics YOLOv8 quando vengono addestrati su set di dati in cui solo una parte delle immagini è annotata con caselle di delimitazione o etichette. Ultralytics HUB può essere utilizzato per gestire i dataset e addestrare i modelli e l'apprendimento semi-supervisionato può essere integrato per ottimizzare l'addestramento con dati etichettati limitati.

Vantaggi dell'apprendimento semi-supervisionato

  • Miglioramento dell'accuratezza: utilizzando dati non etichettati, l'apprendimento semi-supervisionato può spesso portare a modelli con un'accuratezza maggiore rispetto all'apprendimento supervisionato con dati etichettati limitati.
  • Riduzione dei costi di etichettatura: Riduce significativamente la necessità di etichettare manualmente i dati, risparmiando tempo e risorse.
  • Migliore generalizzazione: L'addestramento con dati etichettati e non etichettati può aiutare i modelli ad apprendere rappresentazioni più robuste e generalizzabili, con conseguenti migliori prestazioni su dati non visti.

L'apprendimento semi-supervisionato offre un approccio potente all'apprendimento automatico, soprattutto negli scenari in cui i dati etichettati rappresentano un ostacolo. Sfruttando efficacemente la ricchezza di dati non etichettati disponibili, consente di sviluppare sistemi di intelligenza artificiale più accurati ed efficienti in un'ampia gamma di applicazioni.

Leggi tutto