Glossario

Apprendimento a colpo zero

Scopri l'Apprendimento Zero-Shot: un approccio AI all'avanguardia che consente ai modelli di classificare dati non visti, rivoluzionando il rilevamento di oggetti, l'NLP e molto altro ancora.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Lo Zero-Shot Learning (ZSL) è un'area affascinante del Machine Learning (ML) in cui un modello viene addestrato a riconoscere oggetti o concetti che non ha mai visto esplicitamente durante l'addestramento. A differenza dei tradizionali metodi di apprendimento supervisionato che richiedono numerosi esempi etichettati per ogni possibile categoria, lo ZSL permette ai modelli di fare previsioni su classi non viste sfruttando le informazioni ausiliarie che descrivono queste nuove classi. Questa capacità è fondamentale per costruire sistemi di Intelligenza Artificiale (IA) più adattabili e scalabili, soprattutto nei domini in cui ottenere dati etichettati per ogni possibile categoria è impraticabile o impossibile.

Come funziona l'apprendimento a colpo zero

L'idea alla base di ZSL è quella di colmare il divario tra classi viste e non viste utilizzando uno spazio semantico condiviso. Questo spazio spesso si basa su descrizioni di alto livello, attributi o incorporazioni derivate da testi o basi di conoscenza. Durante l'addestramento, il modello impara una mappatura tra i dati di input (come immagini o testi) e questo spazio semantico, utilizzando solo esempi delle classi "viste". Ad esempio, un modello potrebbe imparare ad associare le immagini di cavalli e tigri (classi viste) con gli attributi corrispondenti (ad esempio, "ha gli zoccoli", "ha le strisce", "è un mammifero").

Quando viene presentata un'istanza di una classe non vista (ad esempio, una zebra), il modello estrae le sue caratteristiche e le mappa nello spazio semantico appreso. Quindi confronta questa mappatura con le descrizioni semantiche delle classi non viste (ad esempio, gli attributi "ha le strisce", "ha gli zoccoli", "è un mammifero" che descrivono una zebra). La classe la cui descrizione semantica è più vicina in questo spazio viene scelta come predizione. Questo processo spesso coinvolge tecniche di deep learning (DL), utilizzando architetture come le reti neurali convoluzionali (CNN) per l'estrazione delle caratteristiche e funzioni di mappatura per mettere in relazione le caratteristiche visive con gli attributi semantici, a volte sfruttando i concetti dei Vision Transformers (ViT) o modelli come CLIP.

Differenze chiave rispetto a concetti simili

È importante distinguere lo ZSL dai paradigmi di apprendimento correlati:

  • Apprendimento a pochi colpi (FSL): L'FSL mira ad apprendere nuovi concetti da un numero molto ridotto di esempi etichettati (ad esempio, da 1 a 5) per classe, mentre lo ZSL richiede zero esempi etichettati per le classi di destinazione. Per saperne di più sulla comprensione di Few-Shot, Zero-Shot e Transfer Learning.
  • Apprendimento One-Shot (OSL): Un caso specifico di FSL in cui viene fornito esattamente un esempio etichettato per ogni nuova classe.
  • Apprendimento per trasferimento: Un concetto più ampio in cui la conoscenza acquisita da un compito viene applicata a un compito diverso ma correlato. Lo ZSL è una forma di apprendimento di trasferimento, ma si concentra in particolare sul trasferimento di conoscenze (spesso tramite attributi semantici) per riconoscere classi completamente sconosciute. Modelli come Ultralytics YOLOv8 utilizzano spesso l'apprendimento per trasferimento da grandi insiemi di dati come COCO per l'addestramento personalizzato.
  • Apprendimento auto-supervisionato (SSL): I modelli SSL apprendono le rappresentazioni da dati non etichettati creando compiti di pre-addestramento (ad esempio, prevedendo parti mascherate di un input). Sebbene sia utile per il pre-training, SSL non gestisce intrinsecamente le classi non etichettate senza meccanismi aggiuntivi come quelli utilizzati in ZSL.

Applicazioni del mondo reale

ZSL ha un potenziale significativo in vari campi:

  1. Computer Vision (CV) - Riconoscimento di oggetti a grana fine: Identificare specie rare di animali, piante o modelli di prodotti specifici in immagini in cui i dati di addestramento sono scarsi. Ad esempio, un sistema addestrato sugli uccelli comuni potrebbe identificare una specie rara sulla base di una descrizione testuale del piumaggio, della forma del becco e dell'habitat, anche senza esempi visivi precedenti. Questo estende le capacità al di là del rilevamento di oggetti standard o della classificazione di immagini addestrate solo su classi viste. Modelli come YOLO si basano su idee simili per il rilevamento del vocabolario aperto.
  2. Elaborazione del linguaggio naturale (NLP) - Identificazione di argomenti e riconoscimento di intenti: Classificazione di documenti, e-mail o query degli utenti in nuovi argomenti o intenti emergenti non presenti nel set di dati di addestramento iniziale. Ad esempio, un chatbot per l'assistenza clienti potrebbe classificare una domanda relativa a una nuova funzionalità di un prodotto appena lanciato utilizzando la descrizione della funzionalità stessa, senza bisogno di esempi di formazione espliciti di tali domande. Questo sfrutta la potenza dei modelli linguistici di grandi dimensioni (LLM) come il GPT-4.

Sfide e direzioni future

Nonostante le sue promesse, lo ZSL deve affrontare sfide come il problema dell'hubness (in cui alcuni punti dello spazio semantico diventano vicini a molti punti) e il domain shift (in cui la relazione tra caratteristiche e attributi differisce tra classi viste e non viste). La ricerca continua a esplorare embeddings semantici più robusti, migliori funzioni di mappatura e tecniche come il Generalized Zero-Shot Learning (GZSL), che mira a riconoscere sia le classi viste che quelle non viste durante l'inferenza. Lo sviluppo di piattaforme come Ultralytics HUB potrebbe facilitare l'integrazione e l'implementazione delle funzionalità ZSL nelle applicazioni pratiche di IA della visione. Ulteriori progressi potrebbero trarre ispirazione da modelli multimodali che collegano intrinsecamente visione e linguaggio.

Leggi tutto