Esplora lo Zero-Shot Learning (ZSL) per detect classify senza dati di addestramento. Scopri come Ultralytics YOLO consente il rilevamento in tempo reale con vocabolario aperto.
Lo Zero-Shot Learning (ZSL) è un paradigma di apprendimento automatico che consente ai modelli di intelligenza artificiale di riconoscere, classify o detect che non hanno mai incontrato durante la fase di addestramento. Nell'apprendimento supervisionato tradizionale, un modello richiede migliaia di esempi etichettati per ogni categoria specifica che deve identificare. Lo ZSL elimina questa rigida dipendenza sfruttando informazioni ausiliarie, tipicamente descrizioni testuali, attributi semantici o incorporamenti, per colmare il divario tra classi visibili e invisibili . Questa capacità consente ai sistemi di intelligenza artificiale (AI) di essere significativamente più flessibili, scalabili e in grado di gestire ambienti dinamici in cui la raccolta di dati esaustivi per ogni possibile oggetto è impraticabile.
Il meccanismo principale dello ZSL consiste nel trasferire la conoscenza da concetti familiari a concetti sconosciuti utilizzando uno spazio semantico condiviso . Invece di imparare a riconoscere una "zebra" solo memorizzando i modelli di pixel delle strisce bianche e nere , il modello apprende la relazione tra caratteristiche visive e attributi semantici (ad esempio, "forma simile a un cavallo", "motivo a strisce", "quattro zampe") derivati dall' elaborazione del linguaggio naturale (NLP).
Questo processo spesso si basa su modelli multimodali che allineano le rappresentazioni di immagini e testo . Ad esempio, ricerche fondamentali come CLIP di OpenAI dimostrano come i modelli possano apprendere concetti visivi dalla supervisione del linguaggio naturale. Quando un modello ZSL incontra un oggetto mai visto prima, estrae le caratteristiche visive e le confronta con un dizionario di vettori semantici. Se le caratteristiche visive sono in linea con la descrizione semantica della nuova classe, il modello può classify correttamente, eseguendo efficacemente una previsione "zero-shot". Questo approccio è fondamentale per i moderni modelli di base che generalizzano su una vasta gamma di compiti.
L'apprendimento zero-shot sta guidando l'innovazione in vari settori consentendo ai sistemi di generalizzare al di là dei loro dati di addestramento iniziali.
Il modello YOLOUltralytics è un esempio di Zero-Shot Learning in azione. Consente agli utenti di definire classi personalizzate in modo dinamico durante l'esecuzione senza dover riqualificare il modello. Ciò è possibile grazie al collegamento di una solida struttura di rilevamento con un codificatore di testo in grado di comprendere il linguaggio naturale.
Il seguente Python mostra come utilizzare YOLO per detect che non facevano esplicitamente parte di un
set di addestramento standard utilizzando il ultralytics pacchetto.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Per comprendere appieno la ZSL, è utile distinguerla da strategie di apprendimento simili utilizzate in visione artificiale (CV):
Sebbene lo ZSL offra un potenziale immenso, deve affrontare sfide come il problema del cambiamento di dominio, in cui gli attributi semantici appresi durante l'addestramento non corrispondono perfettamente all'aspetto visivo delle classi non viste. Inoltre, i modelli ZSL possono soffrire di distorsioni, in cui l'accuratezza delle previsioni è significativamente più alta per le classi viste rispetto a quelle non viste.
La ricerca condotta da organizzazioni come l'AI Lab della Stanford University e l' IEEE Computer Society continua ad affrontare questi limiti. Man mano che gli strumenti di visione artificiale diventano più robusti, si prevede che lo ZSL diventerà una funzionalità standard, riducendo la dipendenza da massicci sforzi di etichettatura dei dati. Per i team che desiderano gestire i set di dati in modo efficiente prima di implementare modelli avanzati, Ultralytics offre strumenti completi per l'annotazione e la gestione dei set di dati.