Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Apprendimento Zero-Shot

Esplora lo Zero-Shot Learning (ZSL) per detect classify senza dati di addestramento. Scopri come Ultralytics YOLO consente il rilevamento in tempo reale con vocabolario aperto.

Lo Zero-Shot Learning (ZSL) è un paradigma di apprendimento automatico che consente ai modelli di intelligenza artificiale di riconoscere, classify o detect che non hanno mai incontrato durante la fase di addestramento. Nell'apprendimento supervisionato tradizionale, un modello richiede migliaia di esempi etichettati per ogni categoria specifica che deve identificare. Lo ZSL elimina questa rigida dipendenza sfruttando informazioni ausiliarie, tipicamente descrizioni testuali, attributi semantici o incorporamenti, per colmare il divario tra classi visibili e invisibili . Questa capacità consente ai sistemi di intelligenza artificiale (AI) di essere significativamente più flessibili, scalabili e in grado di gestire ambienti dinamici in cui la raccolta di dati esaustivi per ogni possibile oggetto è impraticabile.

Come funziona l'apprendimento a colpo zero

Il meccanismo principale dello ZSL consiste nel trasferire la conoscenza da concetti familiari a concetti sconosciuti utilizzando uno spazio semantico condiviso . Invece di imparare a riconoscere una "zebra" solo memorizzando i modelli di pixel delle strisce bianche e nere , il modello apprende la relazione tra caratteristiche visive e attributi semantici (ad esempio, "forma simile a un cavallo", "motivo a strisce", "quattro zampe") derivati dall' elaborazione del linguaggio naturale (NLP).

Questo processo spesso si basa su modelli multimodali che allineano le rappresentazioni di immagini e testo . Ad esempio, ricerche fondamentali come CLIP di OpenAI dimostrano come i modelli possano apprendere concetti visivi dalla supervisione del linguaggio naturale. Quando un modello ZSL incontra un oggetto mai visto prima, estrae le caratteristiche visive e le confronta con un dizionario di vettori semantici. Se le caratteristiche visive sono in linea con la descrizione semantica della nuova classe, il modello può classify correttamente, eseguendo efficacemente una previsione "zero-shot". Questo approccio è fondamentale per i moderni modelli di base che generalizzano su una vasta gamma di compiti.

Applicazioni nel mondo reale

L'apprendimento zero-shot sta guidando l'innovazione in vari settori consentendo ai sistemi di generalizzare al di là dei loro dati di addestramento iniziali.

  1. Rilevamento di oggetti con vocabolario aperto: architetture moderne come YOLO utilizzano ZSL per detect sulla base di prompt di testo definiti dall'utente. Ciò consente il rilevamento di oggetti in scenari in cui è impossibile definire in anticipo un elenco fisso di classi, come la ricerca di elementi specifici in vasti archivi video. I ricercatori di Google continuano a spingere i confini di queste capacità di vocabolario aperto.
  2. Diagnostica medica: nell' ambito dell'intelligenza artificiale in campo sanitario, ottenere dati etichettati per le malattie rare è spesso difficile e costoso. I modelli ZSL possono essere addestrati su condizioni comuni e descrizioni di sintomi rari tratti dalla letteratura medica presente in database come PubMed, consentendo al sistema di segnalare potenziali anomalie rare nelle immagini mediche senza richiedere un enorme set di dati di casi positivi.
  3. Conservazione della fauna selvatica: per l' intelligenza artificiale in agricoltura ed ecologia, è fondamentale identificare le specie in via di estinzione che vengono fotografate raramente. ZSL consente agli ambientalisti di detect animali utilizzando descrizioni basate su attributi definiti in database biologici come l' Encyclopedia of Life.

Rilevamento di zero colpi con Ultralytics

Il modello YOLOUltralytics è un esempio di Zero-Shot Learning in azione. Consente agli utenti di definire classi personalizzate in modo dinamico durante l'esecuzione senza dover riqualificare il modello. Ciò è possibile grazie al collegamento di una solida struttura di rilevamento con un codificatore di testo in grado di comprendere il linguaggio naturale.

Il seguente Python mostra come utilizzare YOLO per detect che non facevano esplicitamente parte di un set di addestramento standard utilizzando il ultralytics pacchetto.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Distinzione dai concetti correlati

Per comprendere appieno la ZSL, è utile distinguerla da strategie di apprendimento simili utilizzate in visione artificiale (CV):

  • Apprendimento con pochi esempi (FSL): mentre lo ZSL non richiede esempi della classe di destinazione, l'FSL fornisce al modello un insieme di supporto molto ridotto (in genere da 1 a 5 esempi) per l'adattamento. Lo ZSL è generalmente considerato più impegnativo in quanto si basa interamente sull'inferenza semantica piuttosto che su esempi visivi.
  • Apprendimento one-shot: Un sottoinsieme di FSL in cui il modello apprende da un solo esempio etichettato. ZSL si differenzia fondamentalmente per il fatto che opera senza anche una sola immagine della nuova categoria.
  • Apprendimento per trasferimento: Questo termine ampio termine si riferisce al trasferimento di conoscenze da un compito a un altro. Lo ZSL è un tipo specifico di apprendimento di trasferimento che che utilizza gli attributi semantici per trasferire la conoscenza a classi non viste, senza la necessità di un tradizionale di messa a punto tradizionale su nuovi dati.

Sfide e prospettive future

Sebbene lo ZSL offra un potenziale immenso, deve affrontare sfide come il problema del cambiamento di dominio, in cui gli attributi semantici appresi durante l'addestramento non corrispondono perfettamente all'aspetto visivo delle classi non viste. Inoltre, i modelli ZSL possono soffrire di distorsioni, in cui l'accuratezza delle previsioni è significativamente più alta per le classi viste rispetto a quelle non viste.

La ricerca condotta da organizzazioni come l'AI Lab della Stanford University e l' IEEE Computer Society continua ad affrontare questi limiti. Man mano che gli strumenti di visione artificiale diventano più robusti, si prevede che lo ZSL diventerà una funzionalità standard, riducendo la dipendenza da massicci sforzi di etichettatura dei dati. Per i team che desiderano gestire i set di dati in modo efficiente prima di implementare modelli avanzati, Ultralytics offre strumenti completi per l'annotazione e la gestione dei set di dati.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora