Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Token

Scopri come i token fungono da unità fondamentali di informazione nell'IA. Esplora il loro ruolo nell'NLP, nella visione artificiale e nel rilevamento a vocabolario aperto con YOLO26.

Nella sofisticata architettura dell'intelligenza artificiale moderna , un token rappresenta l'unità atomica fondamentale di informazione che un modello elabora. Prima che un algoritmo possa interpretare una frase, analizzare uno script software o riconoscere oggetti in un'immagine, i dati di input grezzi devono essere scomposti in questi elementi discreti e standardizzati. Questa segmentazione è un passo fondamentale nella pre-elaborazione dei dati, trasformando input non strutturati in un formato numerico che le reti neurali possono calcolare in modo efficiente. Mentre gli esseri umani percepiscono il linguaggio come un flusso continuo di pensieri o immagini come scene visive senza soluzione di continuità, i modelli computazionali richiedono questi elementi costitutivi granulari per eseguire operazioni come il riconoscimento di modelli e l'analisi semantica.

Token vs. Tokenizzazione

Per comprendere i meccanismi dell'apprendimento automatico, è fondamentale distinguere tra l'unità di dati e il processo utilizzato per crearla. Questa differenziazione evita confusione durante la progettazione di pipeline di dati e la preparazione di materiale di formazione sulla Ultralytics .

  • Tokenizzazione: è il processo algoritmico (il verbo) di suddivisione dei dati grezzi in parti. Per il testo, ciò potrebbe comportare l'utilizzo di librerie come il Natural Language Toolkit (NLTK) per determinare dove finisce un'unità e ne inizia un'altra .
  • Token: è il risultato finale (il sostantivo). Si tratta dell'effettivo blocco di dati, come una parola, una sottoparola o un frammento di immagine, che viene infine mappato su un vettore numerico noto come embedding.

Token in diversi ambiti dell'IA

La natura di un token varia in modo significativo a seconda della modalità dei dati elaborati, in particolare tra domini testuali e visivi.

Gettoni di testo in NLP

Nel campo dell' elaborazione del linguaggio naturale (NLP), i token sono gli input per i modelli linguistici di grandi dimensioni (LLM). I primi approcci mappavano rigorosamente parole intere, ma le architetture moderne utilizzano algoritmi subword come il Byte Pair Encoding (BPE). Questo metodo consente ai modelli di gestire parole rare suddividendole in sillabe significative, bilanciando la dimensione del vocabolario con la copertura semantica. Ad esempio, la parola "unhappiness" potrebbe essere tokenizzata in "un", "happi" e "ness".

Gettoni visivi nella visione artificiale

Il concetto di tokenizzazione si è esteso alla visione artificiale con l'avvento del Vision Transformer (ViT). A differenza delle tradizionali reti convoluzionali che elaborano i pixel in finestre scorrevoli, i Transformer dividono un'immagine in una griglia di patch di dimensioni fisse (ad esempio, 16x16 pixel). Ogni patch viene appiattita e trattata come un token visivo distinto. Questo approccio consente al modello di utilizzare meccanismi di auto-attenzione per comprendere la relazione tra parti distanti di un'immagine, in modo simile a come Google ha originariamente applicato i transformer al testo.

Applicazioni nel mondo reale

I token fungono da ponte tra i dati umani e l'intelligenza artificiale in innumerevoli applicazioni.

  1. Rilevamento di oggetti con vocabolario aperto: modelli avanzati come YOLO utilizzano un approccio multimodale in cui i token di testo interagiscono con le caratteristiche visive. Un utente può inserire prompt di testo personalizzati (ad esempio, "casco blu"), che il modello tokenizza e abbina agli oggetti presenti nell'immagine. Ciò consente l' apprendimento zero-shot, permettendo il rilevamento di oggetti su cui il modello non è stato esplicitamente addestrato.
  2. AI generativa: nei sistemi di generazione di testo come i chatbot, l'AI opera prevedendo la probabilità del token successivo in una sequenza. Selezionando iterativamente il token successivo più probabile , il sistema costruisce frasi e paragrafi coerenti, alimentando strumenti che vanno dall'assistenza clienti automatizzata agli assistenti virtuali.

Python : utilizzo dei token di testo per il rilevamento

Il seguente frammento di codice mostra come il ultralytics Il pacchetto utilizza token di testo per guidare rilevamento degli oggetti. Mentre lo stato dell'arte YOLO26 è consigliato per l'inferenza ad alta velocità e classe fissa, l'architettura YOLO consente in modo unico agli utenti di definire le classi come token di testo in fase di esecuzione.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

Comprendere i token è fondamentale per orientarsi nel panorama dell' IA generativa e dell'analisi avanzata. Sia che si tratti di consentire a un chatbot di conversare in modo fluente o di aiutare un sistema di visione a distinguere tra classi di oggetti sottili, i token rimangono la valuta essenziale dell'intelligenza artificiale utilizzata da framework come PyTorch e TensorFlow.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora