Glossario

Tokenizzazione

Scopri il potere della tokenizzazione in NLP e ML! Scopri come la scomposizione del testo in token migliora le attività di intelligenza artificiale come l'analisi del sentimento e la generazione di testi.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La tokenizzazione è una fase di pre-elaborazione fondamentale nell'Intelligenza Artificiale (AI) e nell'Apprendimento Automatico (ML), particolarmente importante nell'elaborazione del linguaggio naturale (NLP). Si tratta di scomporre sequenze di testo o altri dati in unità più piccole e gestibili, chiamate token. Questi token servono come elementi di base che gli algoritmi utilizzano per comprendere ed elaborare le informazioni, trasformando input grezzi come frasi o paragrafi in un formato adatto all'analisi da parte dei modelli di apprendimento automatico. Questo processo è essenziale perché i computer non capiscono il testo nello stesso modo in cui lo capiscono gli esseri umani; hanno bisogno di dati strutturati in pezzi discreti.

Come funziona la tokenizzazione

L'idea alla base della tokenizzazione è la segmentazione. Per i dati di testo, questo significa in genere dividere le frasi in parole, sottoparole o addirittura singoli caratteri in base a regole predefinite o a modelli appresi. Ad esempio, la fraseUltralytics YOLO11 è potente" potrebbe essere suddivisa in singole parole: ["Ultralytics", "YOLO11", "is", "powerful"]. Il metodo specifico scelto dipende molto dal compito e dall'architettura del modello che si sta utilizzando.

Le tecniche più comuni includono la suddivisione del testo in base agli spazi bianchi e alla punteggiatura. Tuttavia, spesso sono necessari metodi più avanzati, soprattutto per gestire vocabolari di grandi dimensioni o parole non viste durante la formazione. Tecniche come Byte Pair Encoding (BPE) o WordPiece suddividono le parole in unità di parole più piccole. Queste tecniche sono spesso utilizzate nei modelli linguistici di grandi dimensioni (LLM) come BERT e GPT-4 per gestire in modo efficace le dimensioni del vocabolario e per gestire con grazia le parole sconosciute. La scelta della strategia di tokenizzazione può avere un impatto significativo sulle prestazioni del modello e sull'efficienza computazionale.

Rilevanza e applicazioni nel mondo reale

La tokenizzazione è fondamentale perché la maggior parte dei modelli di ML, in particolare le architetture di deep learning, richiedono input numerici piuttosto che testo grezzo. Convertendo il testo in token discreti, possiamo poi mappare questi token in rappresentazioni numeriche, come gli embeddings. Questi vettori numerici catturano il significato semantico e le relazioni, permettendo ai modelli costruiti con framework come PyTorch o TensorFlow di apprendere modelli dai dati. Questo passo fondamentale è alla base di numerose applicazioni di IA:

  1. Elaborazione del linguaggio naturale (NLP): La tokenizzazione è fondamentale per quasi tutte le attività di NLP.

    • Traduzione automatica: I servizi come Google Translate digitalizzano la frase in ingresso nella lingua di partenza, elaborano questi token utilizzando modelli complessi (spesso basati sull'architettura Transformer ) e generano token nella lingua di arrivo, che vengono infine assemblati nella frase tradotta.
    • Analisi del sentimento: Per determinare se una recensione di un cliente è positiva o negativa, il testo viene prima tokenizzato. Il modello analizza poi questi token (e le loro rappresentazioni numeriche) per classificare il sentiment complessivo. Per saperne di più sulla Sentiment Analysis. Anche le tecniche come la sintonizzazione dei prompt si basano sulla manipolazione delle sequenze di token.
  2. Visione artificiale (CV): Sebbene sia tradizionalmente associato all'NLP, il concetto si estende alla Computer Vision (CV).

    • Trasformatori di visione (ViT): In modelli come i Vision Transformers (ViT), le immagini vengono suddivise in patch di dimensioni fisse. Questi frammenti vengono trattati come "gettoni visivi" e appiattiti in sequenze. Queste sequenze vengono poi inserite in una rete Transformer, che utilizza meccanismi come l'auto-attenzione per comprendere le relazioni tra le diverse parti dell'immagine, in modo simile a come i token di testo vengono elaborati in NLP. Questo permette di svolgere compiti come la classificazione delle immagini e il rilevamento degli oggetti. Anche modelli come il Segment Anything Model (SAM) utilizzano concetti simili ai token per la segmentazione delle immagini.
    • Modelli multimodali: Modelli come CLIP e YOLO uniscono la visione e il linguaggio elaborando sia i token testuali che quelli visivi (o le caratteristiche delle immagini) per eseguire compiti come il rilevamento di oggetti a scatto zero basato su descrizioni testuali.

Tokenizzazione vs. Token

È importante distinguere tra "Tokenizzazione" e"Token".

  • Tokenizzazione: Si riferisce al processo di scomposizione dei dati in unità più piccole. È una fase di pre-elaborazione.
  • Token: Si riferisce al risultato del processo di tokenizzazione - l'unità individuale (parola, sottoparola, carattere o patch di immagine) che il modello elabora.

La comprensione della tokenizzazione è fondamentale per capire come i modelli di intelligenza artificiale interpretano e imparano da diversi tipi di dati. La gestione dei dataset e l'addestramento dei modelli spesso coinvolge piattaforme come Ultralytics HUB, che aiutano a semplificare i flussi di lavoro di preelaborazione dei dati e di addestramento dei modelli, che spesso coinvolgono dati tokenizzati in modo implicito o esplicito. Con l'evoluzione dell'intelligenza artificiale, i metodi di tokenizzazione continuano ad adattarsi, svolgendo un ruolo chiave nella creazione di modelli più sofisticati per attività che vanno dalla generazione di testi alla comprensione visiva complessa in campi come i veicoli autonomi e l'analisi delle immagini mediche.

Leggi tutto