Glossario

Tokenizzazione

Scopri il potere della tokenizzazione in NLP e ML! Scopri come la scomposizione del testo in token migliora le attività di intelligenza artificiale come l'analisi del sentimento e la generazione di testi.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La tokenizzazione è una fase di pre-elaborazione fondamentale nell'Intelligenza Artificiale (AI) e nell'Apprendimento Automatico (ML), particolarmente importante nell'elaborazione del linguaggio naturale (NLP). Si tratta di scomporre sequenze di testo o altri dati in unità più piccole e gestibili, chiamate token. Questi token servono come elementi di base che gli algoritmi utilizzano per comprendere ed elaborare le informazioni, trasformando l'input grezzo in un formato adatto all'analisi.

Come funziona la tokenizzazione

L'idea alla base della tokenizzazione è la segmentazione. Per i dati di testo, questo significa in genere dividere le frasi in parole, sottoparole o persino singoli caratteri in base a regole predefinite o a modelli appresi. Ad esempio, la fraseUltralytics YOLOv8 è potente" può essere tokenizzata in: ["Ultralytics", "YOLOv8", "is", "powerful"]. Il metodo specifico scelto dipende dall'attività e dall'architettura del modello. Le tecniche più comuni includono la suddivisione in base agli spazi bianchi e alla punteggiatura, oppure l'utilizzo di metodi più avanzati quali Codifica a coppie di byte (BPE) o ParolaPieceche sono spesso utilizzati in Modelli linguistici di grandi dimensioni (LLM) come BERT per gestire efficacemente grandi vocabolari e parole sconosciute.

Rilevanza e applicazioni nel mondo reale

La tokenizzazione è essenziale perché la maggior parte dei modelli ML richiede input numerici. Convertendo il testo in token discreti, possiamo poi mappare questi token in rappresentazioni numeriche come gli embeddings, consentendo ai modelli di apprendere modelli e relazioni all'interno dei dati. Questo processo è alla base di numerose applicazioni di intelligenza artificiale:

  1. Traduzione automatica: I servizi come Google Translate trasformano le frasi di input nella lingua di partenza in token, elaborano questi token utilizzando complesse reti neurali (spesso Transformers) e poi generano token nella lingua di destinazione, che vengono infine assemblati nuovamente in frasi. Una tokenizzazione accurata garantisce che le sfumature linguistiche vengano catturate correttamente.
  2. Analisi del sentimento: Per determinare il sentiment di una recensione del cliente come "Il servizio era eccellente!", il testo viene prima tokenizzato (["The", "service", "was", "excellent", "!"]). Ogni token viene poi analizzato, spesso utilizzando il suo embedding, consentendo al modello di classificare il sentiment complessivo come positivo, negativo o neutro. Questo è fondamentale per le aziende che analizzano i feedback dei clienti. Per saperne di più sull'analisi del sentimento.
  3. Modelli di linguaggio di visione: Modelli come CLIP o Ultralytics YOLO si basano sulla tokenizzazione delle richieste di testo per comprendere le domande degli utenti per attività come il rilevamento di oggetti a scatto zero o la segmentazione delle immagini. I token di testo sono collegati a caratteristiche visive apprese dalle immagini.

Tokenizzazione in Computer Vision

Sebbene sia tradizionalmente associato all'NLP, il concetto si estende alla Computer Vision (CV). Nei trasformatori di visione (ViT), le immagini vengono suddivise in patch di dimensioni fisse, che vengono trattate come "gettoni visivi". Questi token vengono poi elaborati in modo simile ai token di testo nei trasformatori NLP, consentendo ai modelli di comprendere le gerarchie spaziali e il contesto all'interno delle immagini.

Vantaggi e strumenti

Una tokenizzazione efficace standardizza i dati di input, semplifica l'elaborazione per i modelli e aiuta a gestire le dimensioni del vocabolario, soprattutto con i metodi a sottoparole. Librerie come Hugging Face Tokenizers e toolkit come NLTK forniscono implementazioni robuste. Piattaforme come Ultralytics HUB spesso astraggono dalle complessità della pre-elaborazione dei dati, compresa la tokenizzazione, semplificando il flusso di lavoro per l'addestramento di modelli costruiti con framework come PyTorch o TensorFlow. La comprensione della tokenizzazione è fondamentale per costruire e ottimizzare molti sistemi di intelligenza artificiale moderni.

Leggi tutto