Glossaire

Tokenisation

Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la décomposition d'un texte en tokens améliore les tâches d'intelligence artificielle telles que l'analyse des sentiments et la génération de texte.

La tokenisation est une étape de prétraitement fondamentale dans l'intelligence artificielle (IA) et l'apprentissage machine (ML), particulièrement essentielle dans le traitement du langage naturel (NLP). Elle consiste à décomposer des séquences de texte ou d'autres données en unités plus petites et gérables appelées " tokens". Ces jetons constituent les éléments de base que les algorithmes utilisent pour comprendre et traiter l'information, en transformant des données brutes telles que des phrases ou des paragraphes en un format adapté à l'analyse par des modèles d'apprentissage automatique. Ce processus est essentiel car les ordinateurs ne comprennent pas les textes de la même manière que les humains ; ils ont besoin de données structurées en éléments distincts.

Comment fonctionne la tokenisation ?

L'idée centrale de la tokenisation est la segmentation. Pour les données textuelles, il s'agit généralement de diviser les phrases en mots, en sous-mots, voire en caractères individuels, sur la base de règles prédéfinies ou de modèles appris. Par exemple, la phrase "Ultralytics YOLO11 est puissant" peut être segmentée en mots individuels : ["Ultralytics", "YOLO11", "is", "powerful"]. La méthode spécifique choisie dépend fortement de la tâche et de l'architecture du modèle utilisé.

Les techniques courantes consistent à diviser le texte en fonction des espaces blancs et de la ponctuation. Cependant, des méthodes plus avancées sont souvent nécessaires, en particulier pour traiter des vocabulaires importants ou des mots qui n'ont pas été vus pendant la formation. Des techniques telles que Byte Pair Encoding (BPE) ou WordPiece divisent les mots en unités de sous-mots plus petites. Elles sont fréquemment utilisées dans les grands modèles linguistiques (LLM ) tels que BERT et GPT-4 afin de gérer efficacement la taille du vocabulaire et de traiter les mots inconnus avec élégance. Le choix de la stratégie de symbolisation peut avoir un impact significatif sur les performances du modèle et l'efficacité des calculs.

Pertinence et applications dans le monde réel

La tokenisation est cruciale car la plupart des modèles ML, en particulier les architectures d'apprentissage profond, nécessitent une entrée numérique plutôt qu'un texte brut. En convertissant le texte en tokens discrets, nous pouvons ensuite faire correspondre ces tokens à des représentations numériques, telles que les embeddings. Ces vecteurs numériques capturent le sens sémantique et les relations, permettant aux modèles construits avec des frameworks comme PyTorch ou TensorFlow d'apprendre des modèles à partir des données. Cette étape fondamentale est à la base de nombreuses applications d'IA :

  1. Traitement du langage naturel (NLP) : La tokenisation est au cœur de presque toutes les tâches de traitement du langage naturel.

    • Traduction automatique : Des services tels que Google Translate identifient la phrase d'entrée dans la langue source, traitent ces jetons à l'aide de modèles complexes (souvent basés sur l'architecture Transformer ), puis génèrent des jetons dans la langue cible, qui sont finalement assemblés pour former la phrase traduite.
    • Analyse des sentiments : Pour déterminer si un avis de client est positif ou négatif, le texte est d'abord codé. Le modèle analyse ensuite ces jetons (et leurs représentations numériques) pour classer le sentiment général. En savoir plus sur l'analyse des sentiments. Les techniques telles que l'ajustement de l'invite reposent également sur la manipulation des séquences de jetons.
  2. Vision par ordinateur (VA) : Bien que traditionnellement associé au NLP, le concept s'étend à la vision par ordinateur (CV).

    • Transformateurs de vision (ViT) : Dans les modèles tels que Vision Transformers (ViT), les images sont divisées en parcelles de taille fixe. Ces parcelles sont traitées comme des "jetons visuels" et aplaties en séquences. Ces séquences sont ensuite introduites dans un réseau Transformer, qui utilise des mécanismes tels que l'auto-attention pour comprendre les relations entre les différentes parties de l'image, de la même manière que les jetons de texte sont traités dans le NLP. Cela permet d'effectuer des tâches telles que la classification d'images et la détection d'objets. Des modèles tels que le Segment Anything Model (SAM) utilisent également des concepts de type jeton pour la segmentation d'images.
    • Modèles multimodaux : Des modèles tels que CLIP et YOLO-World font le lien entre la vision et le langage en traitant à la fois les jetons textuels et les jetons visuels (ou les caractéristiques des images) afin d'effectuer des tâches telles que la détection d'objets en plan zéro sur la base de descriptions textuelles.

Tokenisation vs. jetons

Il est important de faire la distinction entre la "tokenisation" et le"jeton".

  • Tokenisation : Se réfère au processus de décomposition des données en unités plus petites. Il s'agit d'une étape de prétraitement.
  • Token : Désigne le résultat du processus de tokénisation - l'unité individuelle (mot, sous-mot, caractère ou bloc d'image) que le modèle traite.

Comprendre la tokenisation est fondamental pour saisir comment les modèles d'IA interprètent et apprennent à partir de divers types de données. La gestion des ensembles de données et des modèles d'entraînement implique souvent des plateformes comme Ultralytics HUB, qui aident à rationaliser le prétraitement des données et les flux de travail d'entraînement des modèles, impliquant souvent des données tokenisées de manière implicite ou explicite. Au fur et à mesure que l'IA évolue, les méthodes de tokenisation continuent de s'adapter, jouant un rôle clé dans la construction de modèles plus sophistiqués pour des tâches allant de la génération de texte à la compréhension visuelle complexe dans des domaines tels que les véhicules autonomes et l'analyse d'images médicales.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers