Glossaire

Tokenisation

Découvre la puissance de la tokenisation dans le NLP et le ML ! Apprends comment la décomposition du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La tokenisation est une étape fondamentale du traitement du langage naturel (NLP) et de l'apprentissage automatique (ML) qui consiste à décomposer le texte en unités plus petites, appelées tokens. Ces jetons peuvent être des mots, des sous-mots, des caractères ou des symboles, en fonction des exigences spécifiques de la tâche et du modèle utilisé. En convertissant le texte brut en un format numérique que les modèles d'apprentissage automatique peuvent comprendre, la tokenisation est cruciale pour diverses applications d'IA.

Définition

La tokenisation est le processus de segmentation d'une chaîne de texte en jetons individuels. C'est comme si tu découpais une phrase en morceaux. Ces morceaux, ou jetons, deviennent les unités de base qu'un ordinateur peut traiter. Par exemple, la phrase "Ultralytics YOLO est rapide. " pourrait être transformée en ["Ultralytics", "YOLO", " est ", " rapide ", "."]. La façon dont le texte est symbolisé peut avoir une incidence considérable sur la manière dont un modèle comprend et traite le langage. Il existe différentes stratégies de tokenisation, chacune ayant ses propres forces et faiblesses. Les méthodes courantes comprennent :

  • Tokénisation des mots : Il s'agit de l'approche la plus simple, où le texte est divisé en mots individuels, généralement en fonction des espaces et de la ponctuation. Par exemple, "Let's learn AI !" devient ["Let", "'s", "learn", "AI", " !"].
  • Tokénisation des caractères : Ici, chaque caractère est considéré comme un token. La même phrase, "Let's learn AI !", serait tokenisée en ["L", "e", "t", "'", "s", " ", "l", "e", "a", "r", "n", " ", "A", "I", " !"]. Cette méthode est utile pour les langues où les mots ne sont pas clairement séparés par des espaces ou lorsqu'il s'agit de mots hors vocabulaire.
  • Tokénisation des sous-mots : Cette méthode établit un équilibre entre la tokenisation des mots et des caractères. Elle divise les mots en unités plus petites (sous-mots) en se basant sur des séquences de caractères fréquentes. Par exemple, "incassable" peut être transformé en ["un", "break", "able"]. Cette technique est efficace pour traiter les mots rares et réduire la taille du vocabulaire, ce qui est particulièrement bénéfique pour les modèles tels que BERT (Bidirectional Encoder Representations from Transformers) et la famille GPT (Generative Pre-trained Transformer), y compris GPT-4 et GPT-3.

Pertinence et applications

La tokenisation est une condition préalable à presque toutes les tâches NLP, permettant aux machines de traiter et de comprendre le langage humain. Ses applications sont vastes et s'étendent à divers domaines :

  • Analyse des sentiments : Dans l'analyse des sentiments, la tokenisation aide à décomposer les avis des clients ou les posts sur les médias sociaux en mots ou phrases individuels, qui sont ensuite analysés pour déterminer le sentiment global (positif, négatif ou neutre). Par exemple, en analysant la phrase "Ce Ultralytics HUB est incroyablement convivial !", la tokenisation permet au modèle d'analyse des sentiments de se concentrer sur des mots individuels tels que "incroyablement" et "convivial" pour évaluer le sentiment positif.
  • Traduction automatique : La tokenisation est essentielle pour la traduction automatique. Avant de traduire une phrase d'une langue à une autre, la phrase est d'abord tokenisée. Cela permet au modèle de traduction de traiter le texte mot par mot ou sous-mot par sous-mot, facilitant ainsi des traductions précises et adaptées au contexte. Par exemple, pour traduire "How to train Ultralytics YOLO models", il faut d'abord la tokeniser en mots ou en sous-mots avant de transposer ces tokens dans une autre langue.
  • Génération de texte : Les modèles utilisés pour la génération de texte, tels que les grands modèles de langage (LLM), s'appuient fortement sur la tokenisation. Lorsqu'ils génèrent du texte, ces modèles prédisent le prochain jeton d'une séquence. La tokenisation garantit que le résultat est construit à partir d'unités significatives, qu'il s'agisse de mots ou de sous-mots, ce qui permet d'obtenir un texte cohérent et grammaticalement correct.
  • Moteurs de recherche et recherche d'informations : Les moteurs de recherche utilisent la tokenisation pour indexer les pages Web et traiter les requêtes de recherche. Lorsque tu cherches "détection d'objets avec Ultralytics YOLO ", le moteur de recherche traduit ta requête en mots-clés et compare ces mots-clés au contenu indexé afin d'obtenir des résultats pertinents. La recherche sémantique affine encore ce processus en comprenant la signification des jetons et leur contexte.

Types de tokenisation

Bien que le concept de base de la tokenisation soit simple, diverses techniques s'adaptent à différentes langues et tâches NLP :

  • Tokénisation des espaces blancs : Cette méthode simple divise le texte en fonction des caractères d'espacement (espaces, tabulations, nouvelles lignes). Bien qu'elle soit facile à mettre en œuvre, elle risque de ne pas gérer efficacement la ponctuation et de rencontrer des difficultés avec les langues qui n'utilisent pas d'espaces pour séparer les mots.
  • Tokénisation basée sur des règles : Cette approche utilise des règles prédéfinies pour traiter la ponctuation, les contractions et d'autres nuances spécifiques à la langue. Par exemple, des règles peuvent être définies pour séparer les signes de ponctuation en tant que jetons individuels ou pour traiter les contractions comme "can't" en tant que deux jetons : "ca" et "n't".
  • Tokénisation statistique : Des techniques plus avancées utilisent des modèles statistiques formés sur de grands corpus de textes pour déterminer les limites des jetons. Ces méthodes, y compris les algorithmes de tokénisation des sous-mots tels que Byte Pair Encoding (BPE) et WordPiece, sont particulièrement efficaces pour traiter les langues complexes et les mots hors vocabulaire.

Avantages de la tokenisation

La tokenisation offre plusieurs avantages clés dans le contexte de l'IA et de la ML :

  • Simplifie les données textuelles : En décomposant le texte en unités plus petites et gérables, la tokenisation transforme les données textuelles complexes et non structurées en un format que les algorithmes peuvent traiter efficacement.
  • Permet la représentation numérique : Les jetons peuvent être facilement convertis en représentations numériques, telles que les vecteurs, qui sont l'entrée standard des modèles d'apprentissage automatique. Cette conversion est essentielle pour que les modèles puissent apprendre des modèles et des relations dans les données textuelles. Des techniques telles que l'intégration de mots améliorent encore cette représentation en capturant le sens sémantique.
  • Améliore les performances des modèles : Une tokenisation efficace peut améliorer de façon significative les performances des modèles NLP. Choisir la bonne stratégie de tokénisation pour une tâche et une langue spécifiques peut permettre d'améliorer la précision et l'efficacité de tâches telles que la classification, la traduction et la génération.
  • Gère la taille du vocabulaire : La tokenisation des sous-mots, en particulier, aide à gérer la taille du vocabulaire. En décomposant les mots en unités de sous-mots, elle réduit le nombre de jetons uniques qu'un modèle doit apprendre, ce qui rend les modèles plus efficaces et capables de traiter un plus large éventail de textes, y compris des mots rares ou inédits.

En résumé, la tokenisation est une étape de prétraitement essentielle dans le NLP et le ML, qui permet aux ordinateurs de comprendre et de traiter les données textuelles. Son efficacité dépend de la technique choisie et de son adéquation à la tâche et à la langue spécifiques. Comprendre la tokénisation est fondamental pour quiconque travaille avec des applications d'IA basées sur le texte, de l'analyse des sentiments aux modèles de langage complexes tels que Ultralytics YOLO -World, qui peut comprendre des invites textuelles pour la détection d'objets.

Tout lire