Glossaire

Tokenisation

Découvre la puissance de la tokenisation dans le NLP et l'IA ! Apprends comment la décomposition du texte en tokens améliore l'analyse des sentiments, la classification et bien plus encore.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La tokenisation est le processus de décomposition d'un texte en unités plus petites appelées tokens. Ces jetons peuvent être aussi petits que des caractères individuels, des mots ou des phrases, en fonction du contexte et de l'application. La tokenisation est une étape fondamentale dans les tâches de traitement du langage naturel (NLP) et d'apprentissage automatique (ML), permettant aux ordinateurs de traiter et d'analyser efficacement les données textuelles. En convertissant le texte non structuré en jetons structurés, la tokenisation permet aux algorithmes d'effectuer plus facilement des tâches telles que la classification des textes, l'analyse des sentiments et la modélisation du langage.

Importance de la tokenisation dans l'IA

La tokenisation est essentielle pour transformer le texte brut en un format que les modèles d'apprentissage automatique peuvent comprendre. En NLP, des modèles comme BERT ou GPT traitent des séquences de tokens plutôt que du texte brut. Ces tokens servent de blocs de construction pour une analyse plus poussée, comme la génération d'enchâssements ou les mécanismes d'attention.

En outre, la tokénisation aide à normaliser le texte, ce qui permet aux algorithmes de se concentrer sur des modèles significatifs plutôt que sur des détails non pertinents (par exemple, la ponctuation ou les espaces blancs). Ce processus prend également en charge des tâches telles que la génération de texte, où les modèles prédisent le prochain jeton d'une séquence, et la traduction automatique, où les jetons sont traduits d'une langue à l'autre.

Types de tokenisation

  1. Tokenisation des mots : Divise le texte en mots individuels. Par exemple, la phrase "Ultralytics HUB est puissant " devient ["Ultralytics", " HUB ", " est ", " puissant "].
  2. Tokenisation des sous-mots : Décompose le texte en unités de sous-mots plus petites. Cette méthode est courante dans les modèles comme BERT et GPT pour traiter les mots rares ou inconnus en les divisant en morceaux significatifs (par exemple, "powerful" en "power" et "ful").
  3. Tokenisation des caractères : Divise le texte en caractères individuels. Par exemple, "Ultralytics" devient ["U", "l", "t", "r", "a", "l", "y", "t", "i", "c", "s"].

Chaque méthode a ses avantages et ses inconvénients. La tokénisation des mots est simple mais peut s'avérer difficile avec les mots inconnus, tandis que la tokénisation des sous-mots et des caractères traite mieux les mots rares mais augmente la longueur des séquences et la complexité informatique.

Applications de la tokenisation

Analyse des sentiments

Dans l'analyse des sentiments, la tokenisation divise les commentaires des utilisateurs ou les messages des médias sociaux en jetons pour identifier les sentiments positifs, négatifs ou neutres. Par exemple, dans un commentaire sur un produit tel que " J'adore la vitesse de Ultralytics YOLO ", la tokenisation permet d'extraire des tokens clés tels que " amour ", " vitesse " et "Ultralytics YOLO " pour l'évaluation des sentiments.

Classification des textes

La tokenisation est une étape clé dans les tâches de classification de texte telles que la détection des spams ou la modélisation des sujets. Dans la détection des spams, les modèles analysent les jetons dans les courriels pour identifier les modèles qui permettent de distinguer les spams des messages légitimes. En savoir plus sur les tâches de classification et leur mise en œuvre dans les flux de travail de Ultralytics YOLO .

Modèles linguistiques

La tokenisation fait partie intégrante de la formation et de l'utilisation de modèles linguistiques tels que le GPT-4. Les tokens représentent l'entrée et la sortie de ces modèles, ce qui permet d'effectuer des tâches telles que le résumé de texte, la réponse aux questions et l'IA conversationnelle.

Métadonnées de détection d'objets

Dans les tâches de vision par ordinateur, la tokenisation est utilisée pour traiter les métadonnées, telles que les étiquettes d'objets ou les annotations. Par exemple, les modèles de détection d'objets tels que Ultralytics YOLO peuvent tokeniser les annotations textuelles pour améliorer la compatibilité avec les pipelines d'apprentissage automatique.

La tokenisation en pratique

Exemple 1 : Applications NLP

Considérons un chatbot alimenté par la compréhension du langage naturel (NLU). La tokenisation transforme les entrées utilisateur telles que "Quel temps fait-il à Madrid ?" en tokens tels que ["Quel", "fait", "le", "temps", "comme", "à", "Madrid", " ?"]. Ces jetons sont ensuite traités pour générer une réponse pertinente.

Exemple 2 : tokenisation de sous-mots pour les mots rares

Dans un ensemble de données sur la santé, des termes médicaux rares comme "angioplastie" peuvent ne pas apparaître dans les vocabulaires standard. La tokenisation des sous-mots divise le terme en ["angio", "plasty"], ce qui permet aux modèles de comprendre et de traiter efficacement les termes peu familiers. En savoir plus sur les applications de l'IA dans le domaine de la santé.

Tokenisation et concepts connexes

Bien que la tokenisation soit fondamentale dans le NLP, elle diffère de concepts connexes tels que les embeddings et les mécanismes d'attention. La tokenisation prépare le texte brut au traitement, tandis que les embeddings convertissent les tokens en vecteurs numériques et que les mécanismes d'attention déterminent l'importance des tokens au sein d'une séquence.

Outils et structures prenant en charge la tokenisation

  • PyTorch: La tokenisation est souvent intégrée dans les pipelines PyTorch pour les tâches NLP.
  • Ultralytics HUB: simplifie la formation et le déploiement des modèles, y compris les étapes de prétraitement comme la tokenisation.
  • Hugging Face Transformateurs: Fournit des tokenizers pré-entraînés pour les modèles de langage les plus récents.

En résumé, la tokenisation est une étape essentielle dans la préparation des données textuelles pour les applications d'IA et d'apprentissage automatique. Sa polyvalence et son utilité s'étendent à l'analyse des sentiments, à la classification, à la modélisation du langage et plus encore, ce qui en fait un processus indispensable dans les flux de travail modernes de l'IA.

Tout lire