Glossaire

Tokenisation

Découvre la puissance de la tokenisation dans le NLP et le ML ! Apprends comment la décomposition du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La tokenisation est une étape de prétraitement fondamentale dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML), particulièrement vitale dans le traitement du langage naturel (NLP). Elle consiste à décomposer des séquences de texte ou d'autres données en unités plus petites et gérables appelées tokens. Ces jetons servent d'éléments de base que les algorithmes utilisent pour comprendre et traiter les informations, en transformant les entrées brutes en un format adapté à l'analyse.

Comment fonctionne la tokenisation

L'idée centrale de la tokenisation est la segmentation. Pour les données textuelles, il s'agit généralement de diviser les phrases en mots, en sous-mots ou même en caractères individuels sur la base de règles prédéfinies ou de modèles appris. Par exemple, la phraseUltralytics YOLOv8 est puissant" peut être segmentée en : ["Ultralytics", "YOLOv8", "is", "powerful"]. La méthode spécifique choisie dépend de la tâche et de l'architecture du modèle. Les techniques courantes comprennent la division par les espaces blancs et la ponctuation, ou l'utilisation de méthodes plus avancées telles que Codage par paires d'octets (BPE) ou Pièce de motqui sont souvent utilisés dans les Grands modèles linguistiques (LLM) comme BERT pour traiter efficacement les grands vocabulaires et les mots inconnus.

Pertinence et applications dans le monde réel

La tokenisation est essentielle car la plupart des modèles de ML nécessitent des données numériques. En convertissant le texte en tokens discrets, nous pouvons ensuite mapper ces tokens à des représentations numériques comme les embeddings, ce qui permet aux modèles d'apprendre des schémas et des relations au sein des données. Ce processus est à la base de nombreuses applications d'intelligence artificielle :

  1. Traduction automatique : Les services tels que Google Translate transforment les phrases d'entrée dans la langue source en jetons, traitent ces jetons à l'aide de réseaux neuronaux complexes (souvent des Transformers), puis génèrent des jetons dans la langue cible, qui sont finalement réassemblés en phrases. Une tokénisation précise garantit que les nuances linguistiques sont correctement saisies.
  2. Analyse des sentiments : Pour déterminer le sentiment d'un avis de client tel que "Le service était excellent !", le texte est d'abord tokenisé (["The", "service", "was", "excellent", "!"]). Chaque jeton est ensuite analysé, souvent à l'aide de son intégration, ce qui permet au modèle de classer le sentiment général comme positif, négatif ou neutre. Ceci est crucial pour les entreprises qui analysent les commentaires des clients. En savoir plus sur l'analyse des sentiments.
  3. Modèles vision-langage : Les modèles tels que CLIP ou Ultralytics YOLO s'appuient sur la symbolisation des invites textuelles pour comprendre les requêtes des utilisateurs pour des tâches telles que la détection d'objets sans prise de vue ou la segmentation d'images. Les mots-clés du texte sont associés à des caractéristiques visuelles apprises à partir des images.

La tokenisation dans la vision par ordinateur

Bien qu'il soit traditionnellement associé au NLP, le concept s'étend à la vision par ordinateur (CV). Dans les transformateurs de vision (ViT), les images sont divisées en parcelles de taille fixe, qui sont traitées comme des "jetons visuels". Ces jetons sont ensuite traités de la même manière que les jetons de texte dans les transformateurs NLP, ce qui permet aux modèles de comprendre les hiérarchies spatiales et le contexte dans les images.

Avantages et outils

Une tokenisation efficace standardise les données d'entrée, simplifie le traitement des modèles et aide à gérer la taille du vocabulaire, en particulier avec les méthodes de sous-mots. Des bibliothèques comme Hugging Face Tokenizers et des boîtes à outils comme NLTK fournissent des implémentations robustes. Les plateformes comme Ultralytics HUB font souvent abstraction des complexités du prétraitement des données, y compris la tokenisation, ce qui simplifie le flux de travail pour les modèles d'entraînement construits avec des frameworks comme PyTorch ou TensorFlow. Comprendre la tokenisation est essentiel pour construire et optimiser de nombreux systèmes d'IA modernes.

Tout lire