Découvre la puissance de la tokenisation dans le NLP et le ML ! Apprends comment la décomposition du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.
La tokenisation est une étape de prétraitement fondamentale dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML), particulièrement vitale dans le traitement du langage naturel (NLP). Elle consiste à décomposer des séquences de texte ou d'autres données en unités plus petites et gérables appelées tokens. Ces jetons servent d'éléments de base que les algorithmes utilisent pour comprendre et traiter les informations, en transformant les entrées brutes en un format adapté à l'analyse.
La tokenisation est essentielle car la plupart des modèles de ML nécessitent des données numériques. En convertissant le texte en tokens discrets, nous pouvons ensuite mapper ces tokens à des représentations numériques comme les embeddings, ce qui permet aux modèles d'apprendre des schémas et des relations au sein des données. Ce processus est à la base de nombreuses applications d'intelligence artificielle :
["The", "service", "was", "excellent", "!"]
). Chaque jeton est ensuite analysé, souvent à l'aide de son intégration, ce qui permet au modèle de classer le sentiment général comme positif, négatif ou neutre. Ceci est crucial pour les entreprises qui analysent les commentaires des clients. En savoir plus sur l'analyse des sentiments.Bien qu'il soit traditionnellement associé au NLP, le concept s'étend à la vision par ordinateur (CV). Dans les transformateurs de vision (ViT), les images sont divisées en parcelles de taille fixe, qui sont traitées comme des "jetons visuels". Ces jetons sont ensuite traités de la même manière que les jetons de texte dans les transformateurs NLP, ce qui permet aux modèles de comprendre les hiérarchies spatiales et le contexte dans les images.
Une tokenisation efficace standardise les données d'entrée, simplifie le traitement des modèles et aide à gérer la taille du vocabulaire, en particulier avec les méthodes de sous-mots. Des bibliothèques comme Hugging Face Tokenizers et des boîtes à outils comme NLTK fournissent des implémentations robustes. Les plateformes comme Ultralytics HUB font souvent abstraction des complexités du prétraitement des données, y compris la tokenisation, ce qui simplifie le flux de travail pour les modèles d'entraînement construits avec des frameworks comme PyTorch ou TensorFlow. Comprendre la tokenisation est essentiel pour construire et optimiser de nombreux systèmes d'IA modernes.
Comment fonctionne la tokenisation
L'idée centrale de la tokenisation est la segmentation. Pour les données textuelles, il s'agit généralement de diviser les phrases en mots, en sous-mots ou même en caractères individuels sur la base de règles prédéfinies ou de modèles appris. Par exemple, la phraseUltralytics YOLOv8 est puissant" peut être segmentée en :
["Ultralytics", "YOLOv8", "is", "powerful"]
. La méthode spécifique choisie dépend de la tâche et de l'architecture du modèle. Les techniques courantes comprennent la division par les espaces blancs et la ponctuation, ou l'utilisation de méthodes plus avancées telles que Codage par paires d'octets (BPE) ou Pièce de motqui sont souvent utilisés dans les Grands modèles linguistiques (LLM) comme BERT pour traiter efficacement les grands vocabulaires et les mots inconnus.