Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la décomposition d'un texte en tokens améliore les tâches d'intelligence artificielle telles que l'analyse des sentiments et la génération de texte.
La tokenisation est une étape de prétraitement fondamentale dans l'intelligence artificielle (IA) et l'apprentissage machine (ML), particulièrement essentielle dans le traitement du langage naturel (NLP). Elle consiste à décomposer des séquences de texte ou d'autres données en unités plus petites et gérables appelées " tokens". Ces jetons constituent les éléments de base que les algorithmes utilisent pour comprendre et traiter l'information, en transformant des données brutes telles que des phrases ou des paragraphes en un format adapté à l'analyse par des modèles d'apprentissage automatique. Ce processus est essentiel car les ordinateurs ne comprennent pas les textes de la même manière que les humains ; ils ont besoin de données structurées en éléments distincts.
La tokenisation est cruciale car la plupart des modèles ML, en particulier les architectures d'apprentissage profond, nécessitent une entrée numérique plutôt qu'un texte brut. En convertissant le texte en tokens discrets, nous pouvons ensuite faire correspondre ces tokens à des représentations numériques, telles que les embeddings. Ces vecteurs numériques capturent le sens sémantique et les relations, permettant aux modèles construits avec des frameworks comme PyTorch ou TensorFlow d'apprendre des modèles à partir des données. Cette étape fondamentale est à la base de nombreuses applications d'IA :
Traitement du langage naturel (NLP) : La tokenisation est au cœur de presque toutes les tâches de traitement du langage naturel.
Vision par ordinateur (VA) : Bien que traditionnellement associé au NLP, le concept s'étend à la vision par ordinateur (CV).
Il est important de faire la distinction entre la "tokenisation" et le"jeton".
Comprendre la tokenisation est fondamental pour saisir comment les modèles d'IA interprètent et apprennent à partir de divers types de données. La gestion des ensembles de données et des modèles d'entraînement implique souvent des plateformes comme Ultralytics HUB, qui aident à rationaliser le prétraitement des données et les flux de travail d'entraînement des modèles, impliquant souvent des données tokenisées de manière implicite ou explicite. Au fur et à mesure que l'IA évolue, les méthodes de tokenisation continuent de s'adapter, jouant un rôle clé dans la construction de modèles plus sophistiqués pour des tâches allant de la génération de texte à la compréhension visuelle complexe dans des domaines tels que les véhicules autonomes et l'analyse d'images médicales.
Comment fonctionne la tokenisation ?
L'idée centrale de la tokenisation est la segmentation. Pour les données textuelles, il s'agit généralement de diviser les phrases en mots, en sous-mots, voire en caractères individuels, sur la base de règles prédéfinies ou de modèles appris. Par exemple, la phrase "Ultralytics YOLO11 est puissant" peut être segmentée en mots individuels :
["Ultralytics", "YOLO11", "is", "powerful"]
. La méthode spécifique choisie dépend fortement de la tâche et de l'architecture du modèle utilisé.Les techniques courantes consistent à diviser le texte en fonction des espaces blancs et de la ponctuation. Cependant, des méthodes plus avancées sont souvent nécessaires, en particulier pour traiter des vocabulaires importants ou des mots qui n'ont pas été vus pendant la formation. Des techniques telles que Byte Pair Encoding (BPE) ou WordPiece divisent les mots en unités de sous-mots plus petites. Elles sont fréquemment utilisées dans les grands modèles linguistiques (LLM ) tels que BERT et GPT-4 afin de gérer efficacement la taille du vocabulaire et de traiter les mots inconnus avec élégance. Le choix de la stratégie de symbolisation peut avoir un impact significatif sur les performances du modèle et l'efficacité des calculs.