Découvrez comment les tokens constituent les unités fondamentales d'information dans l'IA. Explorez leur rôle dans le traitement du langage naturel, la vision par ordinateur et la détection à vocabulaire ouvert avec YOLO26.
Dans l'architecture sophistiquée de l'intelligence artificielle moderne , un jeton représente l'unité atomique fondamentale d'information traitée par un modèle. Avant qu'un algorithme puisse interpréter une phrase, analyser un script logiciel ou reconnaître des objets dans une image, les données brutes d'entrée doivent être décomposées en ces éléments discrets et standardisés. Cette segmentation est une étape cruciale du prétraitement des données, qui transforme des entrées non structurées en un format numérique que les réseaux neuronaux peuvent calculer efficacement. Alors que les humains perçoivent le langage comme un flux continu de pensées ou les images comme des scènes visuelles homogènes, les modèles computationnels ont besoin de ces éléments constitutifs granulaires pour effectuer des opérations telles que la reconnaissance de formes et l'analyse sémantique.
Pour comprendre les mécanismes de l'apprentissage automatique, il est essentiel de faire la distinction entre l'unité de données et le processus utilisé pour la créer. Cette différenciation évite toute confusion lors de la conception de pipelines de données et de la préparation de matériel de formation sur Ultralytics .
La nature d'un jeton varie considérablement en fonction de la modalité des données traitées, en particulier entre les domaines textuel et visuel.
Dans le domaine du traitement du langage naturel (NLP), les tokens sont les entrées des grands modèles linguistiques (LLM). Les premières approches correspondaient strictement à des mots entiers, mais les architectures modernes utilisent des algorithmes de sous-mots tels que le codage par paires d'octets (BPE). Cette méthode permet aux modèles de traiter les mots rares en les décomposant en syllabes significatives, ce qui permet d'équilibrer la taille du vocabulaire et la couverture sémantique. Par exemple, le mot « unhappiness » (malheur) peut être tokenisé en « un », « happi » et « ness ».
Le concept de tokenisation s'est étendu à la vision par ordinateur avec l'avènement du Vision Transformer (ViT). Contrairement aux réseaux convolutifs traditionnels qui traitent les pixels dans des fenêtres glissantes, les Transformers divisent une image en une grille de patchs de taille fixe (par exemple, 16x16 pixels). Chaque patch est aplati et traité comme un jeton visuel distinct. Cette approche permet au modèle d'utiliser des mécanismes d'auto-attention pour comprendre la relation entre des parties éloignées d'une image, de manière similaire à la façon dont Google a initialement appliqué les transformateurs au texte.
Les jetons font office de passerelle entre les données humaines et l'intelligence artificielle dans d'innombrables applications.
L'extrait de code suivant montre comment le ultralytics Le package utilise des jetons de texte pour guider
détection d'objets. Alors que la technologie de pointe
YOLO26 est recommandée pour l'inférence à grande vitesse et à classe fixe,
l'architecture YOLO permet de manière unique aux utilisateurs de définir des classes sous forme de jetons de texte lors de l'exécution.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
Comprendre les jetons est essentiel pour naviguer dans le paysage de l' IA générative et de l'analyse avancée. Qu'il s'agisse de permettre à un chatbot de converser couramment ou d'aider un système de vision à distinguer des classes d'objets subtiles, les jetons restent la monnaie essentielle de l'intelligence artificielle utilisée par des cadres tels que PyTorch et TensorFlow.