Erfahren Sie, wie Tokens als grundlegende Informationseinheiten in der KI dienen. Entdecken Sie ihre Rolle in NLP, Computer Vision und der Erkennung offener Vokabulare mit YOLO26.
In der komplexen Architektur moderner künstlicher Intelligenz stellt ein Token die grundlegende, atomare Informationseinheit dar, die ein Modell verarbeitet. Bevor ein Algorithmus einen Satz interpretieren, ein Software-Skript analysieren oder Objekte in einem Bild erkennen kann, müssen die rohen Eingabedaten in diese diskreten, standardisierten Elemente zerlegt werden. Diese Segmentierung ist ein entscheidender Schritt in der Datenvorverarbeitung, bei dem unstrukturierte Eingaben in ein numerisches Format umgewandelt werden, das neuronale Netze effizient berechnen können. Während Menschen Sprache als einen kontinuierlichen Strom von Gedanken oder Bilder als nahtlose visuelle Szenen wahrnehmen, benötigen Computermodelle diese granularen Bausteine, um Operationen wie Mustererkennung und semantische Analyse durchzuführen.
Um die Mechanismen des maschinellen Lernens zu verstehen, ist es unerlässlich, zwischen der Dateneinheit und dem zu ihrer Erstellung verwendeten Prozess zu unterscheiden. Diese Unterscheidung verhindert Verwirrung bei der Gestaltung von Datenpipelines und der Vorbereitung von Schulungsmaterial auf der Ultralytics .
Die Art eines Tokens variiert erheblich je nach Modalität der verarbeiteten Daten, insbesondere zwischen textuellen und visuellen Domänen.
Im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) sind Token die Eingaben für große Sprachmodelle (Large Language Models, LLMs). Frühe Ansätze ordneten ausschließlich ganze Wörter zu, aber moderne Architekturen verwenden Subwort-Algorithmen wie Byte Pair Encoding (BPE). Diese Methode ermöglicht es Modellen, seltene Wörter zu verarbeiten, indem sie diese in sinnvolle Silben zerlegen und so die Größe des Vokabulars mit der semantischen Abdeckung in Einklang bringen. So könnte beispielsweise das Wort „unhappiness” in „un”, „happi” und „ness” tokenisiert werden.
Das Konzept der Tokenisierung hat sich mit der Einführung des Vision Transformer (ViT) auf den Bereich der Computervision ausgeweitet. Im Gegensatz zu herkömmlichen Faltungsnetzwerken, die Pixel in gleitenden Fenstern verarbeiten, unterteilen Transformer ein Bild in ein Raster aus Patches fester Größe (z. B. 16 x 16 Pixel). Jedes Patch wird abgeflacht und als eigenständiges visuelles Token behandelt. Dieser Ansatz ermöglicht es dem Modell, Selbstaufmerksamkeitsmechanismen zu nutzen, um die Beziehung zwischen entfernten Teilen eines Bildes zu verstehen, ähnlich wie Google ursprünglich Transformer auf Text angewandt hat.
Tokens fungieren in unzähligen Anwendungen als Brücke zwischen menschlichen Daten und maschineller Intelligenz.
Der folgende Codeausschnitt zeigt, wie die ultralytics Das Paket verwendet Text-Token als Leitfaden.
Objekterkennung. Während die modernste
YOLO26 wird für schnelle Inferenz mit festen Klassen empfohlen.
Die YOLO ermöglicht es Benutzern auf einzigartige Weise, Klassen zur Laufzeit als Text-Token zu definieren.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
Das Verständnis von Tokens ist grundlegend für die Navigation in der Landschaft der generativen KI und der fortgeschrittenen Analytik. Ob es darum geht, einem Chatbot flüssige Konversation zu ermöglichen oder einem Bildverarbeitungssystem dabei zu helfen, zwischen subtilen Objektklassen zu unterscheiden – Tokens bleiben die wesentliche Währung der maschinellen Intelligenz, die von Frameworks wie PyTorch und TensorFlowverwendet wird.