Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Token

Erfahren Sie, wie Tokens als grundlegende Informationseinheiten in der KI dienen. Entdecken Sie ihre Rolle in NLP, Computer Vision und der Erkennung offener Vokabulare mit YOLO26.

In der komplexen Architektur moderner künstlicher Intelligenz stellt ein Token die grundlegende, atomare Informationseinheit dar, die ein Modell verarbeitet. Bevor ein Algorithmus einen Satz interpretieren, ein Software-Skript analysieren oder Objekte in einem Bild erkennen kann, müssen die rohen Eingabedaten in diese diskreten, standardisierten Elemente zerlegt werden. Diese Segmentierung ist ein entscheidender Schritt in der Datenvorverarbeitung, bei dem unstrukturierte Eingaben in ein numerisches Format umgewandelt werden, das neuronale Netze effizient berechnen können. Während Menschen Sprache als einen kontinuierlichen Strom von Gedanken oder Bilder als nahtlose visuelle Szenen wahrnehmen, benötigen Computermodelle diese granularen Bausteine, um Operationen wie Mustererkennung und semantische Analyse durchzuführen.

Token vs. Tokenisierung

Um die Mechanismen des maschinellen Lernens zu verstehen, ist es unerlässlich, zwischen der Dateneinheit und dem zu ihrer Erstellung verwendeten Prozess zu unterscheiden. Diese Unterscheidung verhindert Verwirrung bei der Gestaltung von Datenpipelines und der Vorbereitung von Schulungsmaterial auf der Ultralytics .

  • Tokenisierung: Dies ist der algorithmische Prozess (das Verb) der Aufteilung von Rohdaten in Teile. Bei Text kann dies die Verwendung von Bibliotheken wie dem Natural Language Toolkit (NLTK) beinhalten, um zu bestimmen, wo eine Einheit endet und eine andere beginnt.
  • Token: Dies ist die resultierende Ausgabe (das Substantiv). Es handelt sich um den tatsächlichen Datenblock – wie ein Wort, ein Teilwort oder einen Bildausschnitt –, der schließlich einem numerischen Vektor zugeordnet wird, der als Einbettung

Token in verschiedenen KI-Bereichen

Die Art eines Tokens variiert erheblich je nach Modalität der verarbeiteten Daten, insbesondere zwischen textuellen und visuellen Domänen.

Text-Token im NLP

Im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) sind Token die Eingaben für große Sprachmodelle (Large Language Models, LLMs). Frühe Ansätze ordneten ausschließlich ganze Wörter zu, aber moderne Architekturen verwenden Subwort-Algorithmen wie Byte Pair Encoding (BPE). Diese Methode ermöglicht es Modellen, seltene Wörter zu verarbeiten, indem sie diese in sinnvolle Silben zerlegen und so die Größe des Vokabulars mit der semantischen Abdeckung in Einklang bringen. So könnte beispielsweise das Wort „unhappiness” in „un”, „happi” und „ness” tokenisiert werden.

Visuelle Token in der Computer Vision

Das Konzept der Tokenisierung hat sich mit der Einführung des Vision Transformer (ViT) auf den Bereich der Computervision ausgeweitet. Im Gegensatz zu herkömmlichen Faltungsnetzwerken, die Pixel in gleitenden Fenstern verarbeiten, unterteilen Transformer ein Bild in ein Raster aus Patches fester Größe (z. B. 16 x 16 Pixel). Jedes Patch wird abgeflacht und als eigenständiges visuelles Token behandelt. Dieser Ansatz ermöglicht es dem Modell, Selbstaufmerksamkeitsmechanismen zu nutzen, um die Beziehung zwischen entfernten Teilen eines Bildes zu verstehen, ähnlich wie Google ursprünglich Transformer auf Text angewandt hat.

Anwendungsfälle in der Praxis

Tokens fungieren in unzähligen Anwendungen als Brücke zwischen menschlichen Daten und maschineller Intelligenz.

  1. Objekterkennung mit offenem Vokabular: Fortgeschrittene Modelle wie YOLO verwenden einen multimodalen Ansatz, bei dem Text- Tokens mit visuellen Merkmalen interagieren. Ein Benutzer kann benutzerdefinierte Text-Prompts eingeben (z. B. „blauer Helm”), die vom Modell tokenisiert und mit Objekten im Bild abgeglichen werden. Dies ermöglicht Zero-Shot-Lernen, wodurch Objekte erkannt werden können, für die das Modell nicht explizit trainiert wurde.
  2. Generative KI: In Textgenerierungssystemen wie Chatbots prognostiziert die KI die Wahrscheinlichkeit des nächsten Tokens in einer Sequenz. Durch die iterative Auswahl des wahrscheinlichsten folgenden Tokens konstruiert das System kohärente Sätze und Absätze und unterstützt damit Tools, die von automatisiertem Kundensupport bis hin zu virtuellen Assistenten reichen.

Python : Verwendung von Text-Tokens zur Erkennung

Der folgende Codeausschnitt zeigt, wie die ultralytics Das Paket verwendet Text-Token als Leitfaden. Objekterkennung. Während die modernste YOLO26 wird für schnelle Inferenz mit festen Klassen empfohlen. Die YOLO ermöglicht es Benutzern auf einzigartige Weise, Klassen zur Laufzeit als Text-Token zu definieren.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

Das Verständnis von Tokens ist grundlegend für die Navigation in der Landschaft der generativen KI und der fortgeschrittenen Analytik. Ob es darum geht, einem Chatbot flüssige Konversation zu ermöglichen oder einem Bildverarbeitungssystem dabei zu helfen, zwischen subtilen Objektklassen zu unterscheiden – Tokens bleiben die wesentliche Währung der maschinellen Intelligenz, die von Frameworks wie PyTorch und TensorFlowverwendet wird.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten