Glossar

Tokenisierung

Entdecke die Macht der Tokenisierung in NLP und ML! Erfahre, wie die Zerlegung von Text in Token KI-Aufgaben wie Sentiment-Analyse und Textgenerierung verbessert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Tokenisierung ist ein grundlegender Vorverarbeitungsschritt in der künstlichen Intelligenz (KI) und im maschinellen Lernen (ML) und besonders wichtig in der natürlichen Sprachverarbeitung (NLP). Dabei werden Textsequenzen oder andere Daten in kleinere, überschaubare Einheiten, sogenannte Token, zerlegt. Diese Tokens dienen als Grundbausteine, die Algorithmen verwenden, um Informationen zu verstehen und zu verarbeiten, indem sie den rohen Input in ein für die Analyse geeignetes Format umwandeln.

Wie Tokenisierung funktioniert

Die Kernidee hinter der Tokenisierung ist die Segmentierung. Bei Textdaten bedeutet das in der Regel, dass Sätze anhand von vordefinierten Regeln oder gelernten Mustern in Wörter, Teilwörter oder sogar einzelne Zeichen zerlegt werden. Zum Beispiel könnte der SatzUltralytics YOLOv8 ist leistungsstark" in Token zerlegt werden: ["Ultralytics", "YOLOv8", "is", "powerful"]. Welche Methode gewählt wird, hängt von der Aufgabe und der Modellarchitektur ab. Gängige Techniken sind die Aufteilung nach Leerzeichen und Interpunktion oder fortgeschrittenere Methoden wie Byte-Paar-Kodierung (BPE) oder WordPiece, die oft in Große Sprachmodelle (LLMs) wie BERT um große Wortschätze und unbekannte Wörter effektiv zu bearbeiten.

Relevanz und Anwendungen in der realen Welt

Die Tokenisierung ist wichtig, weil die meisten ML-Modelle numerische Eingaben benötigen. Indem wir Text in diskrete Token umwandeln, können wir diese Token auf numerische Repräsentationen wie Einbettungen abbilden, so dass die Modelle Muster und Beziehungen in den Daten lernen können. Dieser Prozess ist die Grundlage für zahlreiche KI-Anwendungen:

  1. Maschinelle Übersetzung: Dienste wie Google Translate zerlegen Eingabesätze in der Ausgangssprache in Token, verarbeiten diese Token mithilfe komplexer neuronaler Netze (oft Transformers) und erzeugen dann Token in der Zielsprache, die schließlich wieder zu Sätzen zusammengesetzt werden. Eine genaue Tokenisierung stellt sicher, dass sprachliche Nuancen korrekt erfasst werden.
  2. Stimmungsanalyse: Um die Stimmung einer Kundenbewertung wie "Der Service war ausgezeichnet!" zu ermitteln, wird der Text zunächst tokenisiert (["The", "service", "was", "excellent", "!"]). Jede Token wird dann analysiert, oft unter Verwendung der Einbettung, die es dem Modell ermöglicht, die Gesamtstimmung als positiv, negativ oder neutral zu klassifizieren. Das ist wichtig für Unternehmen, die Kundenfeedback analysieren. Erfahre mehr über Sentiment Analysis.
  3. Vision-Language-Modelle: Modelle wie CLIP oder Ultralytics YOLO basieren auf der Tokenisierung von Textaufforderungen, um Benutzeranfragen für Aufgaben wie die Zero-Shot-Objekterkennung oder die Bildsegmentierung zu verstehen. Die Text-Token werden mit visuellen Merkmalen verknüpft, die aus Bildern gelernt wurden.

Tokenisierung in der Computer Vision

Obwohl das Konzept traditionell mit NLP in Verbindung gebracht wird, lässt es sich auch auf Computer Vision (CV) übertragen. Bei Vision Transformers (ViT) werden Bilder in Bereiche fester Größe unterteilt, die als "visuelle Token" behandelt werden. Diese Tokens werden dann ähnlich wie Text-Tokens in NLP-Transformatoren verarbeitet und ermöglichen es den Modellen, räumliche Hierarchien und Zusammenhänge in Bildern zu verstehen.

Vorteile und Tools

Eine effektive Tokenisierung standardisiert die Eingabedaten, vereinfacht die Verarbeitung für die Modelle und hilft bei der Verwaltung des Vokabulars, insbesondere bei Subword-Methoden. Bibliotheken wie Hugging Face Tokenizer und Toolkits wie NLTK bieten robuste Implementierungen. Plattformen wie Ultralytics HUB abstrahieren oft die Komplexität der Datenvorverarbeitung, einschließlich der Tokenisierung, und vereinfachen so den Arbeitsablauf für Trainingsmodelle, die mit Frameworks wie PyTorch oder TensorFlow. Das Verständnis der Tokenisierung ist der Schlüssel zum Aufbau und zur Optimierung vieler moderner KI-Systeme.

Alles lesen