Glossar

Tokenisierung

Entdecken Sie die Leistungsfähigkeit der Tokenisierung in NLP und ML! Erfahren Sie, wie die Zerlegung von Text in Token KI-Aufgaben wie Sentimentanalyse und Texterstellung verbessert.

Die Tokenisierung ist ein grundlegender Vorverarbeitungsschritt in der Künstlichen Intelligenz (KI) und dem maschinellen Lernen (ML), der insbesondere für die Verarbeitung natürlicher Sprache (NLP) wichtig ist. Dabei werden Textsequenzen oder andere Daten in kleinere, handhabbare Einheiten, sogenannte Token, zerlegt. Diese Tokens dienen als Grundbausteine, die Algorithmen zum Verstehen und Verarbeiten von Informationen verwenden, indem sie rohe Eingaben wie Sätze oder Absätze in ein Format umwandeln, das für die Analyse durch maschinelle Lernmodelle geeignet ist. Dieser Prozess ist unerlässlich, da Computer Text nicht auf dieselbe Weise verstehen wie Menschen; sie benötigen Daten, die in diskrete Teile strukturiert sind.

Wie Tokenisierung funktioniert

Die Kernidee hinter der Tokenisierung ist die Segmentierung. Bei Textdaten bedeutet dies in der Regel die Aufteilung von Sätzen in Wörter, Teilwörter oder sogar einzelne Zeichen auf der Grundlage vordefinierter Regeln oder erlernter Muster. Zum Beispiel könnte der Satz "Ultralytics YOLO11 ist leistungsstark" in einzelne Wörter tokenisiert werden: ["Ultralytics", "YOLO11", "is", "powerful"]. Welche Methode konkret gewählt wird, hängt stark von der Aufgabe und der verwendeten Modellarchitektur ab.

Zu den gängigen Techniken gehört die Aufteilung von Text anhand von Leerzeichen und Interpunktion. Oft sind jedoch fortschrittlichere Methoden erforderlich, insbesondere für die Bearbeitung umfangreicher Vokabeln oder von Wörtern, die beim Training nicht vorkommen. Techniken wie Byte Pair Encoding (BPE) oder WordPiece zerlegen Wörter in kleinere Unterworteinheiten. Diese werden häufig in Large Language Models (LLMs) wie BERT und GPT-4 verwendet, um die Größe des Vokabulars effektiv zu verwalten und unbekannte Wörter elegant zu behandeln. Die Wahl der Tokenisierungsstrategie kann sich erheblich auf die Modellleistung und die Recheneffizienz auswirken.

Relevanz und Anwendungen in der realen Welt

Die Tokenisierung ist von entscheidender Bedeutung, da die meisten ML-Modelle, insbesondere Deep-Learning-Architekturen, eher numerische Eingaben als Rohtext benötigen. Durch die Umwandlung von Text in diskrete Token können wir diese Token dann auf numerische Darstellungen, wie z. B. Einbettungen, abbilden. Diese numerischen Vektoren erfassen semantische Bedeutungen und Beziehungen, so dass Modelle, die mit Frameworks wie PyTorch oder TensorFlow erstellt wurden, Muster aus den Daten lernen können. Dieser grundlegende Schritt ist die Basis zahlreicher KI-Anwendungen:

  1. Verarbeitung natürlicher Sprache (NLP): Tokenisierung ist für fast alle NLP-Aufgaben von zentraler Bedeutung.

    • Maschinelle Übersetzung: Dienste wie Google Translate zerlegen den Eingabesatz in der Ausgangssprache in Token, verarbeiten diese Token mit Hilfe komplexer Modelle (die häufig auf der Transformer-Architektur basieren) und erzeugen dann Token in der Zielsprache, die schließlich zum übersetzten Satz zusammengesetzt werden.
    • Stimmungsanalyse: Um festzustellen, ob eine Kundenrezension positiv oder negativ ist, wird der Text zunächst mit Token versehen. Das Modell analysiert dann diese Token (und ihre numerischen Repräsentationen), um die allgemeine Stimmung zu klassifizieren. Erfahren Sie mehr über Sentiment Analysis. Techniken wie das Prompt-Tuning basieren ebenfalls auf der Manipulation von Token-Sequenzen.
  2. Computer Vision (CV): Obwohl das Konzept traditionell mit NLP in Verbindung gebracht wird, erstreckt es sich auch auf Computer Vision (CV).

    • Bildumwandler (ViT): Bei Modellen wie Vision Transformers (ViT) werden Bilder in Bereiche fester Größe unterteilt. Diese Flecken werden als "visuelle Token" behandelt und in Sequenzen geglättet. Diese Sequenzen werden dann in ein Transformer-Netzwerk eingespeist, das Mechanismen wie die Selbstaufmerksamkeit nutzt, um Beziehungen zwischen verschiedenen Bildteilen zu verstehen, ähnlich wie Text-Token in der NLP verarbeitet werden. Dies ermöglicht Aufgaben wie Bildklassifizierung und Objekterkennung. Modelle wie das Segment Anything Model (SAM) nutzen ebenfalls Token-ähnliche Konzepte zur Bildsegmentierung.
    • Multimodale Modelle: Modelle wie CLIP und YOLO-World verbinden Sehen und Sprache, indem sie sowohl Text- als auch visuelle Token (oder Bildmerkmale) verarbeiten, um Aufgaben wie die Erkennung von Objekten auf der Grundlage von Textbeschreibungen durchzuführen.

Tokenisierung vs. Tokens

Es ist wichtig, zwischen "Tokenisierung" und einem"Token" zu unterscheiden.

  • Tokenisierung: Bezieht sich auf den Prozess der Zerlegung von Daten in kleinere Einheiten. Es ist ein Vorverarbeitungsschritt.
  • Token: Bezieht sich auf das Ergebnis des Tokenisierungsprozesses - die einzelne Einheit (Wort, Teilwort, Zeichen oder Bildfeld), die das Modell verarbeitet.

Das Verständnis der Tokenisierung ist von grundlegender Bedeutung, um zu verstehen, wie KI-Modelle verschiedene Datentypen interpretieren und daraus lernen. Für die Verwaltung von Datensätzen und das Training von Modellen werden häufig Plattformen wie Ultralytics HUB eingesetzt, die zur Rationalisierung der Arbeitsabläufe für die Datenvorverarbeitung und das Modelltraining beitragen, wobei häufig implizit oder explizit tokenisierte Daten verwendet werden. Im Zuge der Weiterentwicklung der KI passen sich die Tokenisierungsmethoden weiter an und spielen eine Schlüsselrolle beim Aufbau anspruchsvollerer Modelle für Aufgaben, die von der Texterstellung bis zum komplexen visuellen Verständnis in Bereichen wie autonomen Fahrzeugen und medizinischer Bildanalyse reichen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert