Glossar

Tokenisierung

Entdecke die Macht der Tokenisierung in NLP und KI! Erfahre, wie die Zerlegung von Text in Token die Sentimentanalyse, Klassifizierung und vieles mehr verbessert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Unter Tokenisierung versteht man die Zerlegung von Text in kleinere Einheiten, die Token genannt werden. Diese Token können je nach Kontext und Anwendung aus einzelnen Zeichen, Wörtern oder Sätzen bestehen. Die Tokenisierung ist ein grundlegender Schritt bei der Verarbeitung natürlicher Sprache (NLP) und beim maschinellen Lernen (ML), denn sie ermöglicht es Computern, Textdaten effektiv zu verarbeiten und zu analysieren. Durch die Umwandlung von unstrukturiertem Text in strukturierte Token erleichtert die Tokenisierung den Algorithmen die Durchführung von Aufgaben wie Textklassifizierung, Stimmungsanalyse und Sprachmodellierung.

Die Bedeutung der Tokenisierung in der KI

Die Tokenisierung ist wichtig, um Rohtext in ein Format zu verwandeln, das maschinelle Lernmodelle verstehen können. Im NLP verarbeiten Modelle wie BERT oder GPT Sequenzen von Token und nicht Rohtext. Diese Token dienen als Bausteine für die weitere Analyse, z. B. für die Erzeugung von Einbettungen oder Aufmerksamkeitsmechanismen.

Außerdem trägt die Tokenisierung zur Standardisierung von Texten bei, so dass sich Algorithmen auf sinnvolle Muster und nicht auf irrelevante Details (z. B. Satzzeichen oder Leerzeichen) konzentrieren können. Dieser Prozess unterstützt auch Aufgaben wie die Textgenerierung, bei der Modelle das nächste Token in einer Sequenz vorhersagen, und die maschinelle Übersetzung, bei der Token zwischen Sprachen übersetzt werden.

Arten der Tokenisierung

  1. Tokenisierung von Wörtern: Zerlegt den Text in einzelne Wörter. Zum Beispiel wird der Satz "Ultralytics HUB ist leistungsstark" zu ["Ultralytics", "HUB", "ist", "leistungsstark"].
  2. Teilwort-Tokenisierung: Zerlegt den Text in kleinere Unterworteinheiten. Diese Methode ist in Modellen wie BERT und GPT üblich, um seltene oder unbekannte Wörter in sinnvolle Teile zu zerlegen (z. B. "powerful" in "power" und "ful").
  3. Tokenisierung von Zeichen: Zerlegt Text in einzelne Zeichen. Zum Beispiel wird "Ultralytics" zu ["U", "l", "t", "r", "a", "l", "y", "t", "i", "c", "s"].

Jede Methode hat ihre Vorteile und Nachteile. Die Tokenisierung von Wörtern ist einfach, hat aber mit unbekannten Wörtern zu kämpfen, während die Tokenisierung von Unterwörtern und Zeichen seltene Wörter besser behandelt, aber die Sequenzlänge und die Rechenkomplexität erhöht.

Anwendungen der Tokenisierung

Stimmungsanalyse

Bei der Stimmungsanalyse unterteilt die Tokenisierung Nutzerbewertungen oder Social-Media-Beiträge in Token, um positive, negative oder neutrale Stimmungen zu identifizieren. In einer Produktbewertung wie "Ich liebe die Geschwindigkeit von Ultralytics YOLO " hilft die Tokenisierung dabei, Schlüssel-Token wie "Liebe", "Geschwindigkeit" und "Ultralytics YOLO " für die Stimmungsanalyse zu extrahieren.

Text-Klassifizierung

Die Tokenisierung ist ein wichtiger Schritt bei Textklassifizierungsaufgaben wie der Spam-Erkennung oder der Themenmodellierung. Bei der Spam-Erkennung analysieren Modelle Token in E-Mails, um Muster zu erkennen, die zwischen Spam und legitimen Nachrichten unterscheiden. Erfahre mehr über Klassifizierungsaufgaben und ihre Umsetzung in Ultralytics YOLO Workflows.

Sprachmodelle

Die Tokenisierung ist ein wesentlicher Bestandteil des Trainings und der Nutzung von Sprachmodellen wie GPT-4. Token stellen die Eingabe und Ausgabe dieser Modelle dar und ermöglichen Aufgaben wie Textzusammenfassung, Fragebeantwortung und Konversations-KI.

Metadaten zur Objekterkennung

Bei Computer-Vision-Aufgaben wird die Tokenisierung verwendet, um Metadaten wie Objektbeschriftungen oder Anmerkungen zu verarbeiten. So können z. B. Objekterkennungsmodelle wie Ultralytics YOLO textbasierte Anmerkungen tokenisieren, um die Kompatibilität mit maschinellen Lernsystemen zu verbessern.

Tokenisierung in der Praxis

Beispiel 1: NLP-Anwendungen

Stell dir einen Chatbot vor, der mit natürlichem Sprachverständnis (NLU) arbeitet. Tokenisierung wandelt Benutzereingaben wie "Wie ist das Wetter in Madrid?" in Token wie ["Was", "'s", "das", "Wetter", "wie", "in", "Madrid", "?"] um. Diese Token werden dann verarbeitet, um eine passende Antwort zu generieren.

Beispiel 2: Teilwort-Tokenisierung für seltene Wörter

In einem Datensatz aus dem Gesundheitswesen kommen seltene medizinische Begriffe wie "Angioplastie" möglicherweise nicht in Standardvokabularen vor. Durch die Tokenisierung von Teilwörtern wird der Begriff in ["angio", "plasty"] zerlegt, so dass die Modelle auch unbekannte Begriffe verstehen und effektiv verarbeiten können. Erfahre mehr über Anwendungen von KI im Gesundheitswesen.

Tokenisierung vs. verwandte Konzepte

Die Tokenisierung ist zwar grundlegend für NLP, unterscheidet sich aber von verwandten Konzepten wie Einbettungen und Aufmerksamkeitsmechanismen. Die Tokenisierung bereitet den Rohtext für die Verarbeitung vor, während die Einbettung Token in numerische Vektoren umwandelt und Aufmerksamkeitsmechanismen die Bedeutung von Token innerhalb einer Sequenz bestimmen.

Tools und Frameworks zur Unterstützung der Tokenisierung

  • PyTorch: Die Tokenisierung wird oft in PyTorch Pipelines für NLP-Aufgaben integriert.
  • Ultralytics HUB: Vereinfacht das Modelltraining und den Einsatz, einschließlich der Vorverarbeitungsschritte wie Tokenisierung.
  • Hugging Face Transformatoren: Bietet vortrainierte Tokenizer für moderne Sprachmodelle.

Zusammenfassend lässt sich sagen, dass die Tokenisierung ein wichtiger Schritt bei der Aufbereitung von Textdaten für KI- und Machine-Learning-Anwendungen ist. Ihre Vielseitigkeit und ihr Nutzen erstrecken sich auf Sentimentanalyse, Klassifizierung, Sprachmodellierung und vieles mehr und machen sie zu einem unverzichtbaren Prozess in modernen KI-Workflows.

Alles lesen