Glossar

Natürliche Sprachverarbeitung (NLP)

Entdecke Konzepte, Techniken und Anwendungen der natürlichen Sprachverarbeitung (NLP) wie Chatbots, Stimmungsanalyse und maschinelle Übersetzung.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Natural Language Processing (NLP) ist ein dynamischer Bereich innerhalb der Künstlichen Intelligenz (KI) und des Maschinellen Lernens (ML), der es Computern ermöglicht, menschliche Sprache - sowohl Text als auch Sprache - zu verstehen, zu verarbeiten, zu interpretieren und zu erzeugen. Es kombiniert Prinzipien aus der Computerlinguistik mit statistischer Modellierung, ML und Deep Learning (DL) Modellen, um die Lücke zwischen menschlicher Kommunikation und Computerverständnis zu schließen. Das ultimative Ziel ist es, Maschinen in die Lage zu versetzen, auf sinnvolle und nützliche Weise mit Sprache zu interagieren und Aufgaben zu automatisieren, die traditionell menschliche Sprachkenntnisse erfordern.

Schlüsselkonzepte im NLP

NLP umfasst mehrere Kernaufgaben, die die Komplexität der Sprache in Komponenten zerlegen, die von Maschinen analysiert und verarbeitet werden können:

  • Tokenisierung: Der erste Schritt, bei dem der Text in kleinere Einheiten wie Wörter oder Unterwörter (Token) zerlegt wird.
  • Erkennung von benannten Entitäten (Named Entity Recognition, NER): Identifizieren und kategorisieren von wichtigen Entitäten in Texten, wie Namen von Personen, Organisationen, Orten, Daten und Geldwerten.
  • Stimmungsanalyse: Bestimmung der emotionalen Stimmung oder der subjektiven Meinung, die in einem Text zum Ausdruck kommt (z. B. positiv, negativ, neutral).
  • Maschinelle Übersetzung: Die automatische Übersetzung von Text oder Sprache von einer Sprache in eine andere, wie sie in Tools wie Google Translate zu finden ist.
  • Sprachmodellierung: Erstellen von Modellen, die die Wahrscheinlichkeit einer Wortfolge vorhersagen, was für Aufgaben wie Texterstellung und Spracherkennung entscheidend ist.

Wie NLP funktioniert

NLP-Systeme verwenden in der Regel einen Pipeline-Ansatz. Die rohen Textdaten werden zunächst einer Datenvorverarbeitung unterzogen, die Aufgaben wie das Bereinigen des Textes (Entfernen irrelevanter Zeichen oder Formatierungen), die Tokenisierung und manchmal die Normalisierung (Umwandlung von Wörtern in eine Basisform) umfasst. Nach der Vorverarbeitung werden die für die Aufgabe relevanten Merkmale extrahiert. Diese Merkmale werden dann in ML- oder DL-Modelle zur Analyse oder Generierung eingegeben.

Modernes NLP stützt sich in hohem Maße auf Neuronale Netze (NNs), insbesondere auf ausgeklügelte Architekturen wie rekurrente Neuronale Netze (RNNs) für sequentielle Daten, und seit kurzem auch auf Transformatoren. Transformers zeichnen sich durch ihre leistungsstarken Aufmerksamkeitsmechanismen aus und haben sich als außerordentlich effektiv erwiesen, wenn es darum geht, weitreichende Abhängigkeiten und Zusammenhänge in der Sprache zu erfassen. Diese Architektur liegt vielen modernen Modellen zugrunde, darunter Varianten von BERT und GPT-Modellen wie GPT-4. Auf Forschungsplattformen wie der ACL Anthology finden sich zahlreiche Beiträge zu diesen Fortschritten.

Anwendungen von NLP

NLP ermöglicht eine Vielzahl von Anwendungen, die die Industrie verändern und die täglichen Interaktionen verbessern. Hier sind zwei prominente Beispiele:

  1. Virtuelle Assistenten und Chatbots: Systeme wie Apples Siri und Amazon Alexa sowie unzählige Chatbots im Kundenservice nutzen NLP in großem Umfang. Sie nutzen Spracherkennung, um gesprochene Wörter in Text umzuwandeln, Natural Language Understanding (NLU), um die Absicht des Nutzers zu erfassen, und manchmal auch Textgenerierung, um Antworten zu formulieren.
  2. E-Mail-Spam-Filterung: NLP-Techniken analysieren E-Mail-Inhalte, um Muster zu erkennen, die für Spam oder Phishing-Versuche charakteristisch sind. Algorithmen klassifizieren E-Mails anhand von Schlüsselwörtern, der Reputation des Absenders und der sprachlichen Struktur und helfen so, den Posteingang sauber und sicher zu halten.

Weitere gängige Anwendungen sind Textzusammenfassungen zur Verdichtung langer Dokumente, semantische Suchmaschinen, die die Bedeutung von Suchanfragen über den einfachen Abgleich von Schlüsselwörtern hinaus verstehen, und Grammatik-/Stilkorrektur-Tools wie Grammarly. Viele innovative KI-Anwendungsfälle stützen sich stark auf NLP.

NLP vs. Verwandte Konzepte

NLP ist zwar verwandt, unterscheidet sich aber von einigen ähnlichen Begriffen:

  • Natürliches Sprachverstehen (NLU): NLU ist ein Teilbereich von NLP, der sich speziell auf den Aspekt des Verstehens konzentriert - das Herausfiltern von Bedeutung, Absicht und Kontext aus der Sprache. NLP ist breiter angelegt und umfasst auch Aufgaben wie Texterstellung und Sprachsynthese.
  • Textgenerierung: Dies ist eine spezielle Fähigkeit oder Aufgabe innerhalb des NLP, die sich auf die Produktion von menschenähnlichem Text konzentriert. Sie ist zwar ein zentraler Bestandteil vieler NLP-Anwendungen (wie Chatbots oder Übersetzungen), deckt aber nicht die Verstehens- oder Analyseaspekte von NLP ab.
  • Computer Vision (CV): CV befasst sich mit der Interpretation und dem Verständnis von Informationen aus visuellen Daten wie Bildern und Videos und konzentriert sich dabei auf Aufgaben wie Objekterkennung oder Bildsegmentierung. NLP hingegen konzentriert sich auf Sprachdaten. Die beiden Bereiche überschneiden sich jedoch zunehmend in multimodalen Modellen, die sowohl Text als auch Bilder verarbeiten und Anwendungen wie automatische Bildunterschriften ermöglichen. Du kannst mehr über die Verknüpfung von NLP und CV lesen. Ultralytics ist auf Lebensläufe spezialisiert und bietet Modelle wie Ultralytics YOLO11 für Aufgaben, die hohe Genauigkeit und Geschwindigkeit erfordern.

Tools und Plattformen

Für die Entwicklung und den Einsatz von NLP-Anwendungen müssen oft spezielle Bibliotheken und Plattformen genutzt werden:

  • Bibliotheken: Open-Source-Bibliotheken wie spaCy und NLTK bieten Werkzeuge für gängige NLP-Aufgaben wie Tokenisierung, Parsing und Entity-Erkennung.
  • Plattformen: Hugging Face bietet ein riesiges Repository an vortrainierten Modellen (insbesondere Transformers), Datensätzen und Tools, die die Entwicklung erheblich beschleunigen. Für die Verwaltung des gesamten Lebenszyklus von ML-Modellen, einschließlich solcher, die in NLP- oder kombinierten CV-NLP-Pipelines verwendet werden, bieten Plattformen wie Ultralytics HUB robuste MLOps-Funktionen, die Training, Einsatz und Überwachung rationalisieren. In der Ultralytics Dokumentation findest du weitere Ressourcen zur Modellentwicklung und -bereitstellung.
Alles lesen