Glossar

BERT (Bidirektionale Encoder-Darstellungen von Transformatoren)

Entdecke BERT, das revolutionäre NLP-Modell von Google. Erfahre, wie sein bidirektionales Kontextverständnis KI-Aufgaben wie Suche und Chatbots verändert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

BERT steht für Bidirectional Encoder Representations from Transformers und ist eine bahnbrechende Technik für das Vortraining von natürlicher Sprachverarbeitung (NLP), die von Forschern bei Google AI Language entwickelt wurde. BERT wurde 2018 eingeführt und revolutioniert die Art und Weise, wie Maschinen menschliche Sprache verstehen, indem es die erste bidirektionale, unüberwachte Sprachrepräsentation ist, die nur mit einem einfachen Textkorpus trainiert wird. Es nutzt die leistungsstarke Transformer-Architektur, insbesondere den Encoder-Teil, um Wörter in Relation zu allen anderen Wörtern in einem Satz zu verarbeiten, anstatt sie nacheinander zu verarbeiten.

Wie Bert funktioniert

Im Gegensatz zu früheren Modellen, die den Text nur in einer Richtung verarbeiten (entweder von links nach rechts oder von rechts nach links), verarbeitet BERT die gesamte Wortfolge auf einmal. Dieser bidirektionale Ansatz ermöglicht es, den Kontext eines Wortes auf der Grundlage der umgebenden Wörter zu erfassen, sowohl der vorangehenden als auch der nachfolgenden. Stell dir vor, du versuchst, die Bedeutung des Wortes "Bank" in "Ich ging zur Bank, um Geld einzuzahlen" und "Ich saß am Flussufer" zu verstehen. Die Bidirektionalität des BERT hilft ihm, diese Bedeutungen effektiv zu unterscheiden. BERT lernt diese Zusammenhänge, indem es mit Hilfe von Techniken wie Masked Language Modeling (Vorhersage versteckter Wörter) und Next Sentence Prediction (Vorhersage des nächsten Satzes) auf großen Mengen von Textdaten wie Wikipedia trainiert wird. Das so trainierte Modell, das reichhaltige Spracheinbettungen enthält, kann dann mit kleineren, aufgabenspezifischen Datensätzen schnell für bestimmte nachgelagerte NLP-Aufgaben angepasst oder"feinabgestimmt" werden.

Hauptmerkmale und Vorteile

  • Bidirektionaler Kontext: Versteht die Wortbedeutung auf der Grundlage des vollständigen Satzkontextes und verbessert die Genauigkeit bei Aufgaben, die ein tiefes Sprachverständnis erfordern.
  • Pre-Training und Feinabstimmung: Bietet leistungsstarke vortrainierte Modelle, die das allgemeine Sprachverständnis erfassen und leicht an spezifische Anwendungen wie Stimmungsanalyse oder Fragenbeantwortung angepasst werden können. Dadurch wird der Bedarf an großen gelabelten Datensätzen für jede Aufgabe erheblich reduziert.
  • Hochmoderne Leistung: Erzielte bei seiner Veröffentlichung bahnbrechende Ergebnisse in einer Vielzahl von NLP-Benchmarks und setzte damit einen neuen Standard für Sprachmodelle. Die ursprüngliche Forschungsarbeit kannst du im ArXiv-Paper des BERT nachlesen.
  • Vielseitigkeit: Kann für verschiedene NLP-Aufgaben eingesetzt werden, z. B. Textklassifizierung, Erkennung von benannten Entitäten und Inferenz natürlicher Sprache.

Anwendungen in der realen Welt

Die Fähigkeit des BERT, sprachliche Nuancen zu verstehen, hat zu erheblichen Verbesserungen bei verschiedenen Anwendungen geführt:

  1. Suchmaschinen: Google hat BERT in seine Suchmaschine integriert, um Nutzeranfragen besser zu verstehen. Wie im Google AI Blog-Beitrag über BERT in der Suche beschrieben, hilft dies dabei, relevantere Suchergebnisse zu liefern, indem der Kontext und die Absicht hinter komplexen oder konversationellen Suchanfragen erfasst werden.
  2. Konversations-KI: Das BERT verbessert Chatbots und virtuelle Assistenten, indem es sie in die Lage versetzt, Benutzeranfragen besser zu verstehen, den Kontext während der Konversation beizubehalten und genauere und hilfreichere Antworten zu geben. Dies führt zu natürlicheren und effektiveren Interaktionen zwischen Mensch und Computer.

Andere Anwendungen sind die Verbesserung von Tools zur Textzusammenfassung und die Verbesserung von maschinellen Übersetzungssystemen.

Bert im Vergleich zu ähnlichen Modellen

BERT konzentriert sich in erster Linie auf die Codierung von Text für Verstehensaufgaben. Seine bidirektionale Natur steht im Gegensatz zu früheren unidirektionalen Modellen wie den einfachen rekurrenten neuronalen Netzen (RNNs). BERT basiert zwar auch auf der Transformer-Architektur, unterscheidet sich aber von Modellen wie GPT (Generative Pre-trained Transformer), die in der Regel für die Generierung von Text optimiert sind, anstatt ihn nur zu kodieren. Die Transformer-Architektur selbst wurde auch für Computer-Vision-Aufgaben angepasst, wie z. B. in Modellen wie dem Vision Transformer (ViT), was die Flexibilität der Architektur über NLP hinaus zeigt. Viele vortrainierte BERT-Modelle sind auf Plattformen wie Hugging Face verfügbar und können mit Tools wie Ultralytics HUB in Arbeitsabläufe integriert werden.

Alles lesen