Glossar

BERT (Bidirektionale Encoder-Darstellungen von Transformatoren)

Entdecke BERT, das revolutionäre NLP-Modell von Google. Erfahre, wie sein bidirektionales Kontextverständnis KI-Aufgaben wie Suche und Chatbots verändert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

BERT steht für Bidirectional Encoder Representations from Transformers und ist eine bahnbrechende Technik für das Pre-Training von Natural Language Processing (NLP), die von Forschern bei Google AI Language entwickelt wurde. BERT wurde 2018 in dem einflussreichen Papier"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" vorgestellt und revolutionierte die Art und Weise, wie Maschinen menschliche Sprache verstehen. Es war eine der ersten tiefen bidirektionalen, unüberwachten Sprachrepräsentationen, die nur mit einem einfachen Textkorpus wie Wikipedia trainiert wurden. BERT nutzt die leistungsstarke Transformer-Architektur, insbesondere den Encoder-Teil, um Wörter in Beziehung zu allen anderen Wörtern in einem Satz gleichzeitig und nicht nacheinander zu verarbeiten. Dies ermöglicht im Vergleich zu früheren unidirektionalen Modellen ein tieferes Verständnis des Kontexts.

Wie Bert funktioniert

Im Gegensatz zu früheren Modellen, die den Text in einer einzigen Richtung (entweder von links nach rechts oder von rechts nach links) verarbeitet haben, verarbeitet BERT mit seinem Transformer-Encoder und dem Selbstbeobachtungsmechanismus die gesamte Wortfolge auf einmal. Dieser bidirektionale Ansatz ermöglicht es ihm, den Kontext eines Wortes auf der Grundlage der umgebenden Wörter zu erfassen, sowohl der vorangehenden als auch der nachfolgenden. Zum Beispiel kann BERT die Bedeutung von "Bank" in "Ich muss zur Bank gehen, um Geld abzuheben" von "Das Flussufer war schlammig" unterscheiden, indem es den gesamten Satzkontext berücksichtigt.

BERT lernt diese komplexen sprachlichen Beziehungen in einer Pre-Trainingsphase anhand großer Mengen von Textdaten. Dies beinhaltet zwei wichtige unbeaufsichtigte Aufgaben:

  1. Maskiertes Sprachmodell (MLM): Ein gewisser Prozentsatz der eingegebenen Token (Wörter oder Teilwörter) wird nach dem Zufallsprinzip maskiert (versteckt), und das Modell lernt, diese maskierten Token auf der Grundlage ihres Kontexts vorherzusagen.
  2. Next Sentence Prediction (NSP): Das Modell empfängt Satzpaare und lernt, vorherzusagen, ob der zweite Satz der tatsächliche nächste Satz ist, der auf den ersten im Originaltext folgt, oder nur ein zufälliger Satz.

Das Ergebnis dieses Vortrainings ist ein Modell mit umfangreichen Spracheinbettungen, die Syntax und Semantik erfassen. Dieses vortrainierte BERT-Modell kann dann mit kleineren, aufgabenspezifischen Datensätzen schnell für verschiedene nachgelagerte NLP-Aufgaben angepasst oder"feinabgestimmt" werden. Dieser Prozess der Nutzung von vortrainiertem Wissen ist eine Form des Transferlernens.

Hauptmerkmale und Vorteile

  • Tiefer bidirektionaler Kontext: Die wichtigste Innovation von BERT ist seine Fähigkeit, den Kontext eines Wortes zu verstehen, indem es die Wörter, die vor und nach dem Wort kommen, gleichzeitig betrachtet. Dies führt zu einem viel umfassenderen und genaueren Verständnis von Sprachnuancen im Vergleich zu unidirektionalen Modellen wie frühen Versionen von GPT.
  • Leistung auf dem neuesten Stand der Technik: Bei seiner Veröffentlichung erzielte der BERT bei einer Vielzahl von NLP-Benchmarks die besten Ergebnisse, z. B. bei der Beantwortung von Fragen (wie dem SQuAD-Datensatz) und beim Verstehen natürlicher Sprache (NLU).
  • Das Kraftpaket des Transfer Learning: Die vortrainierten Modelle von BERT dienen als leistungsstarke Grundlage. Durch die Feinabstimmung von BERT auf bestimmte Aufgaben wie Sentiment-Analyse oder Named Entity Recognition (NER) können Entwickler mit deutlich weniger aufgabenspezifischen Daten und Trainingszeit eine hohe Leistung erzielen, als wenn sie ein Modell von Grund auf trainieren würden.
  • Breite Verfügbarkeit: Vorgefertigte BERT-Modelle sind leicht zugänglich über Plattformen wie Hugging Face zugänglich und können mit gängigen Deep Learning (DL) -Frameworks verwendet werden, z. B. PyTorch und TensorFlow.

Anwendungen in der realen Welt

Die Fähigkeit des BERT, Sprachnuancen zu verstehen, hat zu erheblichen Verbesserungen in verschiedenen realen Anwendungen der Künstlichen Intelligenz (KI) geführt:

  • Suchmaschinen: Die Google hat BERT eingeführt, um Nutzeranfragen besser zu verstehen, vor allem wenn es sich um konversationelle oder komplexe Anfragen handelt, was zu relevanteren Suchergebnissen führt. Wie in einem BlogbeitragGoogle AI erklärt, hilft BERT dabei, die Absicht hinter Suchanfragen wie "Kannst du Medikamente für eine Apotheke besorgen" zu verstehen, indem es die Bedeutung von Präpositionen wie "für" und "zu" erkennt.
  • Chatbots und virtuelle Assistenten: BERT verbessert die Fähigkeit von Chatbots und virtuellen Assistenten, Benutzeranfragen genauer zu verstehen, den Kontext in Unterhaltungen beizubehalten und hilfreichere Antworten im Kundenservice, in Buchungssystemen und bei der Informationsbeschaffung zu geben.
  • Stimmungsanalyse: Unternehmen nutzen BERT-basierte Modelle zur Analyse von Kundenrezensionen, Kommentaren in sozialen Medien und Umfrageantworten, um die öffentliche Meinung und das Produktfeedback mit höherer Genauigkeit zu erfassen.
  • Textzusammenfassung und Fragenbeantwortung: BERT kann so angepasst werden, dass Systeme entstehen, die automatisch lange Dokumente zusammenfassen(Textzusammenfassung) oder Fragen zu einer bestimmten Textpassage beantworten.

BERT wird zwar in erster Linie in der NLP eingesetzt, aber die von ihm entwickelte Transformer-Architektur hat auch zu Fortschritten in der Computer Vision (CV) geführt, z. B. zu den Vision Transformers (ViT), die in Modellen wie RT-DETR. Plattformen wie Ultralytics HUB erleichtern das Training und den Einsatz verschiedener KI-Modelle, einschließlich solcher, die auf Transformer-Prinzipien aufbauen.

Alles lesen