Glossar

Transformator

Entdecke, wie Transformers das NLP und den Lebenslauf mit Selbstaufmerksamkeit, paralleler Verarbeitung und realen Anwendungen wie YOLO und ViT revolutionieren.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Der Transformer ist eine Deep-Learning-Modellarchitektur, die 2017 von Vaswani et al. in der bahnbrechenden Arbeit "Attention is All You Need" vorgestellt wurde. Sie hat den Bereich der natürlichen Sprachverarbeitung (NLP) revolutioniert und wird zunehmend auf Aufgaben des Computer Vision (CV) angewendet. Im Gegensatz zu früheren Modellen, die sich auf rekurrente neuronale Netze (RNNs) oder faltbare neuronale Netze (CNNs) stützten, verlassen sich Transformers ausschließlich auf einen Aufmerksamkeitsmechanismus, um globale Abhängigkeiten zwischen Input und Output zu ziehen.

Kernkomponenten von Transformatoren

Die Transformer-Architektur basiert auf einer Encoder-Decoder-Struktur. Der Encoder verarbeitet die Eingangssequenz und erzeugt eine kontextualisierte Darstellung, während der Decoder diese Darstellung verwendet, um die Ausgangssequenz zu erzeugen. Die wichtigste Neuerung ist der Selbstbeobachtungsmechanismus, der es dem Modell ermöglicht, die Wichtigkeit jedes Teils der Eingangssequenz gegenüber allen anderen Teilen abzuwägen. Dieser Mechanismus ermöglicht es dem Modell, weitreichende Abhängigkeiten besser zu erfassen als RNNs.

Wie Transformatoren funktionieren

Transformers verarbeiten Eingabedaten parallel, im Gegensatz zu RNNs, die Daten sequentiell verarbeiten. Diese parallele Verarbeitung wird durch den Self-Attention-Mechanismus ermöglicht, der die Beziehungen zwischen allen Wörtern eines Satzes gleichzeitig berechnet. Das Modell enthält auch Positionskodierungen, um Informationen über die Reihenfolge der Wörter in der Eingabesequenz zu erhalten. Der Kodierer und Dekodierer besteht aus mehreren Schichten, die jeweils neuronale Netze mit Selbstbeobachtung und Vorwärtssteuerung enthalten. Diese Schichtenstruktur ermöglicht es dem Modell, komplexe Muster und Darstellungen aus den Daten zu lernen.

Vorteile von Transformatoren

Transformatoren bieten mehrere Vorteile gegenüber früheren Architekturen. Ihre Fähigkeit, Daten parallel zu verarbeiten, verkürzt die Trainingszeit erheblich. Durch den Mechanismus der Selbstaufmerksamkeit können sie weitreichende Abhängigkeiten effektiver erfassen, was zu einer besseren Leistung bei Aufgaben führt, die ein Verständnis für den Kontext erfordern. Außerdem sind Transformers hochgradig skalierbar und können auf großen Datensätzen trainiert werden, was sie für eine breite Palette von Anwendungen geeignet macht. Die Ultralytics YOLO Modelle unterstützen ein Transformer-Modell, das für die Objekterkennung entwickelt wurde.

Anwendungen in der realen Welt

Transformers wurden bereits erfolgreich für verschiedene NLP-Aufgaben eingesetzt, darunter maschinelle Übersetzung, Textzusammenfassung und Fragenbeantwortung. Der BERT (Bidirectional Encoder Representations from Transformers) vonGoogle und der GPT (Generative Pre-trained Transformer) von OpenAI basieren beide auf der Transformer-Architektur und haben in zahlreichen NLP-Benchmarks Spitzenergebnisse erzielt. In der Computer Vision haben Modelle wie der Vision Transformer (ViT) gezeigt, dass Transformers CNNs bei Bildklassifizierungsaufgaben übertreffen können, indem sie Bilder als Sequenzen von Patches behandeln.

Transformatoren vs. andere Modelle

Im Vergleich zu RNNs zeichnen sich Transformers durch die Erfassung weitreichender Abhängigkeiten aus und können aufgrund ihrer Fähigkeit zur Parallelverarbeitung viel schneller trainiert werden. Während CNNs effizient bei der Verarbeitung von gitterartigen Daten wie Bildern sind, sind Transformers flexibler und können Sequenzen variabler Länge verarbeiten, was sie sowohl für NLP- als auch für CV-Aufgaben geeignet macht. Im Gegensatz zu Large Language Models (LLMs), die in erster Linie auf das Erzeugen und Verstehen von Text ausgerichtet sind, haben Transformers einen breiteren Anwendungsbereich, der sowohl Sprach- als auch Sehaufgaben umfasst.

Die Zukunft der Transformers

Die Transformer-Architektur wird ständig weiterentwickelt, wobei die laufende Forschung darauf abzielt, ihre Effizienz zu verbessern und ihre Anwendungsmöglichkeiten zu erweitern. Innovationen wie Sparse Attention und Linear Attention zielen darauf ab, die Rechenkosten der Selbstaufmerksamkeit zu senken, sodass Transformers auch auf längere Sequenzen angewendet werden können. Die Forscher/innen erforschen auch Möglichkeiten, die Stärken von Transformers mit anderen Architekturen wie CNNs zu kombinieren, um hybride Modelle zu schaffen, die sich für verschiedene Aufgaben eignen. Es wird erwartet, dass Transformers eine immer wichtigere Rolle bei der Weiterentwicklung von Künstlicher Intelligenz (KI) und Maschinellem Lernen (ML) spielen werden. Mehr über diese Fortschritte erfährst du auf dem Ultralytics Blog.

Alles lesen