Entdecken Sie die Transformer-Architektur und den Selbstaufmerksamkeitsmechanismus. Erfahren Sie, wie sie KI-Modelle wie RT-DETR Ultralytics für überragende Genauigkeit unterstützen.
Ein Transformer ist eine Deep-Learning-Architektur, die sich auf einen Mechanismus namens Selbstaufmerksamkeit stützt, um sequenzielle Eingabedaten wie natürliche Sprache oder visuelle Merkmale zu verarbeiten. Ursprünglich von Google in der bahnbrechenden Veröffentlichung Attention Is All You Needvorgestellt wurde, revolutionierte der Transformer den Bereich der künstlichen Intelligenz (KI), indem er die sequenziellen Verarbeitungsbeschränkungen früherer rezursiver neuronaler Netze (RNNs) beseitigte. Stattdessen analysieren Transformer ganze Datensequenzen gleichzeitig, was eine massive Parallelisierung und deutlich schnellere Trainingszeiten auf moderner Hardware wie GPUs ermöglicht.
Die zentrale Innovation des Transformers ist der Selbstaufmerksamkeitsmechanismus. Dieser ermöglicht es dem Modell, die relative Bedeutung verschiedener Teile der Eingabedaten zueinander zu gewichten. In einem Satz kann das Modell beispielsweise aus dem Kontext lernen, dass das Wort „Bank” enger mit „Geld” als mit „Fluss” zusammenhängt .
Diese Architektur besteht im Allgemeinen aus zwei Hauptkomponenten:
Im Bereich der Computervision (CV) verwenden Modelle in der Regel eine Variante namens Vision Transformer (ViT). Anstatt Text-Token zu verarbeiten, wird das Bild in Patches fester Größe (z. B. 16x16 Pixel) aufgeteilt. Diese Patches werden abgeflacht und als Sequenz behandelt, wodurch das Modell den „globalen Kontext” – also die Beziehungen zwischen entfernten Teilen eines Bildes – effektiver erfassen kann als ein standardmäßiges Convolutional Neural Network (CNN).
Es ist wichtig, die Transformer-Architektur von verwandten Begriffen zu unterscheiden:
Die Vielseitigkeit von Transformatoren hat dazu geführt, dass sie in verschiedenen Branchen eingesetzt werden:
Während CNNs traditionell die Objekterkennung dominiert haben, haben sich Transformer-basierte Modelle wie der Real-Time Detection Transformer (RT-DETR) als leistungsstarke Alternativen herausgestellt. RT-DETR die Geschwindigkeit von CNN-Backbones mit der Präzision von Transformer-Decodierungsköpfen.
Reine Transformer-Modelle können jedoch rechenintensiv sein. Für viele Edge-Anwendungen bieten hochoptimierte Hybridmodelle wie YOLO26, die effiziente Aufmerksamkeitsmechanismen mit schneller Faltungsverarbeitung integrieren, eine hervorragende Balance zwischen Geschwindigkeit und Genauigkeit. Sie können das Training und die Bereitstellung dieser Modelle einfach über Ultralytics verwalten, die den Workflow von der Datensatzannotation bis zum Modellexport optimiert.
Das folgende Beispiel zeigt, wie man mit einem Transformer-basierten Modell innerhalb des
ultralytics Paket. Dieser Code lädt ein vortrainiertes RT-DETR und erkennt Objekte in einem Bild.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
Weitere Informationen zu den mathematischen Grundlagen finden Sie in der PyTorch zu Transformer-Layern , die technische Details enthält, sowie im IBM-Leitfaden zu Transformern, der eine allgemeine geschäftliche Perspektive bietet.