Entdecken Sie, wie Aufmerksamkeitsmechanismen die KI revolutionieren, indem sie die menschliche Konzentration nachahmen. Erfahren Sie, wie die Komponenten „Query“, „Key“ und „Value“ die Genauigkeit in Ultralytics verbessern.
Ein Aufmerksamkeitsmechanismus ist eine grundlegende Technik in der künstlichen Intelligenz (KI) , die die menschliche kognitive Fähigkeit nachahmt, sich auf bestimmte Details zu konzentrieren und gleichzeitig irrelevante Informationen zu ignorieren. Im Kontext des Deep Learning (DL)ermöglicht dieser Mechanismus einem neuronales Netzwerk (NN) , verschiedenen Teilen der Eingabedaten dynamisch unterschiedliche Wichtigkeitsebenen oder „Gewichte” zuzuweisen. Anstatt ein gesamtes Bild oder einen gesamten Satz mit gleicher Gewichtung zu verarbeiten, lernt das Modell, sich auf die wichtigsten Merkmale zu konzentrieren – beispielsweise ein bestimmtes Wort in einem Satz, um den Kontext zu verstehen, oder ein bestimmtes Objekt in einer komplexen visuellen Szene. Dieser Durchbruch ist die treibende Kraft hinter dem Transformer , die Bereiche von der natürlichen Sprachverarbeitung (NLP) bis hin zur fortgeschrittenen Computer Vision (CV)revolutioniert hat.
Ursprünglich entwickelt, um Speicherbeschränkungen in rekurrenten neuronalen Netzen (RNNs), befassen sich Aufmerksamkeitsmechanismen mit dem Problem des verschwindenden Gradienten durch die Schaffung direkter Verbindungen zwischen entfernten Teilen einer Datensequenz. Der Prozess wird oft anhand einer Abruf-Analogie beschrieben , die drei Komponenten umfasst: Abfragen, Schlüssel und Werte.
Durch den Vergleich der Abfrage mit verschiedenen Schlüsseln berechnet das Modell einen Aufmerksamkeitswert. Dieser Wert bestimmt, wie viel des Werts abgerufen und zur Bildung der Ausgabe verwendet wird. Dadurch können Modelle weitreichende Abhängigkeiten und Beziehungen zwischen Datenpunkten unabhängig von deren Abstand zueinander zu verstehen.
Aufmerksamkeitsmechanismen haben einige der sichtbarsten Fortschritte in der modernen Technologie ermöglicht.
Es ist wichtig, Aufmerksamkeit von Convolutional Neural Networks (CNNs)zu unterscheiden. Während CNNs Daten lokal unter Verwendung eines festen Fensters (Kernel) verarbeiten, um detect und Texturen detect , verarbeitet die Aufmerksamkeit Daten global und setzt jeden Teil der Eingabe in Beziehung zu jedem anderen Teil.
Während hochmoderne Modelle wie Ultralytics für die Echtzeit-Inferenz unter Verwendung fortschrittlicher CNN-Strukturen optimiert sind, sind hybride Architekturen wie RT-DETR (Real-Time Detection Transformer) nutzen explizit die Aufmerksamkeit, um eine hohe Genauigkeit zu erreichen. Beide Modelltypen lassen sich mit der Ultralytics einfach trainiert und eingesetzt werden.
Das folgende Python zeigt, wie man eine Inferenz mit RT-DETR, eine Modellarchitektur,
die im Wesentlichen auf Aufmerksamkeitsmechanismen für
Objekterkennung.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")