Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Self-Attention

Entdecken Sie die Grundlagen der Selbstaufmerksamkeit im Deep Learning. Erfahren Sie, wie Query-, Key- und Value-Vektoren Transformers und Ultralytics für überlegene KI unterstützen.

Selbstaufmerksamkeit ist ein grundlegender Mechanismus im Deep Learning, der es Modellen ermöglicht, die Bedeutung verschiedener Elemente innerhalb einer Eingabesequenz relativ zueinander zu gewichten. Im Gegensatz zu herkömmlichen Architekturen, die Daten sequenziell verarbeiten oder sich nur auf lokale Nachbarschaften konzentrieren, ermöglicht die Selbstaufmerksamkeit einem neuronalen Netzwerk, den gesamten Kontext gleichzeitig zu untersuchen. Diese Fähigkeit hilft Systemen, komplexe Beziehungen zwischen weit voneinander entfernten Teilen von Daten zu identifizieren, wie z. B. Wörtern in einem Satz oder unterschiedlichen Bereichen in einem Bild. Sie dient als Kernbaustein für die Transformer-Architektur, die massive Fortschritte in der generativen KI und modernen Wahrnehmungssystemen vorangetrieben hat.

Wie Self-Attention funktioniert

Der Mechanismus ahmt den kognitiven Fokus nach, indem er jedem Eingabemerkmal ein Gewicht zuweist, das oft als „Aufmerksamkeitswert” bezeichnet wird. Um diese Werte zu berechnen, wandelt das Modell die Eingabedaten – die in der Regel als Einbettungendargestellt werden – in drei verschiedene Vektoren um: die Abfrage, den Schlüssel und den Wert.

  • Abfrage (Q): Stellt das aktuelle Element dar, das nach relevantem Kontext aus dem Rest der Sequenz sucht.
  • Schlüssel (K): Dient als Bezeichnung oder Kennung für jedes Element in der Sequenz, mit der die Abfrage abgeglichen wird .
  • Wert (V): Enthält den tatsächlichen Informationsgehalt des Elements, das aggregiert wird.

Das Modell vergleicht die Abfrage eines Elements mit den Schlüsseln aller anderen Elemente, um die Kompatibilität zu bestimmen. Diese Kompatibilitätswerte werden mithilfe einer Softmax-Funktion normalisiert, um wahrscheinlichkeitsähnliche Gewichte zu erstellen. Diese Gewichte werden dann auf die Werte angewendet, wodurch eine kontextreiche Darstellung entsteht. Dieser Prozess ermöglicht es großen Sprachmodellen (LLMs) und Bildverarbeitungssystemen , wichtige Informationen zu priorisieren und gleichzeitig Störsignale herauszufiltern.

Anwendungsfälle in der Praxis

Die Vielseitigkeit der Selbstaufmerksamkeit hat zu ihrer weit verbreiteten Anwendung in verschiedenen Bereichen der Künstlichen Intelligenz (KI) geführt.

  • Natürliche Sprachverarbeitung (Natural Language Processing, NLP): Bei Aufgaben wie der maschinellen Übersetzung löst Selbstaufmerksamkeit Mehrdeutigkeiten auf, indem sie Pronomen mit ihren Referenzen verknüpft. In dem Satz „Das Tier überquerte die Straße nicht, weil es zu müde war” verwendet das Modell beispielsweise Selbstaufmerksamkeit, um „es” stark mit „Tier” statt mit „Straße” zu assoziieren. Dieses Kontextbewusstsein ist die Grundlage für Tools wie Google .
  • Globaler Bildkontext: In der Computer Vision (CV) teilen Architekturen wie der Vision Transformer (ViT) Bilder in Patches auf und wenden Selbstaufmerksamkeit an, um die Szene global zu verstehen. Dies ist entscheidend für die Objekterkennung in komplexen Umgebungen, in denen die Identifizierung eines Objekts vom Verständnis seiner Umgebung abhängt.

Unterscheidung verwandter Begriffe

Obwohl diese Begriffe oft zusammen mit ähnlichen Konzepten diskutiert werden, haben sie unterschiedliche technische Definitionen:

  • Aufmerksamkeitsmechanismus: Die breite Kategorie von Techniken, die es Modellen ermöglichen, sich auf bestimmte Datenteile zu konzentrieren. Sie umfasst Cross-Attention, bei der ein Modell eine Sequenz (wie eine Decoder-Ausgabe) verwendet, um eine andere Sequenz (wie eine Encoder-Eingabe) abzufragen.
  • Selbstaufmerksamkeit: Eine spezifische Art der Aufmerksamkeit, bei der die Abfrage, der Schlüssel und der Wert alle aus derselben Eingabesequenz stammen. Sie wurde entwickelt, um interne Abhängigkeiten innerhalb eines einzelnen Datensatzes zu lernen.
  • Flash Attention: Ein von Forschern der Stanford University entwickelter Optimierungsalgorithmus, der die Berechnung der Selbstaufmerksamkeit auf GPUs erheblich beschleunigt und speichereffizienter macht, ohne die mathematische Ausgabe zu verändern.

Code-Beispiel

Der folgende Python zeigt, wie man RTDETR, ein Transformer-basierter Objektdetektor, der in der ultralytics Paket. Im Gegensatz zu herkömmlichen Faltungsnetzwerken stützt sich dieses Modell stark auf Selbstaufmerksamkeit, um visuelle Merkmale zu verarbeiten.

from ultralytics import RTDETR

# Load the RT-DETR model which utilizes self-attention for detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
# Self-attention helps the model understand relationships between distant objects
results = model("https://ultralytics.com/images/bus.jpg")

# Print the number of objects detected
print(f"Detected {len(results[0].boxes)} objects using Transformer attention.")

Entwicklung und zukünftige Auswirkungen

Selbstaufmerksamkeit löste effektiv das Problem des verschwindenden Gradienten, das frühere rezessive neuronale Netze (RNNs) behinderte, und ermöglichte so das Training massiver Grundlagenmodelle. Obwohl sie sehr effektiv ist, steigen die Rechenkosten der Standard-Selbstaufmerksamkeit quadratisch mit der Sequenzlänge. Um dieses Problem anzugehen, konzentriert sich die aktuelle Forschung auf effiziente lineare Aufmerksamkeitsmechanismen.

Ultralytics diese Fortschritte in hochmoderne Modelle wie YOLO26, das die Geschwindigkeit von CNNs mit der kontextbezogenen Leistung der Aufmerksamkeit für überlegene Echtzeit-Inferenz kombiniert. Diese optimierten Modelle können über die Ultralytics einfach trainiert und eingesetzt werden, wodurch der Workflow für Entwickler, die die nächste Generation intelligenter Anwendungen erstellen, optimiert wird.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten