Découvrez les principes fondamentaux de l'auto-attention dans l'apprentissage profond. Découvrez comment les vecteurs Query, Key et Value alimentent les Transformers et Ultralytics pour une IA supérieure.
L'auto-attention est un mécanisme fondamental dans l'apprentissage profond qui permet aux modèles d'évaluer l'importance relative des différents éléments d'une séquence d'entrée les uns par rapport aux autres. Contrairement aux architectures traditionnelles qui traitent les données de manière séquentielle ou se concentrent uniquement sur les voisinages locaux, l'auto-attention permet à un réseau neuronal d'examiner simultanément l'ensemble du contexte . Cette capacité aide les systèmes à identifier des relations complexes entre des parties éloignées des données, telles que les mots d'une phrase ou des régions distinctes d'une image. Elle sert de base à l' architecture Transformer, qui a permis des progrès considérables dans le domaine de l'IA générative et des systèmes de perception modernes .
Le mécanisme imite la concentration cognitive en attribuant un poids, souvent appelé « score d'attention », à chaque caractéristique d'entrée . Pour calculer ces scores, le modèle transforme les données d'entrée, généralement représentées sous forme d' intégrations, en trois vecteurs distincts : la requête, la clé et la valeur.
Le modèle compare la requête d'un élément aux clés de tous les autres éléments afin de déterminer leur compatibilité. Ces scores de compatibilité sont normalisés à l'aide d'une fonction softmax afin de créer des pondérations de type probabiliste. Ces pondérations sont ensuite appliquées aux valeurs, générant ainsi une représentation riche en contexte. Ce processus permet aux grands modèles linguistiques (LLM) et aux systèmes de vision de hiérarchiser les informations importantes tout en filtrant le bruit.
La polyvalence de l'auto-attention a conduit à son adoption généralisée dans divers domaines de l' intelligence artificielle (IA).
Bien qu'ils soient souvent associés à des concepts similaires, ces termes ont des définitions techniques distinctes :
Python suivant montre comment utiliser RTDETR, un détecteur d'objets basé sur Transformer inclus
dans le ultralytics paquet. Contrairement aux réseaux convolutifs standard, ce modèle s'appuie fortement sur l'
auto-attention pour traiter les caractéristiques visuelles.
from ultralytics import RTDETR
# Load the RT-DETR model which utilizes self-attention for detection
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects with global context
# Self-attention helps the model understand relationships between distant objects
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of objects detected
print(f"Detected {len(results[0].boxes)} objects using Transformer attention.")
L'auto-attention a permis de résoudre efficacement le problème de la disparition du gradient qui entravait les anciens réseaux neuronaux récurrents (RNN), permettant ainsi la formation de modèles de base massifs . Bien que très efficace, le coût de calcul de l'auto-attention standard augmente de manière quadratique avec la longueur de la séquence. Pour y remédier, les recherches actuelles se concentrent sur des mécanismes d'attention linéaires efficaces.
Ultralytics ces avancées dans des modèles de pointe tels que YOLO26, qui combine la vitesse des CNN avec la puissance contextuelle de l'attention pour une inférence en temps réel supérieure. Ces modèles optimisés peuvent être facilement formés et déployés via la Ultralytics , rationalisant ainsi le flux de travail des développeurs qui créent la prochaine génération d'applications intelligentes.