Découvrez l'architecture Transformer et le mécanisme d'auto-attention. Apprenez comment ils alimentent des modèles d'IA tels que RT-DETR Ultralytics pour une précision supérieure.
Un transformateur est une architecture d'apprentissage profond qui s'appuie sur un mécanisme appelé auto-attention pour traiter des données d'entrée séquentielles, telles que le langage naturel ou les caractéristiques visuelles. Initialement présenté par Google dans l'article phare Attention Is All You Need Attention Is All You Need, le Transformer a révolutionné le domaine de l' intelligence artificielle (IA) en supprimant les limites du traitement séquentiel des anciens réseaux neuronaux récurrents (RNN). Au lieu de cela, les Transformers analysent simultanément des séquences entières de données, ce qui permet une parallélisation massive et des temps d'entraînement nettement plus rapides sur du matériel moderne tel que les GPU.
L'innovation principale du Transformer réside dans son mécanisme d'auto-attention. Celui-ci permet au modèle d' évaluer l'importance relative des différentes parties des données d'entrée les unes par rapport aux autres. Par exemple, dans une phrase, le modèle peut apprendre que le mot « banque » est plus étroitement lié à « argent » qu'à « rivière » en se basant sur le contexte environnant.
Cette architecture comprend généralement deux composants principaux :
Dans le domaine de la vision par ordinateur (CV), les modèles utilisent généralement une variante appelée Vision Transformer (ViT). Au lieu de traiter des tokens de texte, l'image est divisée en patchs de taille fixe (par exemple, 16x16 pixels). Ces patchs sont aplatis et traités comme une séquence, ce qui permet au modèle de capturer le « contexte global » (c'est-à-dire de comprendre les relations entre des parties éloignées d'une image) plus efficacement qu'un réseau neuronal convolutif (CNN) standard.
Il est important de distinguer l'architecture Transformer des termes apparentés :
La polyvalence des transformateurs a conduit à leur adoption dans divers secteurs :
Alors que les CNN ont traditionnellement dominé la détection d'objets, les modèles basés sur Transformer, tels que le Real-Time Detection Transformer (RT-DETR), sont apparus comme des alternatives puissantes. RT-DETR la vitesse des backbones CNN avec la précision des têtes de décodage Transformer.
Cependant, les modèles Transformer purs peuvent être très gourmands en ressources informatiques. Pour de nombreuses applications en périphérie, des modèles hybrides hautement optimisés tels que YOLO26, qui intègrent des mécanismes d'attention efficaces et un traitement convolutif rapide, offrent un équilibre supérieur entre vitesse et précision. Vous pouvez gérer facilement l' entraînement et le déploiement de ces modèles via Ultralytics , qui rationalise le flux de travail, de l'annotation des ensembles de données à l'exportation des modèles.
L'exemple suivant montre comment effectuer une inférence à l'aide d'un modèle basé sur Transformer dans le
ultralytics package. Ce code charge un RT-DETR pré-entraîné et détecte les objets dans une image.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
Pour en savoir plus sur les fondements mathématiques, PyTorch sur les couches Transformer fournit des informations techniques approfondies, tandis que le guide IBM sur les Transformers offre une perspective commerciale de haut niveau .