Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Transformeur

Découvrez l'architecture Transformer et le mécanisme d'auto-attention. Apprenez comment ils alimentent des modèles d'IA tels que RT-DETR Ultralytics pour une précision supérieure.

Un transformateur est une architecture d'apprentissage profond qui s'appuie sur un mécanisme appelé auto-attention pour traiter des données d'entrée séquentielles, telles que le langage naturel ou les caractéristiques visuelles. Initialement présenté par Google dans l'article phare Attention Is All You Need Attention Is All You Need, le Transformer a révolutionné le domaine de l' intelligence artificielle (IA) en supprimant les limites du traitement séquentiel des anciens réseaux neuronaux récurrents (RNN). Au lieu de cela, les Transformers analysent simultanément des séquences entières de données, ce qui permet une parallélisation massive et des temps d'entraînement nettement plus rapides sur du matériel moderne tel que les GPU.

Comment fonctionnent les Transformers

L'innovation principale du Transformer réside dans son mécanisme d'auto-attention. Celui-ci permet au modèle d' évaluer l'importance relative des différentes parties des données d'entrée les unes par rapport aux autres. Par exemple, dans une phrase, le modèle peut apprendre que le mot « banque » est plus étroitement lié à « argent » qu'à « rivière » en se basant sur le contexte environnant.

Cette architecture comprend généralement deux composants principaux :

  • Encodeur : traite les données d'entrée pour les convertir en une représentation numérique riche ou un encapsulage.
  • Décodeur : utilise la sortie du codeur pour générer le résultat final, tel qu'une phrase traduite ou un rectangle de sélection prédit.

Dans le domaine de la vision par ordinateur (CV), les modèles utilisent généralement une variante appelée Vision Transformer (ViT). Au lieu de traiter des tokens de texte, l'image est divisée en patchs de taille fixe (par exemple, 16x16 pixels). Ces patchs sont aplatis et traités comme une séquence, ce qui permet au modèle de capturer le « contexte global » (c'est-à-dire de comprendre les relations entre des parties éloignées d'une image) plus efficacement qu'un réseau neuronal convolutif (CNN) standard.

Transformateurs vs concepts connexes

Il est important de distinguer l'architecture Transformer des termes apparentés :

  • Mécanisme d'attention: il s'agit du concept général consistant à se concentrer sur des parties spécifiques des données. Le Transformer est une architecture spécifique entièrement construite autour de couches d'attention, tandis que d'autres modèles peuvent utiliser l'attention uniquement comme un petit complément.
  • Grand modèle linguistique (LLM): Des termes tels que « GPT » font référence à des modèles spécifiques entraînés sur de vastes quantités de texte. Presque tous les LLM modernes utilisent l' architecture Transformer comme moteur sous-jacent.

Applications concrètes

La polyvalence des transformateurs a conduit à leur adoption dans divers secteurs :

  1. Imagerie médicale : dans le domaine de l' IA appliquée à la santé, les transformateurs sont utilisés pour des tâches complexes telles que l'analyse d'images médicales. Leur capacité à comprendre les relations spatiales globales aide à détecter des anomalies subtiles dans les IRM ou les tomodensitogrammes à haute résolution que les CNN axés sur les caractéristiques locales pourraient manquer.
  2. Systèmes autonomes : pour les véhicules autonomes, il est essentiel de comprendre la trajectoire des piétons et des autres véhicules. Les transformateurs excellent dans la compréhension vidéo en suivant les objets au fil du temps et en prédisant leurs mouvements futurs afin d'assurer une navigation sûre.

Détection d'objets avec des transformateurs

Alors que les CNN ont traditionnellement dominé la détection d'objets, les modèles basés sur Transformer, tels que le Real-Time Detection Transformer (RT-DETR), sont apparus comme des alternatives puissantes. RT-DETR la vitesse des backbones CNN avec la précision des têtes de décodage Transformer.

Cependant, les modèles Transformer purs peuvent être très gourmands en ressources informatiques. Pour de nombreuses applications en périphérie, des modèles hybrides hautement optimisés tels que YOLO26, qui intègrent des mécanismes d'attention efficaces et un traitement convolutif rapide, offrent un équilibre supérieur entre vitesse et précision. Vous pouvez gérer facilement l' entraînement et le déploiement de ces modèles via Ultralytics , qui rationalise le flux de travail, de l'annotation des ensembles de données à l'exportation des modèles.

Python : utilisation de RT-DETR

L'exemple suivant montre comment effectuer une inférence à l'aide d'un modèle basé sur Transformer dans le ultralytics package. Ce code charge un RT-DETR pré-entraîné et détecte les objets dans une image.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Pour en savoir plus sur les fondements mathématiques, PyTorch sur les couches Transformer fournit des informations techniques approfondies, tandis que le guide IBM sur les Transformers offre une perspective commerciale de haut niveau .

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant