Glossaire

Transformateur

Découvrez comment les architectures Transformer révolutionnent l'IA, en permettant des percées dans les domaines du NLP, de la vision par ordinateur et des tâches avancées de ML.

Un Transformer est une architecture de réseau neuronal révolutionnaire qui est devenue une pierre angulaire de l'intelligence artificielle (IA) moderne, en particulier dans le traitement du langage naturel (NLP) et, plus récemment, la vision par ordinateur (CV). Présentée par les chercheurs de Google dans l'article de 2017 intitulé "Attention Is All You Need", son innovation clé est le mécanisme d'auto-attention, qui permet au modèle d'évaluer l'importance des différents mots ou parties d'une séquence d'entrée. Cela lui permet de capturer les dépendances à long terme et les relations contextuelles plus efficacement que les architectures précédentes. La conception permet également une parallélisation massive, ce qui rend possible l'entraînement de modèles beaucoup plus importants sur des ensembles de données massifs, ce qui a conduit à l'essor des grands modèles de langage (LLM).

Comment fonctionnent les transformateurs

Contrairement aux modèles séquentiels tels que les réseaux neuronaux récurrents (RNN), les transformateurs traitent des séquences entières de données en une seule fois. L'idée de base est de traiter tous les éléments en parallèle, ce qui accélère considérablement la formation sur du matériel moderne comme les GPU.

Pour comprendre l'ordre de la séquence sans récurrence, les transformateurs utilisent une technique appelée codage positionnel, qui ajoute des informations sur la position de chaque élément (par exemple, un mot dans une phrase) à son intégration. Les couches d'auto-attention traitent ensuite ces encastrements, ce qui permet à chaque élément de "regarder" tous les autres éléments de la séquence et de déterminer ceux qui sont les plus pertinents pour comprendre sa signification. Cette connaissance globale du contexte est un avantage majeur pour les tâches complexes. Des frameworks tels que PyTorch et TensorFlow offrent un support étendu pour la construction de modèles basés sur des transformateurs.

Applications des transformateurs

L'impact de Transformers s'étend à de nombreux domaines, entraînant des progrès dans les tâches liées au langage et à la vision.

  1. Traduction et génération de langues: Des services comme Google Translate utilisent des modèles basés sur des transformateurs pour une traduction automatique de haute qualité. Le modèle peut prendre en compte l'intégralité de la phrase source pour produire une traduction plus fluide et plus précise. De même, des modèles comme GPT-4 excellent dans la génération de texte en comprenant le contexte pour créer des paragraphes cohérents, rédiger des articles ou alimenter des chatbots avancés.
  2. Vision par ordinateur: Le transformateur de vision (ViT) adapte l'architecture aux tâches basées sur l'image. Il traite une image comme une séquence de taches et utilise l'auto-attention pour modéliser les relations entre elles. Cette approche est utilisée dans des modèles tels que RT-DETR pour la détection d'objets, où la compréhension du contexte global d'une scène peut aider à identifier les objets avec plus de précision, en particulier dans les environnements encombrés. Vous pouvez comparer RT-DETR et YOLOv8 pour comprendre leurs différences architecturales.

Transformateur et autres architectures

Il est utile de distinguer les transformateurs des autres architectures de réseaux neuronaux courantes :

  • Transformateurs contre RNN : Les RNN traitent les données de manière séquentielle, ce qui les rend intrinsèquement lents et sensibles au problème de la disparition du gradient, qui leur fait oublier des informations antérieures dans de longues séquences. Les transformateurs surmontent ce problème grâce au traitement parallèle et à l'auto-attention, ce qui leur permet de saisir les dépendances à long terme de manière beaucoup plus efficace.
  • Transformateurs et réseaux neuronaux convolutifs (CNN) : Les réseaux neuronaux convolutifs (CNN) sont très efficaces pour les tâches visuelles, car ils utilisent des filtres convolutifs pour identifier des motifs locaux dans des données en forme de grille, comme les pixels. Ils constituent la base de modèles tels que la famille YOLO d'Ultralytics. Les transformateurs, en revanche, capturent les relations globales mais nécessitent souvent plus de données et de ressources de calcul. Les modèles hybrides, qui combinent une colonne vertébrale CNN avec des couches Transformer, visent à obtenir le meilleur des deux mondes.

Variantes de transformateurs efficaces

Le coût de calcul de l'auto-attention complète du transformateur original croît de façon quadratique avec la longueur de la séquence, ce qui rend difficile l'utilisation de très longues séquences. Cela a conduit au développement de variantes plus efficaces.

  • Longformer: Utilise un mécanisme d'attention à fenêtre glissante combiné à une attention globale sur des mots spécifiques afin de réduire la complexité des calculs.
  • Reformer: Emploie des techniques telles que le hachage sensible à la localité pour approximer l'attention totale, ce qui la rend plus efficace en termes de mémoire.
  • Transformer-XL: introduit un mécanisme de récurrence qui permet au modèle d'apprendre les dépendances au-delà d'une longueur fixe, ce qui est particulièrement utile pour la modélisation linguistique autorégressive.

Ces progrès continuent d'étendre l'applicabilité des Transformers à de nouveaux problèmes. Des outils et des plateformes comme Hugging Face et Ultralytics HUB permettent aux développeurs d'accéder plus facilement à ces puissants modèles et de les déployer.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers