Glossaire

Transformateur

Découvre comment les architectures Transformer révolutionnent l'IA, en alimentant des percées dans le domaine du NLP, de la vision par ordinateur et des tâches ML avancées.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les transformateurs représentent une architecture de réseau neuronal pivot qui a considérablement fait progresser les domaines de l'intelligence artificielle (IA) et de l'apprentissage machine (ML), en particulier dans le traitement du langage naturel (NLP) et de plus en plus dans la vision par ordinateur. Présentés dans l'article influent"Attention Is All You Need", ils traitent des données séquentielles, comme du texte ou des séries temporelles, en utilisant un mécanisme appelé auto-attention, qui permet au modèle d'évaluer l'importance des différentes parties de l'entrée de façon dynamique. Cette approche permet de surmonter les principales limitations des architectures plus anciennes telles que les réseaux neuronaux récurrents (RNN).

Comment fonctionnent les transformateurs

L'innovation principale de Transformers est le mécanisme d'auto-attention. Contrairement aux réseaux neuronaux récurrents (RNN), qui traitent les entrées de manière séquentielle et peuvent avoir du mal à traiter de longues séquences en raison de problèmes tels que l'évanouissement des gradients, Transformers peut prendre en compte toutes les parties de la séquence d'entrée simultanément. Cette capacité de traitement parallèle accélère considérablement la formation sur le matériel moderne comme les GPU. Contrairement aux réseaux neuronaux convolutifs (CNN) typiques qui se concentrent sur les caractéristiques locales grâce à des noyaux de taille fixe, l'attention permet aux Transformers de capturer les dépendances à longue portée et les relations contextuelles sur l'ensemble de l'entrée, qu'il s'agisse de texte ou de parcelles d'images.

Pertinence et impact

Les transformateurs sont devenus la base de nombreux modèles d'IA de pointe en raison de leur efficacité à capturer le contexte et à traiter de longues séquences. Leur nature parallélisable a permis la formation de modèles massifs avec des milliards de paramètres, tels que GPT-3 et GPT-4, conduisant à des percées dans l'IA générative. Cette évolutivité et ces performances ont permis aux Transformers de jouer un rôle central dans l'avancement de diverses tâches d'IA, stimulant ainsi l'innovation dans la recherche et l'industrie. De nombreux modèles populaires de Transformers sont facilement disponibles sur des plateformes telles que Hugging Face et mis en œuvre à l'aide de cadres tels que PyTorch et TensorFlow.

Applications dans le domaine de l'IA et de la ML

Les transformateurs sont très polyvalents et alimentent de nombreuses applications IA :

Transformateurs et autres architectures

Par rapport aux RNN, les Transformers offrent une meilleure gestion des dépendances à longue portée et une parallélisation supérieure, ce qui les rend plus adaptés aux grands ensembles de données et aux modèles. Par rapport aux CNN traditionnels, qui excellent à capturer les hiérarchies spatiales locales à l'aide de convolutions, les Transformers (en particulier les ViT) peuvent modéliser les relations globales au sein des données de manière plus efficace grâce à l'auto-attention. Cependant, les architectures hybrides combinent souvent les forces des deux, en utilisant les CNN pour l'extraction des caractéristiques initiales et les Transformers pour la compréhension contextuelle, comme on le voit dans des modèles tels que RT-DETR. Le choix entre ces architectures dépend souvent de la tâche spécifique, des caractéristiques des données et des ressources informatiques disponibles, impliquant souvent des techniques comme l'apprentissage par transfert à partir de modèles pré-entraînés disponibles sur des plateformes comme Ultralytics HUB.

Tout lire