Glossaire

Transformateur

Découvre comment les architectures Transformer révolutionnent l'IA, en alimentant des percées dans le domaine du NLP, de la vision par ordinateur et des tâches ML avancées.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les transformateurs représentent une architecture de réseau neuronal pivot qui a considérablement fait progresser les domaines de l'intelligence artificielle (IA) et de l'apprentissage machine (ML), en particulier dans le traitement du langage naturel (NLP) et de plus en plus dans la vision par ordinateur (CV). Présentés dans l'article influent"Attention Is All You Need", ils traitent des données séquentielles, comme du texte ou des séries temporelles, à l'aide d'un mécanisme appelé auto-attention. Cela permet au modèle de peser dynamiquement l'importance des différentes parties de l'entrée, surmontant ainsi les principales limitations des architectures plus anciennes telles que les réseaux neuronaux récurrents (RNN).

Comment fonctionnent les transformateurs

L'innovation principale de Transformers est le mécanisme d'auto-attention. Contrairement aux RNN, qui traitent les entrées de manière séquentielle (un élément après l'autre) et peuvent avoir des difficultés avec les longues séquences en raison de problèmes tels que la disparition des gradients, les Transformers peuvent prendre en compte toutes les parties de la séquence d'entrée simultanément. Cette capacité de traitement parallèle accélère considérablement la formation sur le matériel moderne comme les GPU de sociétés telles que NVIDIA.

Alors que les réseaux neuronaux convolutifs (CNN) typiques se concentrent sur les caractéristiques locales grâce à des filtres de taille fixe effectuant une convolution, le mécanisme d'attention permet aux Transformers de capturer les dépendances à longue portée et les relations contextuelles sur l'ensemble de l'entrée. Cette capacité à comprendre le contexte global est cruciale pour les tâches impliquant des relations complexes, qu'il s'agisse de texte ou de patchs d'images utilisés dans les transformateurs de vision (ViT).

Pertinence et impact

Les transformateurs sont devenus la base de nombreux modèles d'IA de pointe en raison de leur efficacité à capturer le contexte et à traiter de longues séquences. Leur nature parallélisable a permis l'entraînement de modèles massifs avec des milliards de paramètres, tels que GPT-3 et GPT-4 développés par OpenAI, conduisant à des percées dans le domaine de l'IA générative. Cette évolutivité et ces performances ont permis aux Transformers de jouer un rôle central dans les progrès réalisés dans diverses tâches d'IA, stimulant ainsi l'innovation dans la recherche et l'industrie. De nombreux modèles populaires de Transformer, comme BERT, sont facilement disponibles sur des plateformes telles que Hugging Face et mis en œuvre à l'aide de cadres tels que PyTorch et TensorFlow, souvent intégrés dans des plateformes MLOps comme Ultralytics HUB.

Applications dans le domaine de l'IA et de la ML

Les transformateurs sont très polyvalents et alimentent de nombreuses applications IA :

Transformateur vs. autres architectures

Il est utile de distinguer les transformateurs des autres architectures de réseaux neuronaux courantes :

  • Transformateurs contre RNN : Les RNN traitent les données de manière séquentielle, ce qui les rend adaptés aux données de séries temporelles, mais les rend susceptibles d'oublier des informations antérieures dans de longues séquences(problème du gradient de disparition). Les transformateurs traitent les séquences en parallèle en utilisant l'auto-attention, en capturant les dépendances à long terme plus efficacement et en s'entraînant plus rapidement sur du matériel parallèle(GPU).
  • Transformateurs et CNN : Les CNN excellent dans l'identification de motifs locaux dans des données en grille (par exemple, les pixels d'une image) à l'aide de filtres convolutifs. Ils sont très efficaces pour de nombreuses tâches de vision telles que celles abordées par Ultralytics YOLO d'Ultralytics. Les transformateurs, en particulier les ViT, divisent les images en patchs et utilisent l'auto-attention pour modéliser les relations entre eux, capturant potentiellement mieux le contexte global mais nécessitant souvent plus de données et de ressources informatiques, en particulier lors de l'entraînement du modèle. Les architectures hybrides, qui combinent des fonctionnalités CNN avec des couches Transformer, visent à tirer parti des forces des deux, comme on le voit dans certaines variantes deRT-DETR . Le choix dépend souvent de la tâche spécifique, de la taille de l'ensemble de données et des ressources informatiques disponibles.
Tout lire