Découvre comment les architectures Transformer révolutionnent l'IA, en alimentant des percées dans le domaine du NLP, de la vision par ordinateur et des tâches ML avancées.
Les transformateurs représentent une architecture de réseau neuronal pivot qui a considérablement fait progresser les domaines de l'intelligence artificielle (IA) et de l'apprentissage machine (ML), en particulier dans le traitement du langage naturel (NLP) et de plus en plus dans la vision par ordinateur (CV). Présentés dans l'article influent"Attention Is All You Need", ils traitent des données séquentielles, comme du texte ou des séries temporelles, à l'aide d'un mécanisme appelé auto-attention. Cela permet au modèle de peser dynamiquement l'importance des différentes parties de l'entrée, surmontant ainsi les principales limitations des architectures plus anciennes telles que les réseaux neuronaux récurrents (RNN).
Les transformateurs sont devenus la base de nombreux modèles d'IA de pointe en raison de leur efficacité à capturer le contexte et à traiter de longues séquences. Leur nature parallélisable a permis l'entraînement de modèles massifs avec des milliards de paramètres, tels que GPT-3 et GPT-4 développés par OpenAI, conduisant à des percées dans le domaine de l'IA générative. Cette évolutivité et ces performances ont permis aux Transformers de jouer un rôle central dans les progrès réalisés dans diverses tâches d'IA, stimulant ainsi l'innovation dans la recherche et l'industrie. De nombreux modèles populaires de Transformer, comme BERT, sont facilement disponibles sur des plateformes telles que Hugging Face et mis en œuvre à l'aide de cadres tels que PyTorch et TensorFlow, souvent intégrés dans des plateformes MLOps comme Ultralytics HUB.
Les transformateurs sont très polyvalents et alimentent de nombreuses applications IA :
Il est utile de distinguer les transformateurs des autres architectures de réseaux neuronaux courantes :
Comment fonctionnent les transformateurs
L'innovation principale de Transformers est le mécanisme d'auto-attention. Contrairement aux RNN, qui traitent les entrées de manière séquentielle (un élément après l'autre) et peuvent avoir des difficultés avec les longues séquences en raison de problèmes tels que la disparition des gradients, les Transformers peuvent prendre en compte toutes les parties de la séquence d'entrée simultanément. Cette capacité de traitement parallèle accélère considérablement la formation sur le matériel moderne comme les GPU de sociétés telles que NVIDIA.
Alors que les réseaux neuronaux convolutifs (CNN) typiques se concentrent sur les caractéristiques locales grâce à des filtres de taille fixe effectuant une convolution, le mécanisme d'attention permet aux Transformers de capturer les dépendances à longue portée et les relations contextuelles sur l'ensemble de l'entrée. Cette capacité à comprendre le contexte global est cruciale pour les tâches impliquant des relations complexes, qu'il s'agisse de texte ou de patchs d'images utilisés dans les transformateurs de vision (ViT).