Découvrez comment les architectures Transformer révolutionnent l'IA, en permettant des percées dans les domaines du NLP, de la vision par ordinateur et des tâches avancées de ML.
Un Transformer est une architecture de réseau neuronal révolutionnaire qui est devenue une pierre angulaire de l'intelligence artificielle (IA) moderne, en particulier dans le traitement du langage naturel (NLP) et, plus récemment, la vision par ordinateur (CV). Présentée par les chercheurs de Google dans l'article de 2017 intitulé "Attention Is All You Need", son innovation clé est le mécanisme d'auto-attention, qui permet au modèle d'évaluer l'importance des différents mots ou parties d'une séquence d'entrée. Cela lui permet de capturer les dépendances à long terme et les relations contextuelles plus efficacement que les architectures précédentes. La conception permet également une parallélisation massive, ce qui rend possible l'entraînement de modèles beaucoup plus importants sur des ensembles de données massifs, ce qui a conduit à l'essor des grands modèles de langage (LLM).
L'impact de Transformers s'étend à de nombreux domaines, entraînant des progrès dans les tâches liées au langage et à la vision.
Il est utile de distinguer les transformateurs des autres architectures de réseaux neuronaux courantes :
Le coût de calcul de l'auto-attention complète du transformateur original croît de façon quadratique avec la longueur de la séquence, ce qui rend difficile l'utilisation de très longues séquences. Cela a conduit au développement de variantes plus efficaces.
Ces progrès continuent d'étendre l'applicabilité des Transformers à de nouveaux problèmes. Des outils et des plateformes comme Hugging Face et Ultralytics HUB permettent aux développeurs d'accéder plus facilement à ces puissants modèles et de les déployer.
Comment fonctionnent les transformateurs
Contrairement aux modèles séquentiels tels que les réseaux neuronaux récurrents (RNN), les transformateurs traitent des séquences entières de données en une seule fois. L'idée de base est de traiter tous les éléments en parallèle, ce qui accélère considérablement la formation sur du matériel moderne comme les GPU.
Pour comprendre l'ordre de la séquence sans récurrence, les transformateurs utilisent une technique appelée codage positionnel, qui ajoute des informations sur la position de chaque élément (par exemple, un mot dans une phrase) à son intégration. Les couches d'auto-attention traitent ensuite ces encastrements, ce qui permet à chaque élément de "regarder" tous les autres éléments de la séquence et de déterminer ceux qui sont les plus pertinents pour comprendre sa signification. Cette connaissance globale du contexte est un avantage majeur pour les tâches complexes. Des frameworks tels que PyTorch et TensorFlow offrent un support étendu pour la construction de modèles basés sur des transformateurs.