Glossaire

Transformateur

Explore l'impact des modèles Transformer dans l'IA avec Ultralytics. Découvre leur architecture, leurs composants clés et leurs applications dans le domaine de la PNL et de la vision.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le modèle Transformer est devenu une pierre angulaire dans le domaine de l'intelligence artificielle, en particulier dans le traitement du langage naturel (NLP) et, plus récemment, dans les tâches de vision par ordinateur. Présentée pour la première fois dans l'article "Attention is All You Need" de Vaswani et al. en 2017, l'architecture Transformer a fondamentalement changé la façon dont les machines traitent et comprennent le langage en tirant parti des mécanismes d'auto-attention.

Comprendre les transformateurs

Les Transformers sont conçus pour traiter les données séquentielles avec plus de souplesse que les modèles précédents tels que les réseaux neuronaux récurrents (RNN) et les réseaux neuronaux convolutifs (CNN). Contrairement aux RNN, qui traitent les données de manière séquentielle, les Transformers permettent une parallélisation beaucoup plus importante, ce qui réduit considérablement le temps de formation et améliore les performances sur les grands ensembles de données.

Le mécanisme d'auto-attention est au cœur du modèle Transformer. Il permet au modèle de peser l'importance des différents mots d'une phrase, offrant ainsi une compréhension et une génération du langage en fonction du contexte. Pour en savoir plus sur l'auto-attention, consulte la page du glossaire consacrée à l'auto-attention.

Composants clés

  1. Structure codeur-décodeur: Le Transformateur est construit sur une structure codeur-décodeur, où le codeur traite le texte d'entrée et le décodeur génère la sortie. Chacun est constitué de plusieurs couches qui contiennent un mécanisme d'auto-attention et un réseau neuronal de type feed-forward.

  2. Codage positionnel: Comme les Transformers ne comprennent pas intrinsèquement l'ordre des séquences, le codage positionnel est ajouté aux encodages d'entrée pour aider à coder la position des mots dans la séquence.

  3. Mécanisme d'attention: Au cœur du Transformateur se trouve le mécanisme d'attention qui attribue différents niveaux d'importance à chaque partie de la séquence d'entrée, ce qui lui permet de se concentrer sur les parties pertinentes tout en générant des sorties.

Applications dans le monde réel

Traitement du langage naturel

Les Transformers ont permis des avancées majeures dans le domaine du traitement automatique des langues. Les modèles basés sur l'architecture Transformer, tels que GPT-3 et BERT, ont établi de nouvelles références dans des tâches allant de la génération de texte à l'analyse des sentiments et à la traduction automatique. Ces modèles traitent les tâches mieux que leurs prédécesseurs en comprenant le contexte à un niveau nuancé.

  • BERT est connu pour les tâches qui nécessitent de comprendre à la fois le contexte gauche et droit des mots grâce à son mécanisme d'attention bidirectionnelle.

Vision par ordinateur

Bien qu'initialement conçus pour le NLP, les transformateurs sont de plus en plus appliqués aux tâches de vision par ordinateur. Des modèles comme ViT (Vision Transformer) utilisent les transformateurs pour obtenir des résultats de pointe en matière de classification d'images, de segmentation, et bien plus encore. Plonge dans le rôle des transformateurs dans les modèles de vision pour comprendre leur impact sur la vision par ordinateur.

Pour les personnes intéressées, le HUB Ultralytics propose des outils permettant d'intégrer les modèles Transformer dans toute une série de projets, en améliorant les performances et l'évolutivité. En savoir plus sur le déploiement de modèles dans des applications réelles avec Ultralytics HUB.

Distinctions par rapport aux modèles apparentés

  • RNN et LSTM: Contrairement aux RNN et aux LSTM, les Transformers peuvent traiter des séquences en parallèle, ce qui permet d'accélérer la formation et d'améliorer l'efficacité de la capture des dépendances à long terme.

  • CNNs: Alors que les CNN sont traditionnellement utilisés pour les données d'image, les Transformers s'avèrent efficaces en raison de leur capacité à capturer les relations contextuelles dans les données sans être contraints par les hiérarchies spatiales.

Exploration plus poussée

Explore le potentiel des Transformers dans l'IA en lisant l'article "L'attention est tout ce dont tu as besoin" et la littérature connexe. Pour en savoir plus sur l'évolution de ces architectures, renseigne-toi sur les variations de modèles comme Transformer-XL et Longformer, qui s'attaquent aux limitations de séquences dans les conceptions originales de Transformer.

Les transformateurs continuent de stimuler l'innovation dans tous les domaines de l'IA, avec des applications qui s'étendent du NLP à des domaines tels que la santé, la finance, et au-delà. Reste à jour avec Ultralytics' blog pour connaître les dernières tendances et avancées de la technologie Transformer.

Tout lire