Glossaire

Transformateur-XL

Découvre comment Transformer-XL révolutionne la modélisation des séquences grâce à des innovations telles que la récurrence au niveau des segments et la gestion des contextes à longue portée.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Transformer-XL (Transformer-Extra Long) représente une avancée significative par rapport à l'architecture originale de Transformer, principalement conçue pour traiter plus efficacement les dépendances à longue portée dans les données séquentielles. Développé par des chercheurs de Google AI et de l'Université Carnegie Mellon, il s'attaque à la limitation de la fragmentation du contexte inhérente aux Transformers standard lors du traitement de très longues séquences, ce qui est crucial pour les tâches de traitement du langage naturel (NLP) et au-delà. Contrairement aux Transformers vanille qui traitent indépendamment des segments de longueur fixe, Transformer-XL introduit des mécanismes de réutilisation des informations entre les segments, ce qui permet au modèle de construire une compréhension cohérente sur des contextes beaucoup plus longs.

Concepts de base du transformateur-XL

Transformer-XL présente deux innovations clés pour surmonter les limites des transformateurs standard lorsqu'il s'agit de longues séquences :

  1. Récurrence au niveau des segments : Les transformateurs standard traitent les longues séquences en les divisant en segments de taille fixe. Cependant, les informations ne peuvent pas circuler entre ces segments, ce qui entraîne une fragmentation du contexte. Transformer-XL introduit un mécanisme de récurrence où les états cachés calculés pour un segment précédent sont mis en cache et réutilisés comme contexte lors du traitement du segment actuel. Cela permet aux informations de se propager d'un segment à l'autre, créant ainsi un contexte efficace bien au-delà de la longueur d'un seul segment. Ce mécanisme est conceptuellement similaire à la façon dont les réseaux neuronaux récurrents (RNN) maintiennent l'état, mais il est intégré dans le cadre d'auto-attention du Transformer.
  2. Codages positionnels relatifs : Le Transformateur original utilise des codages positionnels absolus pour informer le modèle de la position des tokens au sein d'une séquence. Lors de l'application de la récurrence au niveau des segments, la réutilisation des codages absolus devient problématique car le même indice de position apparaît dans différents segments, ce qui crée une ambiguïté. Transformer-XL utilise des codages positionnels relatifs, qui définissent les positions en fonction de la distance entre les tokens plutôt que de leur emplacement absolu. Cela rend les informations de position cohérentes entre les différents segments et permet au modèle de mieux s'adapter aux différentes longueurs de séquences pendant l'inférence.

Comment fonctionne Transformer-XL

Pendant la formation et l'inférence, Transformer-XL traite les séquences d'entrée segment par segment. Pour chaque nouveau segment, il calcule les scores d'attention non seulement en se basant sur les tokens de ce segment, mais aussi en utilisant les états cachés mis en cache dans le(s) segment(s) précédent(s). Ces informations mises en cache fournissent un contexte historique. L'utilisation d'encodages positionnels relatifs garantit que le mécanisme d'attention interprète correctement les positions relatives des jetons, même lorsqu'il s'occupe des jetons du segment précédent mis en cache. Cette approche augmente considérablement la longueur maximale possible des dépendances que le modèle peut capturer, souvent beaucoup plus grande que la longueur du segment lui-même, tout en maintenant l'efficacité de calcul par rapport au traitement de la séquence entière en une seule fois avec un transformateur standard. Cette méthode permet d'éviter des problèmes tels que le problème du gradient de disparition pour les longues dépendances.

Transformateur-XL vs. transformateur standard et modèles apparentés

La principale distinction réside dans la gestion de la longueur de la séquence et du contexte :

  • Longueur du contexte : Les transformateurs standard ont une longueur de contexte maximale fixe déterminée par la taille du segment. Transformer-XL peut capturer des dépendances potentiellement longues de milliers de tokens grâce à son mécanisme de récurrence.
  • Calcul : Transformer-XL peut être nettement plus rapide que les transformateurs standard lors de l'évaluation de longues séquences, car les calculs pour les segments précédents sont réutilisés.
  • Mémoire : La mise en cache des états cachés nécessite de la mémoire supplémentaire, mais elle évite de recalculer les représentations pour les parties antérieures de la séquence.
  • Modèles apparentés : Bien que des modèles comme BERT et GPT (Generative Pre-trained Transformer) soient également basés sur l'architecture Transformer, ils utilisent généralement l'approche standard du contexte de longueur fixe. Transformer-XL cible spécifiquement la limitation des contextes longs. D'autres modèles comme Longformer et Reformer s'attaquent également aux longues séquences mais utilisent des techniques différentes comme les motifs d'attention épars ou le hachage sensible à la localité.

Pertinence et applications

La capacité de Transformer-XL à modéliser les dépendances à long terme le rend très efficace pour diverses tâches séquentielles, en particulier dans le domaine de la PNL.

  • Modélisation du langage : Il a obtenu des résultats de pointe sur des benchmarks de modélisation du langage au niveau des caractères et des mots comme enwik8 et WikiText-103 en capturant un contexte plus long que les modèles précédents. Cette meilleure compréhension de la structure du langage est essentielle pour générer des textes cohérents et pertinents sur le plan contextuel.
  • Traitement des documents longs : Les tâches impliquant de longs documents, telles que le résumé(Text Summarization), la réponse à des questions sur de longs articles, ou l'analyse de livres ou de bases de code entiers, bénéficient de manière significative de la fenêtre contextuelle étendue de Transformer-XL. Par exemple, un modèle Transformer-XL pourrait potentiellement générer des histoires fictives longues comme des chapitres ou écrire des modules logiciels étendus(Génération de texte).
  • Apprentissage par renforcement : Ses capacités de mémoire améliorées ont également trouvé des applications dans les tâches d'apprentissage par renforcement nécessitant une planification à long terme.

Bien que Transformer-XL soit principalement connu pour le NLP, les principes de traitement efficace des longues séquences sont pertinents pour l'apprentissage automatique (Machine Learning, ML), influençant potentiellement les architectures pour l'analyse des séries temporelles ou même les aspects de la vision par ordinateur (Computer Vision, CV) qui traitent des données vidéo. Les innovations architecturales se croisent souvent ; par exemple, les transformateurs eux-mêmes ont inspiré les transformateurs de vision (ViT) utilisés dans l'analyse d'images. Des plateformes comme Hugging Face hébergent des implémentations et des modèles pré-entraînés, facilitant ainsi la recherche et le développement d'applications. Tu peux explorer la recherche originale dans l'article "Transformer-XL : Modèles linguistiques attentifs au-delà d'un contexte de longueur fixe". La compréhension de ces architectures avancées permet d'éclairer le développement et la mise au point de modèles dans divers domaines, y compris ceux qui sont gérés et déployés par le biais de plateformes comme Ultralytics HUB.

Tout lire