Glossaire

Longformer

Découvre Longformer, le modèle de transformateur optimisé pour les longues séquences, offrant une efficacité évolutive pour le NLP, la génomique et l'analyse vidéo.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Longformer est un modèle spécialisé basé sur les transformateurs, conçu pour traiter efficacement de très longues séquences de texte, en surmontant les limites des modèles précédents tels que BERT (Bidirectional Encoder Representations from Transformers). Développé par des chercheurs de l'Allen Institute for AI (AI2), Longformer résout le problème de complexité informatique auquel sont confrontés les modèles Transformer standard lorsqu'ils traitent des milliers de tokens, ce qui le rend adapté aux tâches impliquant de longs documents. Cette capacité est cruciale pour faire progresser les applications de traitement du langage naturel (NLP) qui nécessitent de comprendre le contexte sur de grandes étendues de texte.

Comment fonctionne Longformer

Les modèles de transformateurs standard utilisent un mécanisme d'auto-attachement complet où chaque jeton s'occupe de tous les autres jetons. Bien que puissant, la mémoire et les exigences de calcul de ce mécanisme augmentent de façon quadratique avec la longueur de la séquence, ce qui le rend impraticable pour les séquences de plus de quelques centaines de jetons. Longformer introduit un modèle d'attention efficace qui évolue linéairement avec la longueur de la séquence. Il utilise principalement une combinaison de :

  • Attention à fenêtre glissante : Chaque jeton ne s'intéresse qu'à un nombre fixe de jetons voisins de chaque côté, créant ainsi une fenêtre contextuelle locale.
  • Fenêtres coulissantes dilatées : Pour augmenter le champ réceptif sans augmenter significativement le calcul, certaines couches d'attention fenêtrée utilisent des espaces (dilatation), ce qui permet aux jetons d'assister indirectement à des jetons plus éloignés.
  • Attention globale : Un petit nombre de jetons présélectionnés sont autorisés à s'occuper de toute la séquence, et toute la séquence peut s'occuper d'eux. Cette méthode est souvent utilisée pour des éléments spécifiques cruciaux pour la tâche, comme l'élément [CLS] dans les tâches de classification.

Ce mécanisme d'attention modifié permet à Longformer de traiter des entrées allant jusqu'à des dizaines de milliers de jetons, ce qui est nettement plus long que la limite typique de 512 jetons des modèles comme BERT, tout en conservant d'excellentes performances. Cette efficacité est vitale pour de nombreuses tâches d'apprentissage automatique du monde réel.

Principales différences par rapport aux autres modèles

La principale distinction entre Longformer et des modèles comme BERT ou GPT-2 réside dans la longueur maximale des séquences qu'ils peuvent traiter efficacement. Alors que BERT est limité à 512 jetons, Longformer peut gérer des séquences beaucoup plus longues. D'autres modèles conçus pour les longues séquences, tels que Reformer ou Transformer-XL, utilisent différentes techniques comme le hachage sensible à la localité ou les mécanismes de récurrence pour atteindre l'efficacité. L'approche de Longformer, détaillée dans son document de recherche original, fournit une combinaison flexible d'attention locale et globale adaptée à diverses tâches en aval après un réglage fin.

Applications et cas d'utilisation

La capacité de Longformer à traiter de longs documents ouvre des possibilités pour de nombreuses tâches NLP qui étaient auparavant difficiles ou nécessitaient des solutions de contournement complexes comme le fractionnement des documents.

  • Réponse aux questions au niveau du document: Trouver des réponses dans des documents volumineux, tels que des textes juridiques, des manuels techniques ou de longs rapports, où la réponse peut dépendre d'informations réparties sur des paragraphes ou des pages.
  • Résumés de documents longs: Générer des résumés concis d'articles entiers, de documents de recherche ou de chapitres de livres en comprenant le contexte du document complet.
  • Résolution de coréférence : Identifier les mentions faisant référence à la même entité sur de longues portions de texte.
  • Analyse de la littérature scientifique : Traitement et extraction d'informations à partir d'articles académiques denses. Des plateformes comme Hugging Face permettent d'accéder facilement à des modèles Longformer pré-entraînés pour ces applications grâce à leur bibliothèque Transformers.

Importance de l'IA/ML

Longformer représente une avancée significative pour permettre aux modèles d'apprentissage profond de comprendre et de raisonner sur des textes longs. En surmontant le goulot d'étranglement de la complexité quadratique des transformateurs standard, il permet aux grands modèles de langage (LLM) de s'attaquer plus efficacement aux tâches impliquant des documents, des livres et des dialogues étendus. Cette capacité est essentielle pour les applications nécessitant une compréhension contextuelle profonde, repoussant les limites de ce que l'IA peut réaliser dans le traitement du langage humain trouvé dans des formats longs. Alors que des modèles comme Ultralytics YOLO excellent dans les tâches de vision par ordinateur telles que la détection d'objets, Longformer offre des avancées analogues pour le traitement de données textuelles complexes et longues. Des outils comme Ultralytics HUB rationalisent le déploiement et la gestion de divers modèles d'IA, y compris potentiellement ceux qui sont affinés pour des tâches NLP spécifiques.

Tout lire