Glossaire

Longformer

Découvre Longformer, le modèle de transformateur optimisé pour les longues séquences, offrant une efficacité évolutive pour le NLP, la génomique et l'analyse vidéo.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Longformer est un type d'architecture de modèle de transformateur conçu pour traiter des séquences de données exceptionnellement longues plus efficacement que les transformateurs traditionnels. Cette amélioration répond à une limitation essentielle des modèles de transformateur standard, qui ont du mal à traiter les entrées longues en raison des contraintes de calcul qui augmentent de façon quadratique avec la longueur de la séquence.

Comprendre Longformer

Les modèles de transformateurs traditionnels, bien que puissants, sont confrontés à des défis lorsqu'il s'agit de traiter de longues séquences de texte, d'audio ou de vidéo. La complexité informatique de leur mécanisme d'attention croît de façon quadratique avec la longueur de la séquence d'entrée, ce qui le rend impraticable pour les longs documents ou les entrées à haute résolution. Longformer s'attaque à ce problème en introduisant un mécanisme d'attention qui évolue linéairement avec la longueur de la séquence. Cette innovation permet au modèle de traiter des entrées de milliers, voire de dizaines de milliers de tokens, ce qui ouvre de nouvelles possibilités pour le traitement de contextes plus longs dans diverses tâches d'intelligence artificielle.

La clé de l'efficacité de Longformer est son mécanisme d'attention hybride, qui combine différents types d'attention :

  • Fenêtre coulissante Attention: Chaque jeton est attentif à un nombre fixe de jetons qui l'entourent, créant ainsi un contexte local. Cette méthode est efficace sur le plan informatique et permet de saisir efficacement les dépendances locales.
  • Attention globale: Certains jetons prédéfinis sont attentifs à tous les autres jetons, et tous les jetons sont attentifs à ces jetons globaux. Cela permet au modèle d'apprendre des représentations globales et de maintenir le contexte général sur toute la durée de la séquence.
  • Attention à fenêtre coulissante dilatée: Semblable à l'attention par fenêtre coulissante mais avec des espaces (dilatation) dans la fenêtre, ce qui permet d'obtenir un champ réceptif effectif plus grand avec un coût de calcul similaire.

En combinant stratégiquement ces mécanismes d'attention, Longformer réduit considérablement la charge de calcul tout en conservant la capacité de modéliser des dépendances à long terme cruciales pour la compréhension d'entrées longues. Cela rend Longformer particulièrement précieux dans les tâches de traitement du langage naturel (NLP) traitant de documents, d'articles ou de conversations, et dans les tâches de vision par ordinateur impliquant des images ou des vidéos à haute résolution.

Applications du Longformer

La capacité de Longformer à gérer de longues séquences le rend approprié pour une gamme d'applications où la longueur du contexte est critique :

  • Résumés de documents: Dans les tâches nécessitant la compréhension de documents entiers pour générer des résumés cohérents, Longformer excelle en traitant l'entrée du texte intégral. Par exemple, dans l'analyse d'images juridiques ou médicales, où le contexte de longs rapports est essentiel, Longformer peut fournir des résumés plus complets et plus précis que les modèles avec des fenêtres de contexte limitées.
  • Réponse aux questions sur de longs documents: Longformer est très efficace dans les systèmes de réponse aux questions qui doivent extraire des informations de documents volumineux. Par exemple, dans les applications d'IA juridique, Longformer peut être utilisé pour répondre à des questions juridiques spécifiques basées sur de longs documents d'affaires ou des statuts, offrant un avantage significatif par rapport aux modèles qui ne peuvent traiter que des bribes de texte à la fois.
  • Traitement des données génomiques: Au-delà du texte, l'architecture de Longformer est adaptable à d'autres types de données séquentielles, notamment les séquences génomiques. En bio-informatique, l'analyse de longues séquences d'ADN ou d'ARN est cruciale pour comprendre les processus biologiques et les maladies. Longformer peut traiter ces longues séquences afin d'identifier des schémas et des relations qui pourraient échapper aux modèles dotés de capacités contextuelles plus courtes.
  • Analyse de vidéos longues: Dans les tâches de vision par ordinateur impliquant des vidéos, en particulier celles qui nécessitent de comprendre des événements sur de longues périodes, Longformer peut être utilisé pour traiter de longues séquences d'images. Cela est utile dans des applications telles que la surveillance ou l'analyse de longues procédures chirurgicales où le contexte temporel est vital.

Modèles de transformateurs et de longformateurs

Longformer est une évolution de l'architecture originale de Transformer, spécialement conçue pour surmonter les limites de calcul des transformateurs standard lorsqu'ils traitent de longues séquences. Alors que les transformateurs traditionnels utilisent l'auto-attention complète, qui est quadratiquement complexe, Longformer introduit des modèles d'attention éparses pour atteindre une complexité linéaire. Cela fait de Longformer une option plus évolutive et plus efficace pour les tâches impliquant des dépendances à longue distance, tout en conservant les points forts de l'architecture du transformateur pour capturer les relations contextuelles. Pour les tâches comportant des séquences d'entrée plus courtes, les transformateurs standard peuvent suffire, mais pour les applications exigeant le traitement d'un contexte étendu, Longformer offre un avantage significatif. Tu peux explorer d'autres architectures de modèles telles que YOLO-NAS ou RT-DETR dans l'écosystème Ultralytics , qui sont conçues pour des tâches de détection d'objets efficaces et précises, et qui illustrent la diversité des architectures de modèles dans le domaine de l'IA.

Tout lire