Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Longformer

Découvrez l'architecture Longformer pour traiter efficacement les longues séquences de données. Découvrez comment l'attention clairsemée permet de surmonter les limites de mémoire pour le traitement du langage naturel (NLP) et la vision par ordinateur.

Le Longformer est un type spécialisé d' architecture d'apprentissage profond conçu pour traiter efficacement de longues séquences de données, surmontant ainsi les limites des modèles traditionnels. Initialement introduit pour répondre aux contraintes des Transformers standard, qui ont généralement du mal à traiter des séquences de plus de 512 tokens en raison de restrictions de mémoire, le Longformer utilise un mécanisme d'attention modifié. En réduisant la complexité computationnelle de quadratique à linéaire, cette architecture permet aux systèmes d'IA d'analyser des documents entiers, des transcriptions longues ou des séquences génétiques complexes en un seul passage sans tronquer l'entrée.

Le problème du goulot d'étranglement de l'attention

Pourcomprendre l'importance du Longformer, il est essentiel d'examiner les limites de ses prédécesseurs tels que BERT et les premiers modèles GPT-3. Les transformateurs standard utilisent une opération d' « auto-attention » dans laquelle chaque token (mot ou partie de mot) prête attention à tous les autres tokens de la séquence. Cela engendre un coût de calcul quadratique : doubler la longueur de la séquence quadruple la mémoire requise sur le GPU GPU. Par conséquent, la plupart des modèles standard imposent une limite stricte à la taille des entrées, obligeant souvent les scientifiques des données à découper les documents en segments plus petits et disconnectés, ce qui entraîne une perte de contexte.

Le Longformer résout ce problème en introduisant l'attention clairsemée. Au lieu d'une connexion complète de tous à tous, il utilise une combinaison d'attention locale fenêtrée et d'attention globale :

  • Fenêtre glissante Attention : chaque jeton ne prend en compte que ses voisins immédiats. Cela permet de saisir le contexte local et la structure syntaxique, de manière similaire à la façon dont un réseau neuronal convolutif (CNN) traite les images.
  • Fenêtre coulissante dilatée : pour augmenter le champ réceptif sans augmenter la puissance de calcul, la fenêtre peut intégrer des espaces, ce qui permet au modèle de voir « plus loin » dans le texte.
  • Attention globale : Jetons présélectionnés spécifiques (comme le jeton de classification [CLS]) prennent en compte tous les autres jetons de la séquence, et tous les jetons les prennent en compte. Cela garantit que le modèle conserve une compréhension de haut niveau de l'ensemble des données d'entrée pour des tâches telles que résumé de texte.

Applications concrètes

La capacité à traiter simultanément des milliers de jetons ouvre de nouvelles possibilités pour le traitement du langage naturel (NLP) et au-delà.

1. Analyse de documents juridiques et médicaux

Dans des secteurs tels que le droit et la santé, les documents sont rarement courts. Un contrat juridique ou les antécédents médicaux d'un patient peuvent compter des dizaines de pages. Les grands modèles linguistiques traditionnels (LLM) exigeraient que ces documents soient fragmentés, ce qui risquerait de faire perdre des liens cruciaux entre une clause de la page 1 et une définition de la page 30. Le Longformer permet la reconnaissance des entités nommées (NER) et la classification sur l'ensemble du document en une seule fois, garantissant ainsi que le contexte global influence l'interprétation des termes spécifiques.

2. Questions-réponses longues (QA)

Les systèmes standard de réponse aux questions ont souvent du mal lorsque la réponse à une question nécessite de synthétiser des informations réparties dans un long article. En conservant le texte intégral en mémoire, les modèles basés sur Longformer peuvent effectuer un raisonnement multi-sauts, en reliant des faits trouvés dans différents paragraphes pour générer une réponse complète. Cela est essentiel pour les systèmes d'assistance technique automatisés et les outils de recherche universitaire .

Différencier les termes clés

  • Longformer vs Transformer: le Transformer standard utilise une attention complète $N^2$, ce qui le rend précis mais coûteux en termes de calcul pour les entrées longues. Longformer utilise une attention clairsemée $N$, échangeant une quantité négligeable de capacité théorique contre des gains d'efficacité considérables , permettant des entrées de 4 096 jetons ou plus.
  • Longformer vs Transformer-XL: Bien que les deux gèrent les séquences longues, Transformer-XL s'appuie sur un mécanisme de récurrence (mise en cache des états précédents) pour se souvenir des segments passés. Longformer traite la séquence longue de manière native en une seule fois, ce qui simplifie l'entraînement parallèle sur des plateformes telles que la Ultralytics .
  • Longformer vs BigBird: il s'agit d'architectures très similaires développées à peu près à la même époque. Les deux utilisent des mécanismes d'attention clairsemée pour obtenir une mise à l'échelle linéaire . BigBird introduit un composant d'attention aléatoire spécifique en plus des fenêtres coulissantes.

Concepts de mise en œuvre

Bien que Longformer soit une architecture plutôt qu'une fonction spécifique, il est essentiel de comprendre comment préparer les données pour les modèles à contexte long. Dans les frameworks modernes tels que PyTorch, cela implique souvent de gérer des intégrations qui dépassent les limites standard.

L'exemple suivant montre comment créer un tensor d'entrée fictif tensor un scénario à contexte long, en le comparant à la taille typique utilisée dans les modèles de détection standard tels que YOLO26.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Pertinence pour la vision par ordinateur

Bien qu'initialement conçu pour le texte, les principes qui sous-tendent le Longformer ont influencé la vision par ordinateur. Le concept consistant à limiter l' attention à un voisinage local est analogue aux opérations localisées dans les tâches visuelles. Les transformateurs de vision (ViT) sont confrontés à des problèmes d'échelle similaires avec les images haute résolution, car le nombre de pixels (ou de patchs) peut être énorme. Les techniques dérivées de l'attention clairsemée du Longformer sont utilisées pour améliorer l' efficacité de la classification des images et de la détection des objets, aidant ainsi des modèles tels que YOLO26 à maintenir des vitesses élevées tout en traitant des données visuelles détaillées .

Pour en savoir plus sur les spécificités architecturales, l' article original de Longformer publié par AllenAI fournit des benchmarks approfondis et des justifications théoriques. De plus, l'entraînement efficace de modèles aussi volumineux bénéficie souvent de techniques telles que la précision mixte et des algorithmes d'optimisation avancés.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant