Longformer

Découvrez Longformer, le modèle de transformateur optimisé pour les longues séquences, offrant une efficacité évolutive pour le NLP, la génomique et l'analyse vidéo.

Longformer est un modèle avancé basé sur Transformer conçu pour traiter efficacement les documents très longs. Développé par des chercheurs de l'Allen Institute for AI, sa principale innovation est un mécanisme d'attention qui évolue linéairement avec la longueur de la séquence, contrairement à l'échelle quadratique des modèles de transformateur standard tels que BERT. Cette efficacité permet d'effectuer des tâches complexes de traitement du langage naturel (NLP) sur des textes contenant des milliers, voire des dizaines de milliers de tokens, ce qui est prohibitif du point de vue informatique pour les architectures précédentes.

Comment fonctionne Longformer

Le cœur de l'efficacité de Longformer réside dans son modèle d'attention unique, qui remplace le mécanisme d'auto-attention d'un Transformer standard. Au lieu que chaque jeton soit attentif à tous les autres jetons, Longformer combine deux types d'attention :

Attention locale (fenêtre coulissante) : La plupart des jetons ne prêtent attention qu'à un nombre fixe de jetons voisins de part et d'autre. Cela permet de saisir le contexte local, de la même manière qu'un lecteur humain comprend les mots en se basant sur les mots qui les entourent immédiatement. Cette approche s'inspire du succès des réseaux neuronaux convolutifs (CNN) dans l'exploitation des modèles locaux.
Attention globale : Un petit nombre de tokens présélectionnés sont désignés comme ayant une attention globale, ce qui signifie qu'ils peuvent s'intéresser à tous les autres tokens de la séquence entière. Ces jetons "globaux" agissent comme des collecteurs d'informations de haut niveau provenant de l'ensemble du document. Pour les tâches spécifiques peaufinageCes jetons globaux sont souvent choisis de manière stratégique, comme le [CLS] pour les tâches de classification.

Cette combinaison permet de trouver un équilibre entre l'efficacité informatique et la saisie des dépendances à long terme nécessaires à la compréhension de documents complexes. La recherche originale est détaillée dans l'article"Longformer : The Long-Document Transformer".

Applications dans le domaine de l'IA et de l'apprentissage automatique

La capacité de Longformer à traiter de longues séquences ouvre des possibilités pour de nombreuses applications qui étaient auparavant irréalisables.

Analyse de documents longs : Il peut effectuer des tâches telles que le résumé de texte ou la réponse à des questions sur des livres entiers, de longs documents de recherche ou des documents juridiques complexes. Par exemple, une entreprise de technologie juridique pourrait utiliser un modèle basé sur Longformer pour analyser automatiquement des milliers de pages de documents de découverte afin de trouver des preuves pertinentes.
Systèmes de dialogue et Chatbots : Dans le contexte d'un chatbot ou d'un assistant virtuel, Longformer peut conserver un historique de conversation beaucoup plus long, ce qui permet des interactions plus cohérentes et mieux adaptées au contexte sur de longues périodes.
Génomique et bioinformatique : Son architecture est bien adaptée à l'analyse de longues séquences d'ADN ou de protéines, aidant les chercheurs à identifier des modèles et des fonctions dans de vastes ensembles de données génétiques. Un laboratoire de recherche pourrait l'utiliser pour trouver des séquences de gènes spécifiques dans un chromosome entier.

Les modèles Longformer pré-entraînés sont largement disponibles sur des plateformes telles que Hugging Face, ce qui permet aux développeurs de les adapter à diverses tâches.

Comparaison avec des termes apparentés

Longformer est l'un des nombreux modèles conçus pour surmonter les limitations des transformateurs standard pour les longues séquences.

Transformateur standard : La principale différence réside dans le mécanisme d'attention. Le modèle d'attention efficace de Longformer est conçu pour les longues séquences, alors que l'auto-attention complète des transformateurs standard est trop gourmande en mémoire et en ressources informatiques pour les entrées longues.
Reformer: Autre transformateur efficace, Reformer utilise des techniques telles que le hachage sensible à la localité (LSH) et les couches réversibles pour réduire l'utilisation des ressources. Bien qu'ils ciblent tous deux les longues séquences, ils emploient des stratégies techniques différentes pour atteindre l'efficacité.
Transformer-XL: Ce modèle introduit la récurrence et les enchâssements positionnels relatifs pour gérer les contextes plus longs, ce qui le rend particulièrement efficace pour les tâches autorégressives telles que la génération de texte. Longformer, en revanche, est conçu pour traiter un seul document long avec un contexte bidirectionnel en un seul passage.

Bien que ces modèles NLP diffèrent des modèles de vision artificielle (CV) comme Ultralytics YOLO, qui excellent dans des tâches telles que la détection d'objets, la recherche d'efficacité computationnelle est un thème commun. Les innovations qui réduisent la complexité, comme celles de Longformer, sont essentielles pour rendre les puissants modèles d'apprentissage profond pratiques pour l'inférence en temps réel et le déploiement de modèles sur divers matériels. La gestion de ces modèles avancés peut être rationalisée grâce à des plateformes comme Ultralytics HUB.

Longformer

Former les modèles YOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Une solution flexible de licences d'entreprise pour stimuler votre innovation

Entraîner des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne Longformer

Applications dans le domaine de l'IA et de l'apprentissage automatique

Comparaison avec des termes apparentés

Plus d'informations dans cette catégorie

L'IA peut-elle détecter les actions humaines ? Exploration de la reconnaissance des activités

Détection des fractures du poignet par vision artificielle

Comment savoir si un fruit du dragon est mûr grâce à la vision par ordinateur

Rejoindre la communauté Ultralytics