Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Longformer

Explora la arquitectura Longformer para procesar de manera eficiente secuencias de datos largas. Descubre cómo la atención dispersa supera los límites de memoria para el procesamiento del lenguaje natural (NLP) y la visión artificial.

El Longformer es un tipo especializado de arquitectura de aprendizaje profundo diseñado para procesar secuencias largas de datos de manera eficiente, superando las limitaciones de los modelos tradicionales. Introducido originalmente para abordar las limitaciones de los Transformers estándar, que suelen tener dificultades con secuencias de más de 512 tokens debido a las restricciones de memoria, el Longformer emplea un mecanismo de atención modificado. Al reducir la complejidad computacional de cuadrática a lineal, esta arquitectura permite a los sistemas de IA analizar documentos completos, transcripciones largas o secuencias genéticas complejas en una sola pasada sin truncar la entrada.

El problema del cuello de botella de la atención

Paracomprender la importancia del Longformer, es esencial analizar las limitaciones de sus predecesores, como BERT y los primeros modelos GPT-3. Los transformadores estándar utilizan una operación de «autoatención» en la que cada token (palabra o parte de una palabra) presta atención a todos los demás tokens de la secuencia. Esto genera un coste computacional cuadrático: duplicar la longitud de la secuencia cuadruplica la memoria necesaria en el GPU. En consecuencia, la mayoría de los modelos estándar imponen un límite estricto al tamaño de la entrada, lo que a menudo obliga a los científicos de datos a dividir los documentos en segmentos más pequeños y desconectados, lo que da lugar a una pérdida de contexto.

Longformer resuelve este problema introduciendo la atención dispersa. En lugar de una conexión completa de todos a todos, utiliza una combinación de atención local por ventanas y atención global:

  • Ventana deslizante Atención: cada token solo atiende a sus vecinos inmediatos. Esto captura el contexto local y la estructura sintáctica, de forma similar a cómo una red neuronal convolucional (CNN) procesa las imágenes.
  • Ventana deslizante dilatada: Para aumentar el campo receptivo sin aumentar el cálculo, la ventana puede incorporar huecos, lo que permite al modelo ver «más lejos» en el texto.
  • Atención Global: Tokens específicos preseleccionados (como el token de clasificación [CLS]) atención a todos los demás tokens de la secuencia, y todos los tokens les prestan atención. Esto garantiza que el modelo conserve una comprensión de alto nivel de toda la entrada para tareas como resumen de texto.

Aplicaciones en el mundo real

La capacidad de procesar miles de tokens simultáneamente abre nuevas posibilidades para el procesamiento del lenguaje natural (NLP) y mucho más.

1. Análisis de documentos legales y médicos

En sectores como el jurídico y el sanitario, los documentos rara vez son breves. Un contrato legal o el historial médico de un paciente pueden ocupar decenas de páginas. Los grandes modelos de lenguaje (LLM) tradicionales requerirían que estos documentos se fragmentaran, lo que podría hacer que se perdieran dependencias cruciales entre una cláusula de la página 1 y una definición de la página 30. El Longformer permite el reconocimiento de entidades nombradas (NER) y la clasificación de todo el documento a la vez, lo que garantiza que el contexto global influya en la interpretación de términos específicos.

2. Respuestas a preguntas largas (QA)

Los sistemas estándar de respuesta a preguntas suelen tener dificultades cuando la respuesta a una pregunta requiere sintetizar información distribuida a lo largo de un artículo extenso. Al mantener el texto completo en la memoria, los modelos basados en Longformer pueden realizar un razonamiento de múltiples saltos, conectando datos encontrados en diferentes párrafos para generar una respuesta completa. Esto es fundamental para los sistemas de soporte técnico automatizados y las herramientas de investigación académica.

Diferenciación de términos clave

  • Longformer frente a Transformer: El Transformer estándar utiliza una atención completa $N^2$, lo que lo hace preciso pero computacionalmente costoso para entradas largas. Longformer utiliza una atención $N$ dispersa, cambiando una cantidad insignificante de capacidad teórica por una enorme ganancia en eficiencia , lo que permite entradas de 4096 tokens o más.
  • Longformer frente a Transformer-XL: Aunque ambos manejan secuencias largas, Transformer-XL se basa en un mecanismo de recurrencia (almacenamiento en caché de estados anteriores) para recordar segmentos pasados. Longformer procesa la secuencia larga de forma nativa de una sola vez, lo que simplifica el entrenamiento paralelo en plataformas como Ultralytics .
  • Longformer vs. BigBird: Son arquitecturas muy similares desarrolladas aproximadamente al mismo tiempo. Ambas utilizan mecanismos de atención dispersa para lograr un escalado lineal . BigBird introduce un componente específico de atención aleatoria además de las ventanas deslizantes.

Conceptos de implementación

Aunque Longformer es una arquitectura más que una función específica, es fundamental comprender cómo preparar los datos para los modelos de contexto largo. En marcos modernos como PyTorch, esto a menudo implica gestionar incrustaciones que superan los límites estándar.

El siguiente ejemplo muestra la creación de un tensor de entrada simulado tensor un escenario de contexto largo, contrastándolo con el tamaño típico utilizado en modelos de detección estándar como YOLO26.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Relevancia para la visión por ordenador

Aunque originalmente se diseñó para texto, los principios en los que se basa Longformer han influido en la visión artificial. El concepto de limitar la atención a un entorno local es análogo a las operaciones localizadas en tareas visuales. Los transformadores de visión (ViT) se enfrentan a problemas de escalado similares con imágenes de alta resolución, ya que el número de píxeles (o parches) puede ser enorme. Las técnicas derivadas de la atención dispersa del Longformer se utilizan para mejorar la clasificación de imágenes y la eficiencia de la detección de objetos, lo que ayuda a modelos como YOLO26 a mantener altas velocidades mientras procesan datos visuales detallados .

Para obtener más información sobre los detalles arquitectónicos, el artículo original de AllenAI proporciona comparativas detalladas y justificaciones teóricas. Además, el entrenamiento eficiente de modelos tan grandes a menudo se beneficia de técnicas como la precisión mixta y los algoritmos de optimización avanzados.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora