Glosario

Longformer

Descubre Longformer, el modelo de transformador optimizado para secuencias largas, que ofrece una eficacia escalable para PNL, genómica y análisis de vídeo.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Longformer es un modelo especializado basado en Transformadores, diseñado para procesar eficazmente secuencias de texto muy largas, superando las limitaciones de modelos anteriores como BERT (Representaciones Codificadoras Bidireccionales de Transformadores). Desarrollado por investigadores del Instituto Allen para la IA (AI2), Longformer aborda el reto al que se enfrentan los modelos Transformer estándar con la complejidad computacional cuando manejan miles de tokens, lo que lo hace adecuado para tareas que impliquen documentos largos. Esta capacidad es crucial para avanzar en las aplicaciones de Procesamiento del Lenguaje Natural (PLN ) que requieren comprender el contexto a lo largo de extensos espacios de texto.

Cómo funciona Longformer

Los modelos Transformer estándar utilizan un mecanismo de autoatención total, en el que cada ficha atiende a todas las demás fichas. Aunque es potente, los requisitos de memoria y cálculo de este mecanismo crecen cuadráticamente con la longitud de la secuencia, lo que lo hace poco práctico para secuencias de más de unos cientos de fichas. Longformer introduce un patrón de atención eficiente que aumenta linealmente con la longitud de la secuencia. Utiliza principalmente una combinación de:

  • Atención de Ventana Deslizante: Cada ficha atiende sólo a un número fijo de fichas vecinas a cada lado, creando una ventana de contexto local.
  • Ventanas deslizantes dilatadas: Para aumentar el campo receptivo sin aumentar significativamente el cómputo, algunas capas de atención con ventanas utilizan huecos (dilatación), permitiendo que las fichas atiendan a fichas más distantes de forma indirecta.
  • Atención Global: Un pequeño número de tokens preseleccionados pueden atender a toda la secuencia, y toda la secuencia puede atenderlos a ellos. Esto se utiliza a menudo para tokens específicos cruciales para la tarea, como el [CLS] token en tareas de clasificación.

Este mecanismo de atención modificado permite a Longformer manejar entradas de hasta decenas de miles de tokens, significativamente más largas que el límite típico de 512 tokens de modelos como BERT, manteniendo un gran rendimiento. Esta eficiencia es vital para muchas tareas de aprendizaje automático (AM ) del mundo real.

Principales diferencias con otros modelos

La principal distinción entre Longformer y modelos como BERT o GPT-2 radica en la longitud máxima de secuencia que pueden procesar eficazmente. Mientras que BERT está limitado a 512 tokens, Longformer puede gestionar secuencias de órdenes de magnitud más largas. Otros modelos diseñados para secuencias largas, como Reformer o Transformer-XL, utilizan técnicas diferentes como el hashing sensible a la localidad o mecanismos de recurrencia para lograr la eficiencia. El enfoque de Longformer, detallado en su documento de investigación original, proporciona una combinación flexible de atención local y global adecuada para diversas tareas posteriores tras un ajuste fino.

Aplicaciones y casos de uso

La capacidad de Longformer para procesar documentos largos abre posibilidades para numerosas tareas de PNL que antes eran difíciles o requerían soluciones complejas, como dividir los documentos.

  • Respuesta a preguntas a nivel de documento: Encontrar respuestas en documentos extensos, como textos jurídicos, manuales técnicos o informes extensos, en los que la respuesta puede depender de información repartida en párrafos o páginas.
  • Resumir documentos largos: Generación de resúmenes concisos de artículos completos, trabajos de investigación o capítulos de libros mediante la comprensión del contexto del documento completo.
  • Resolución de coreferencias: Identificar las menciones que se refieren a la misma entidad a lo largo de grandes extensiones de texto.
  • Análisis de la Literatura Científica: Procesar y extraer información de artículos académicos densos. Plataformas como Hugging Face facilitan el acceso a modelos Longformer preentrenados para estas aplicaciones a través de su biblioteca Transformers.

Importancia en IA/ML

Longformer representa un importante paso adelante para que los modelos de aprendizaje profundo puedan comprender y razonar sobre textos largos. Al superar el cuello de botella de complejidad cuadrática de los Transformadores estándar, permite que los Modelos de Lenguaje Extenso (LLM ) aborden con mayor eficacia tareas relacionadas con documentos, libros y diálogos extensos. Esta capacidad es esencial para las aplicaciones que requieren una comprensión contextual profunda, ampliando los límites de lo que la IA puede lograr en el procesamiento del lenguaje humano que se encuentra en formatos extensos. Mientras que modelos como Ultralytics YOLO destacan en tareas de visión por ordenador como la detección de objetos, Longformer proporciona avances análogos para manejar datos textuales complejos y de formato largo. Herramientas como Ultralytics HUB agilizan el despliegue y la gestión de varios modelos de IA, incluyendo potencialmente los ajustados para tareas específicas de PLN.

Leer todo