Glosario

Longformer

Descubre Longformer, el modelo de transformador optimizado para secuencias largas, que ofrece una eficacia escalable para PNL, genómica y análisis de vídeo.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Longformer es un tipo de arquitectura de modelo de transformador diseñado para procesar secuencias de datos excepcionalmente largas con más eficacia que los transformadores tradicionales. Esta mejora aborda una limitación clave de los modelos de transformador estándar, que tienen dificultades con las entradas largas debido a restricciones computacionales que se escalan cuadráticamente con la longitud de la secuencia.

Comprender el Longformer

Los modelos tradicionales de transformadores, aunque potentes, se enfrentan a retos cuando procesan secuencias largas de texto, audio o vídeo. La complejidad computacional de su mecanismo de atención crece cuadráticamente con la longitud de la secuencia de entrada, lo que lo hace poco práctico para documentos largos o entradas de alta resolución. Longformer aborda este problema introduciendo un mecanismo de atención que aumenta linealmente con la longitud de la secuencia. Esta innovación permite al modelo manejar entradas de miles o incluso decenas de miles de tokens, abriendo nuevas posibilidades para procesar contextos más largos en diversas tareas de IA.

La clave de la eficacia de Longformer es su mecanismo de atención híbrida, que combina distintos tipos de atención:

  • Ventana deslizante Atención: Cada ficha atiende a un número fijo de fichas a su alrededor, creando un contexto local. Esto es eficiente desde el punto de vista computacional y capta eficazmente las dependencias locales.
  • Atención Global: Ciertas fichas predefinidas atienden a todas las demás fichas, y todas las fichas atienden a estas fichas globales. Esto permite al modelo aprender representaciones globales y mantener el contexto general a lo largo de la secuencia larga.
  • Atención de Ventana Deslizante Dilatada: Similar a la atención de ventana deslizante pero con huecos (dilatación) en la ventana, lo que permite un campo receptivo efectivo mayor con un coste computacional similar.

Combinando estratégicamente estos mecanismos de atención, Longformer reduce significativamente la carga computacional, al tiempo que conserva la capacidad de modelar dependencias de largo alcance, cruciales para comprender entradas largas. Esto hace que Longformer sea especialmente valioso en tareas de procesamiento del lenguaje natural (PLN) relacionadas con documentos, artículos o conversaciones, y en tareas de visión por ordenador con imágenes o vídeos de alta resolución.

Aplicaciones del Longformer

La capacidad del Longformer para manejar secuencias largas lo hace adecuado para una serie de aplicaciones en las que la longitud del contexto es crítica:

  • Resumir documentos: En tareas que requieren la comprensión de documentos completos para generar resúmenes coherentes, Longformer destaca procesando el texto completo de entrada. Por ejemplo, en el análisis de imágenes jurídicas o médicas, donde el contexto de informes extensos es esencial, Longformer puede proporcionar resúmenes más completos y precisos en comparación con los modelos con ventanas de contexto limitadas.
  • Respuesta a preguntas en documentos largos: Longformer es muy eficaz en sistemas de respuesta a preguntas que necesitan recuperar información de documentos extensos. Por ejemplo, en aplicaciones de IA jurídica, Longformer puede utilizarse para responder a preguntas jurídicas específicas basadas en documentos de casos o estatutos extensos, lo que ofrece una ventaja significativa sobre los modelos que sólo pueden procesar fragmentos de texto a la vez.
  • Procesamiento de datos genómicos: Más allá del texto, la arquitectura de Longformer es adaptable a otros tipos de datos secuenciales, incluidas las secuencias genómicas. En bioinformática, analizar secuencias largas de ADN o ARN es crucial para comprender los procesos biológicos y las enfermedades. Longformer puede procesar estas largas secuencias para identificar patrones y relaciones que podrían pasar desapercibidos para los modelos con capacidades de contexto más cortas.
  • Análisis de vídeos largos: En las tareas de visión por ordenador que implican vídeos, especialmente las que requieren comprender acontecimientos durante periodos prolongados, Longformer puede aplicarse para procesar secuencias largas de fotogramas. Esto es beneficioso en aplicaciones como la vigilancia o el análisis de procedimientos quirúrgicos largos en los que el contexto temporal es vital.

Modelos de transformador y transformador largo

Longformer es una evolución de la arquitectura Transformer original, diseñada específicamente para superar las limitaciones computacionales de los transformadores estándar cuando se trata de secuencias largas. Mientras que los transformadores tradicionales utilizan la autoatención completa, que es cuadráticamente compleja, Longformer introduce patrones de atención dispersos para lograr una complejidad lineal. Esto hace que Longformer sea una opción más escalable y eficiente para tareas que implican dependencias de largo alcance, al tiempo que conserva los puntos fuertes centrales de la arquitectura del transformador para captar las relaciones contextuales. Para tareas con secuencias de entrada más cortas, los transformadores estándar pueden ser suficientes, pero para aplicaciones que exigen el procesamiento de un contexto extenso, Longformer proporciona una ventaja significativa. Puedes explorar otras arquitecturas de modelos como YOLO-NAS o RT-DETR en el ecosistema Ultralytics , que están diseñadas para tareas de detección de objetos eficientes y precisas, mostrando el diverso panorama de las arquitecturas de modelos en la IA.

Leer todo