Glosario

Transformador-XL

Descubre cómo Transformer-XL revoluciona el modelado de secuencias con innovaciones como la recurrencia a nivel de segmento y el manejo de contextos de largo alcance.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Transformer-XL (Transformer-Extra Long) representa un avance significativo sobre la arquitectura Transformer original, diseñado principalmente para manejar con mayor eficacia las dependencias de largo alcance en los datos secuenciales. Desarrollado por investigadores de Google AI y de la Universidad Carnegie Mellon, aborda la limitación de fragmentación del contexto inherente a los Transformers estándar cuando se procesan secuencias muy largas, lo cual es crucial para tareas en el Procesamiento del Lenguaje Natural (PLN ) y más allá. A diferencia de los Transformadores vainilla, que procesan segmentos de longitud fija de forma independiente, Transformer-XL introduce mecanismos para reutilizar la información entre segmentos, lo que permite al modelo construir una comprensión coherente de contextos mucho más largos.

Conceptos básicos de Transformer-XL

Transformer-XL introduce dos innovaciones clave para superar las limitaciones de los Transformadores estándar cuando se trata de secuencias largas:

  1. Recurrencia a nivel de segmento: Los Transformadores estándar procesan secuencias largas dividiéndolas en segmentos de tamaño fijo. Sin embargo, la información no puede fluir entre estos segmentos, lo que provoca la fragmentación del contexto. Transformer-XL introduce un mecanismo de recurrencia en el que los estados ocultos calculados para un segmento anterior se almacenan en caché y se reutilizan como contexto al procesar el segmento actual. Esto permite que la información se propague a través de los segmentos, creando un contexto efectivo mucho más allá de la longitud de un único segmento. Esto es conceptualmente similar a cómo las Redes Neuronales Recurrentes (RNN) mantienen el estado, pero integrado en el marco de autoatención del Transformador.
  2. Codificaciones posicionales relativas: El Transformador original utiliza codificaciones posicionales absolutas para informar al modelo sobre la posición de las fichas dentro de una secuencia. Al aplicar la recurrencia a nivel de segmento, la reutilización de codificaciones absolutas se vuelve problemática, ya que el mismo índice de posición aparecería en segmentos diferentes, provocando ambigüedad. Transformer-XL emplea codificaciones posicionales relativas, que definen las posiciones basándose en la distancia entre las fichas y no en su ubicación absoluta. Esto hace que la información posicional sea coherente en los distintos segmentos y permite que el modelo se generalice mejor a las distintas longitudes de secuencia durante la inferencia.

Cómo funciona Transformer-XL

Durante el entrenamiento y la inferencia, Transformer-XL procesa las secuencias de entrada segmento a segmento. Para cada nuevo segmento, calcula las puntuaciones de atención no sólo basándose en los tokens de ese segmento, sino también utilizando los estados ocultos almacenados en caché de los segmentos anteriores. Esta información en caché proporciona un contexto histórico. El uso de codificaciones posicionales relativas garantiza que el mecanismo de atención interpreta correctamente las posiciones relativas de las fichas, incluso cuando se atiende a fichas del segmento anterior almacenado en caché. Este enfoque aumenta significativamente la longitud máxima posible de la dependencia que el modelo puede capturar, a menudo mucho mayor que la propia longitud del segmento, al tiempo que mantiene la eficiencia computacional en comparación con el procesamiento de toda la secuencia a la vez con un Transformador estándar. Este método ayuda a evitar problemas como el del gradiente evanescente en dependencias largas.

Transformer-XL vs. Transformador estándar y modelos relacionados

La principal diferencia radica en el manejo de la longitud de la secuencia y el contexto:

  • Longitud de contexto: Los Transformadores estándar tienen una longitud de contexto máxima fija determinada por el tamaño del segmento. Transformer-XL puede capturar dependencias potencialmente de miles de tokens de longitud gracias a su mecanismo de recurrencia.
  • Cálculo: Transformer-XL puede ser significativamente más rápido que los Transformadores estándar durante la evaluación de secuencias largas, porque se reutilizan los cálculos de los segmentos anteriores.
  • Memoria: El almacenamiento en caché de los estados ocultos requiere memoria adicional, pero evita volver a calcular las representaciones de las partes anteriores de la secuencia.
  • Modelos relacionados: Aunque modelos como BERT y GPT (Generative Pre-trained Transformer) también se basan en la arquitectura Transformer, suelen utilizar el enfoque estándar de contexto de longitud fija. Transformer-XL se centra específicamente en la limitación del contexto largo. Otros modelos, como Longformer y Reformer, también se ocupan de las secuencias largas, pero utilizan técnicas diferentes, como patrones de atención dispersos o hashing sensible a la localidad.

Relevancia y aplicaciones

La capacidad de Transformer-XL para modelar dependencias de largo alcance lo hace muy eficaz para diversas tareas secuenciales, sobre todo en PNL.

  • Modelado del lenguaje: Consiguió resultados punteros en pruebas de referencia de modelado lingüístico a nivel de caracteres y palabras, como enwik8 y WikiText-103, al capturar un contexto más amplio que los modelos anteriores. Esta mejor comprensión de la estructura del lenguaje es vital para generar textos coherentes y contextualmente relevantes.
  • Procesamiento de documentos largos: Las tareas que implican documentos largos, como el resumen(Resumir texto), la respuesta a preguntas sobre artículos extensos o el análisis de libros enteros o bases de código, se benefician significativamente de la ventana de contexto ampliada de Transformer-XL. Por ejemplo, un modelo Transformer-XL podría generar historias ficticias de capítulos largos o escribir extensos módulos de software(Generación de textos).
  • Aprendizaje por Refuerzo: Sus capacidades de memoria mejoradas también han encontrado aplicaciones en tareas de aprendizaje por ref uerzo que requieren una planificación a largo plazo.

Aunque Transformer-XL es conocido sobre todo por la PNL, los principios para manejar secuencias largas de forma eficiente son relevantes en todo el Aprendizaje Automático (AM), influyendo potencialmente en las arquitecturas para el análisis de series temporales o incluso en aspectos de la visión por ordenador (VC ) que tratan con datos de vídeo. Las innovaciones arquitectónicas suelen cruzarse; por ejemplo, los propios Transformadores inspiraron los Transformadores de Visión (ViT) utilizados en el análisis de imágenes. Plataformas como Hugging Face albergan implementaciones y modelos preentrenados, facilitando la investigación y el desarrollo de aplicaciones. Puedes explorar la investigación original en el artículo "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context". Comprender estas arquitecturas avanzadas ayuda a informar sobre el desarrollo y la puesta a punto de modelos en diversos dominios, incluidos los gestionados y desplegados mediante plataformas como Ultralytics HUB.

Leer todo