Glosario

Reformador

Descubre el modelo Reformer: una innovadora arquitectura de transformador optimizada para secuencias largas con atención LSH y capas reversibles.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Reformer es una variante eficiente de la arquitectura Transformer estándar, diseñada específicamente para manejar secuencias muy largas, que plantean importantes retos computacionales y de memoria para los Transformers tradicionales. Introducido por investigadores de Google Research, Reformer incorpora varias innovaciones para reducir drásticamente el uso de memoria y el coste computacional, haciendo factible procesar secuencias con cientos de miles o incluso millones de elementos, mucho más allá de los límites típicos de los Transformers estándar. Esta eficiencia abre posibilidades para aplicar modelos similares a Transformer a tareas que impliquen un contexto extenso, como el procesamiento de libros enteros, imágenes de alta resolución tratadas como secuencias de píxeles o largas piezas musicales.

Conceptos básicos de Reformer

El reformador consigue su eficacia principalmente mediante dos técnicas clave:

  1. Atención de Hashing Sensible a la Localidad (LSH): Los Transformadores estándar utilizan un mecanismo de autoatención completa, en el que cada elemento (ficha) atiende a todos los demás elementos. El coste computacional de esto crece cuadráticamente con la longitud de la secuencia. Reformer lo sustituye por la atención LSH, una técnica de aproximación basada en el Hashing Sensible a la Localidad. LSH agrupa los tokens similares, y la atención se calcula sólo dentro de estos grupos o en grupos cercanos, reduciendo significativamente la complejidad computacional de cuadrática a casi lineal.
  2. Capas residuales reversibles: Los transformadores apilan varias capas y, durante el entrenamiento, las activaciones de cada capa suelen almacenarse en la memoria para la retropropagación. Esto consume mucha memoria, especialmente con muchas capas o grandes activaciones. El Reformador utiliza capas reversibles, que permiten recalcular las activaciones de cualquier capa durante el paso hacia atrás utilizando sólo las activaciones de la capa siguiente. Esto elimina la necesidad de almacenar las activaciones de la mayoría de las capas, reduciendo drásticamente el uso de memoria durante el entrenamiento.

Reformador vs. Transformador estándar

Aunque ambos se basan en el mecanismo de atención, Reformer difiere significativamente:

  • Atención: Los Transformadores estándar utilizan una atención completa y costosa desde el punto de vista computacional. Reformador utiliza atención aproximada eficiente basada en LSH.
  • Memoria: Los Transformadores estándar requieren una gran cantidad de memoria para almacenar las activaciones. Reformer utiliza capas reversibles para minimizar los requisitos de memoria durante el entrenamiento del modelo.
  • Longitud de la secuencia: Los Transformadores estándar suelen estar limitados a secuencias de unos pocos miles de tokens. Reformer puede manejar secuencias de órdenes de magnitud más largas.
  • Caso práctico: Los Transformadores estándar destacan en tareas con secuencias moderadamente largas. Reformer está optimizado específicamente para tareas con secuencias extremadamente largas en las que los Transformadores estándar son inviables. Puedes explorar varios modelos basados en Transformer en plataformas como Hugging Face.

Aplicaciones

La capacidad del Reformer para procesar secuencias largas lo hace adecuado para diversas tareas en Inteligencia Artificial (IA):

  • Procesamiento de documentos largos: Tareas como resumir libros enteros, responder a preguntas basadas en documentos jurídicos o técnicos largos, o realizar análisis de sentimientos en textos extensos se hacen más manejables.
  • Genómica: Análisis de secuencias largas de ADN o proteínas.
  • Análisis de Series Temporales: Modelización de datos de series temporales muy largas, como tendencias detalladas del mercado financiero o patrones climáticos a largo plazo.
  • Modelado Generativo: Generar largas piezas coherentes de texto, música o incluso imágenes de alta resolución tratando los píxeles como una larga secuencia( generaciónde texto a imagen ).

Mientras que modelos como Ultralytics YOLO se centran en la detección eficaz de objetos en imágenes, a menudo utilizando redes neuronales convolucionales (CNN) o arquitecturas híbridas como RT-DETRlos principios de eficiencia computacional y de memoria explorados en Reformer son relevantes en todo el campo del Aprendizaje Profundo (AD). Comprender estos avances ayuda a impulsar la innovación hacia modelos de IA más capaces y accesibles, un objetivo compartido por plataformas como Ultralytics HUB, que pretenden simplificar el desarrollo y la implantación de la IA. Para más detalles, consulta el documento de investigación original de Reformer. La comparación de la eficiencia de los modelos, como YOLO11 frente a YOLOv10, pone de relieve el esfuerzo continuo por equilibrar el rendimiento y el uso de recursos.

Leer todo