Glosario

Transformador

Descubra cómo las arquitecturas Transformer revolucionan la IA, impulsando avances en PNL, visión por ordenador y tareas avanzadas de ML.

Un Transformer es una revolucionaria arquitectura de red neuronal que se ha convertido en piedra angular de la Inteligencia Artificial (IA) moderna, especialmente en el Procesamiento del Lenguaje Natural (PLN) y, más recientemente, en la Visión por Computador (VC). Presentada por investigadores de Google en el artículo de 2017 "Attention Is All You Need", su innovación clave es el mecanismo de autoatención, que permite al modelo sopesar la importancia de diferentes palabras o partes de una secuencia de entrada. Esto le permite captar las dependencias de largo alcance y las relaciones contextuales con mayor eficacia que las arquitecturas anteriores. El diseño también permite una paralelización masiva, lo que hace posible entrenar modelos mucho más grandes en conjuntos de datos masivos, dando lugar al auge de los modelos lingüísticos de gran tamaño (LLM).

Cómo funcionan los transformadores

A diferencia de los modelos secuenciales, como las redes neuronales recurrentes (RNN), los Transformers procesan secuencias enteras de datos a la vez. La idea central es manejar todos los elementos en paralelo, lo que acelera considerablemente el entrenamiento en hardware moderno como las GPU.

Para comprender el orden de la secuencia sin recurrencias, los Transformers utilizan una técnica denominada codificación posicional, que añade información sobre la posición de cada elemento (por ejemplo, una palabra en una frase) a su incrustación. A continuación, las capas de autoatención procesan estas incrustaciones, lo que permite a cada elemento "mirar" a todos los demás elementos de la secuencia y determinar cuáles son los más relevantes para comprender su significado. Este conocimiento global del contexto es una gran ventaja para las tareas complejas. Frameworks como PyTorch y TensorFlow proporcionan un amplio soporte para construir modelos basados en Transformer.

Aplicaciones de los transformadores

El impacto de Transformers se extiende a numerosos ámbitos, impulsando el progreso tanto en tareas lingüísticas como visuales.

  1. Traducción y generación de idiomas: Servicios como Google Translate utilizan modelos basados en Transformer para realizar traducciones automáticas de alta calidad. El modelo puede tener en cuenta toda la frase original para producir una traducción más fluida y precisa. Del mismo modo, modelos como GPT-4 destacan en la generación de texto al comprender el contexto para crear párrafos coherentes, redactar artículos o impulsar chatbots avanzados.
  2. Visión por ordenador: El Transformador de Visión (ViT) adapta la arquitectura para tareas basadas en imágenes. Trata una imagen como una secuencia de parches y utiliza la autoatención para modelar las relaciones entre ellos. Este enfoque se utiliza en modelos como RT-DETR para la detección de objetos, donde la comprensión del contexto global de una escena puede ayudar a identificar objetos con mayor precisión, especialmente en entornos desordenados. Puede ver una comparación de RT-DETR y YOLOv8 para comprender sus diferencias arquitectónicas.

Transformer frente a otras arquitecturas

Es útil distinguir los Transformers de otras arquitecturas de redes neuronales comunes:

  • Transformadores frente a RNN: Las RNN procesan los datos secuencialmente, lo que las hace intrínsecamente lentas y susceptibles al problema del gradiente evanescente, que les hace olvidar información anterior en secuencias largas. Los transformadores lo superan con el procesamiento paralelo y la autoatención, capturando las dependencias de largo alcance de forma mucho más eficaz.
  • Transformadores frente a CNN: Las redes neuronales convolucionales (CNN ) son muy eficaces para tareas de visión, ya que utilizan filtros convolucionales para identificar patrones locales en datos en forma de cuadrícula, como los píxeles. Son la base de modelos como la familia YOLO de Ultralytics. Los transformadores, en cambio, captan las relaciones globales, pero suelen requerir más datos y recursos informáticos. Los modelos híbridos, que combinan una CNN con capas de transformadores, pretenden obtener lo mejor de ambos mundos.

Variantes de transformadores eficientes

El coste computacional de la autoatención completa del Transformer original crece cuadráticamente con la longitud de la secuencia, lo que lo convierte en un reto para secuencias muy largas. Esto ha llevado a desarrollar variantes más eficientes.

  • Longformer: Utiliza un mecanismo de atención de ventana deslizante combinado con atención global sobre tokens específicos para reducir la complejidad computacional.
  • Reformador: Emplea técnicas como el hashing sensible a la localidad para aproximar la atención plena, haciéndola más eficiente en memoria.
  • Transformer-XL: introduce un mecanismo de recurrencia que permite al modelo aprender dependencias más allá de una longitud fija, lo que resulta especialmente útil para el modelado autorregresivo del lenguaje.

Estos avances siguen ampliando la aplicabilidad de Transformers a nuevos problemas. Herramientas y plataformas como Hugging Face y Ultralytics HUB facilitan a los desarrolladores el acceso a estos potentes modelos y su despliegue.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles