Glosario

Transformador

Descubre cómo las arquitecturas Transformer revolucionan la IA, impulsando avances en PNL, visión por ordenador y tareas avanzadas de ML.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los transformadores representan una arquitectura de red neuronal fundamental que ha hecho avanzar significativamente los campos de la inteligencia artificial (IA) y el aprendizaje automático (AM), especialmente en el procesamiento del lenguaje natural (PLN ) y, cada vez más, en la visión por ordenador (VC). Introducidas en el influyente artículo"Attention Is All You Need", procesan datos secuenciales, como texto o series temporales, utilizando un mecanismo llamado autoatención. Esto permite al modelo sopesar dinámicamente la importancia de las distintas partes de la entrada, superando las limitaciones clave de arquitecturas más antiguas como las Redes Neuronales Recurrentes (RNN).

Cómo funcionan los transformadores

La principal innovación de los Transformadores es el mecanismo de autoatención. A diferencia de las RNN, que procesan la entrada secuencialmente (un elemento tras otro) y pueden tener dificultades con secuencias largas debido a problemas como la desaparición de gradientes, los Transformers pueden considerar todas las partes de la secuencia de entrada simultáneamente. Esta capacidad de procesamiento paralelo acelera significativamente el entrenamiento en hardware moderno como las GPU de empresas como NVIDIA.

Mientras que las Redes Neuronales Convolucionales (CNN ) típicas se centran en características locales mediante filtros de tamaño fijo que realizan la convolución, el mecanismo de atención permite a los Transformadores captar dependencias de largo alcance y relaciones contextuales en toda la entrada. Esta capacidad de comprender el contexto global es crucial para las tareas que implican relaciones complejas, ya sea en el texto o en los parches de imagen utilizados en los Transformadores de Visión (ViTs).

Relevancia e impacto

Los transformadores se han convertido en la base de muchos modelos de IA de última generación debido a su eficacia para captar el contexto y manejar secuencias largas. Su naturaleza paralelizable ha permitido el entrenamiento de modelos masivos con miles de millones de parámetros, como GPT-3 y GPT-4 desarrollados por OpenAI, lo que ha dado lugar a grandes avances en la IA generativa. Esta escalabilidad y rendimiento han hecho que los Transformers sean fundamentales para el progreso en diversas tareas de IA, impulsando la innovación en la investigación y la industria. Muchos modelos Transformer populares, como BERT, están fácilmente disponibles a través de plataformas como Hugging Face y se implementan utilizando marcos como PyTorch y TensorFlowa menudo integrados en plataformas MLOps como Ultralytics HUB.

Aplicaciones en IA y ML

Los transformadores son muy versátiles y alimentan numerosas aplicaciones de IA:

Transformador frente a otras arquitecturas

Es útil distinguir los Transformadores de otras arquitecturas comunes de redes neuronales:

  • Transformadores frente a RNNs: Las RNN procesan los datos secuencialmente, lo que las hace adecuadas para datos de series temporales, pero propensas a olvidar información anterior en secuencias largas(problema del gradiente evanescente). Los Transformadores procesan secuencias en paralelo utilizando la autoatención, capturando las dependencias de largo alcance con mayor eficacia y entrenándose más rápido en hardware paralelo(GPU).
  • Transformadores vs. CNNs: Las CNN destacan en la identificación de patrones locales en datos reticulares (por ejemplo, píxeles de una imagen) mediante filtros convolucionales. Son muy eficaces para muchas tareas de visión como las que aborda Ultralytics YOLO de Ultralytics. Los transformadores, en particular los ViT, dividen las imágenes en parches y utilizan la autoatención para modelar las relaciones entre ellos, capturando el contexto global potencialmente mejor, pero a menudo requieren más datos y recursos informáticos, especialmente durante el entrenamiento del modelo. Las arquitecturas híbridas, que combinan características de CNN con capas de Transformadores, pretenden aprovechar los puntos fuertes de ambas, como se ve en algunas variantesRT-DETR . La elección suele depender de la tarea específica, el tamaño del conjunto de datos y los recursos informáticos disponibles.
Leer todo