Descubra el poder de los transformadores de visión (ViT) en la visión por ordenador. Descubra cómo superan a las CNN capturando el contexto global de la imagen.
Un Transformador de Visión (ViT) es un tipo de arquitectura de red neuronal que aplica el exitoso modelo Transformer, diseñado originalmente para el procesamiento del lenguaje natural (PLN), a tareas de visión por ordenador (VC). Presentadas por los investigadores de Google en el artículo "An Image is Worth 16x16 Words", las ViT representan un cambio significativo con respecto a las arquitecturas de redes neuronales convolucionales (CNN ) dominantes. En lugar de procesar imágenes con filtros deslizantes, una ViT trata una imagen como una secuencia de parches, lo que le permite captar relaciones globales entre distintas partes de una imagen utilizando el mecanismo de autoatención.
La idea central de un ViT es procesar una imagen de forma que imite la forma en que los Transformers procesan el texto. El proceso consta de unos cuantos pasos clave:
Aunque tanto los ViT como las CNN son arquitecturas fundacionales de la visión por ordenador, difieren significativamente en su enfoque:
Los ViT han demostrado un rendimiento excepcional en diversas aplicaciones, especialmente cuando es clave comprender el contexto global.
El éxito de los ViT también ha inspirado arquitecturas híbridas. Modelos como RT-DETR combinan una CNN troncal para la extracción eficaz de características con un codificador-decodificador basado en Transformer para modelar las relaciones entre objetos. Este enfoque pretende obtener lo mejor de ambos mundos: la eficacia de las CNN y el conocimiento global del contexto de los Transformers.
Para muchas aplicaciones en tiempo real, especialmente en dispositivos de borde con recursos limitados, los modelos basados en CNN altamente optimizados, como la familia YOLO de Ultralytics (por ejemplo, YOLOv8 y YOLO11), suelen ofrecer un mejor equilibrio entre velocidad y precisión. Puede ver una comparación detallada entre RT-DETR y YOLO11 para entender las compensaciones. La elección entre un ViT y una CNN depende en última instancia de la tarea específica, los datos disponibles y el presupuesto computacional.