Descubre el poder de los Transformadores de Visión (ViT) en la visión por ordenador. Descubre cómo superan a las CNN captando el contexto global de la imagen.
Vision Transformer (ViT) marca un avance fundamental en la visión por ordenador (VC), al aplicar la arquitectura Transformer, de gran éxito, diseñada inicialmente para el procesamiento del lenguaje natural (PLN), a tareas basadas en imágenes. A diferencia de las Redes Neuronales Convolucionales (CNN ) tradicionales, que procesan las imágenes utilizando filtros localizados capa por capa, las ViT dividen una imagen en parches de tamaño fijo, los tratan como una secuencia de tokens (similares a las palabras de una frase) y los procesan utilizando el mecanismo de autoatención del Transformer. Esto permite a los ViT captar el contexto global y las dependencias de largo alcance dentro de una imagen de forma más eficaz que muchas arquitecturas CNN, lo que conduce a resultados de vanguardia en diversas pruebas de referencia, especialmente cuando se entrenan en grandes conjuntos de datos como ImageNet.
La idea central del ViT consiste en remodelar el paradigma del procesamiento de imágenes. Una imagen de entrada se divide primero en una cuadrícula de parches no superpuestos. Cada parche se aplana en un vector y luego se proyecta linealmente en un espacio de incrustación. Para conservar la información espacial, se añaden incrustaciones posicionales a estas incrustaciones de parches. Esta secuencia de vectores, que ahora representan los parches de la imagen con sus posiciones, se introduce en un codificador Transformer estándar, como se detalla en el artículo original "Una imagen vale 16x16 palabras".
El codificador Transformer, compuesto por múltiples capas, se basa en gran medida en el mecanismo de autoatención. Este mecanismo permite al modelo sopesar la importancia de los distintos parches entre sí de forma dinámica, lo que le permite aprender relaciones entre partes distantes de la imagen. Este campo receptivo global contrasta con el campo receptivo típicamente local de las CNN, lo que da a las ViT una ventaja en la comprensión del contexto global de la escena. Recursos como El Transformador Ilustrado ofrecen explicaciones intuitivas de los conceptos subyacentes de los Transformadores. Frameworks como PyTorch y TensorFlow proporcionan implementaciones de estos componentes.
Los Transformadores de Visión han adquirido una gran relevancia en el aprendizaje profundo moderno debido a su escalabilidad y a su impresionante rendimiento, especialmente con preentrenamiento a gran escala. Su capacidad para modelar el contexto global los hace adecuados para una amplia gama de tareas de CV más allá de la clasificación básica de imágenes, incluyendo:
Los ViT están cada vez más integrados en plataformas como Ultralytics HUB y bibliotecas como Hugging Face Transformers, lo que los hace accesibles para la investigación y el despliegue. También pueden optimizarse para el despliegue de Edge AI en dispositivos como NVIDIA Jetson.
Aunque tanto los ViT como las CNN son arquitecturas fundacionales de la visión por ordenador (véase Historia de los modelos de visión), difieren significativamente en su enfoque:
La elección entre ViT y CNN suele depender de la tarea específica, los datos disponibles y los recursos informáticos. Los ViT suelen sobresalir cuando se dispone de grandes cantidades de datos de entrenamiento, mientras que las CNN como las de Ultralytics YOLO siguen siendo muy eficaces y eficientes, sobre todo para la detección de objetos en tiempo real en dispositivos con limitaciones.