Descubre el poder de los Transformadores de Visión (ViT) en la visión por ordenador. Descubre cómo superan a las CNN captando el contexto global de la imagen.
Vision Transformer (ViT) representa un cambio significativo en el campo de la visión por ordenador, al adaptar la arquitectura Transformer, desarrollada originalmente para el procesamiento del lenguaje natural, a tareas de reconocimiento de imágenes. A diferencia de las redes neuronales convolucionales (CNN) tradicionales, que procesan las imágenes capa por capa, las ViT descomponen una imagen en fragmentos más pequeños y los tratan como fichas de una secuencia, como las palabras de una frase. Este novedoso enfoque permite a los ViT aprovechar el potente mecanismo de autoatención del Transformador para captar las relaciones globales dentro de una imagen, lo que conduce a un rendimiento de vanguardia en diversas tareas de visión por ordenador.
En esencia, un Transformador de Visión procesa las imágenes dividiéndolas primero en una cuadrícula de parches de tamaño fijo. A continuación, estos parches se aplanan y se transforman linealmente en incrustaciones, que son esencialmente representaciones vectoriales. Se añaden incrustaciones posicionales a estas incrustaciones de parches para conservar la información espacial, crucial para comprender la estructura de la imagen. Esta secuencia de parches incrustados se introduce en un codificador Transformer estándar.
El codificador Transformer está formado por varias capas de redes de autoatención y feed-forward multicabezales. El componente clave aquí es el mecanismo de autoatención, que permite al modelo sopesar la importancia de cada parche en relación con todos los demás parches al procesar la imagen. Esto permite al ViT comprender el contexto global de la imagen, captando dependencias de largo alcance que podrían pasar desapercibidas a las CNN centradas en características locales. Esta comprensión del contexto global es uno de los principales puntos fuertes de los Transformadores de Visión. Para profundizar en los principios subyacentes, recursos como "El Transformador Ilustrado" de Jay Allammar proporcionan excelentes explicaciones visuales de la arquitectura de los Transformadores.
Los Transformadores de Visión han ganado protagonismo rápidamente debido a su impresionante rendimiento y escalabilidad. Su habilidad para captar el contexto global y su capacidad para beneficiarse de grandes conjuntos de datos los han hecho muy relevantes en las aplicaciones modernas de aprendizaje profundo. Entre las aplicaciones clave de los ViT se incluyen:
Las aplicaciones en el mundo real abarcan varias industrias. En sanidad, las ViT ayudan en el análisis de imágenes médicas para mejorar el diagnóstico. En agricultura, mejoran la supervisión de cultivos y la detección de enfermedades. Además, su eficacia y precisión las hacen adecuadas para su despliegue en dispositivos periféricos, como se explora en las guías para NVIDIA Jetson y Raspberry Pi.
Aunque las CNN han sido durante mucho tiempo la arquitectura dominante en la visión por ordenador, los Transformadores de Visión ofrecen un enfoque fundamentalmente diferente. Las CNN destacan en la captura de patrones locales mediante capas convolucionales, lo que las hace eficaces para tareas en las que las características locales son cruciales. Sin embargo, a veces tienen dificultades para captar las dependencias de largo alcance y el contexto global. Los ViT, en cambio, captan intrínsecamente el contexto global a través de sus mecanismos de autoatención, lo que supone una ventaja en tareas que requieren una comprensión holística de la escena.
A pesar de sus puntos fuertes, los ViT suelen requerir conjuntos de datos significativamente mayores para el entrenamiento en comparación con las CNN para lograr un rendimiento óptimo. Las CNN pueden ser más eficientes desde el punto de vista informático para conjuntos de datos más pequeños y tareas centradas en la extracción de características locales. La elección entre ViTs y CNNs suele depender de la aplicación específica, el tamaño del conjunto de datos y los recursos informáticos disponibles. Los Transformadores de Visión representan una evolución significativa en la visión por ordenador, demostrando el poder de los mecanismos de atención y allanando el camino para futuros avances en este campo.