Glosario

Transformador Visión (ViT)

Descubre el poder de los Transformadores de Visión (ViT) en la visión por ordenador. Descubre cómo superan a las CNN captando el contexto global de la imagen.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Vision Transformer (ViT) representa un cambio significativo en el campo de la visión por ordenador, al adaptar la arquitectura Transformer, desarrollada originalmente para el procesamiento del lenguaje natural, a tareas de reconocimiento de imágenes. A diferencia de las redes neuronales convolucionales (CNN) tradicionales, que procesan las imágenes capa por capa, las ViT descomponen una imagen en fragmentos más pequeños y los tratan como fichas de una secuencia, como las palabras de una frase. Este novedoso enfoque permite a los ViT aprovechar el potente mecanismo de autoatención del Transformador para captar las relaciones globales dentro de una imagen, lo que conduce a un rendimiento de vanguardia en diversas tareas de visión por ordenador.

Cómo funcionan los Transformadores de Visión

En esencia, un Transformador de Visión procesa las imágenes dividiéndolas primero en una cuadrícula de parches de tamaño fijo. A continuación, estos parches se aplanan y se transforman linealmente en incrustaciones, que son esencialmente representaciones vectoriales. Se añaden incrustaciones posicionales a estas incrustaciones de parches para conservar la información espacial, crucial para comprender la estructura de la imagen. Esta secuencia de parches incrustados se introduce en un codificador Transformer estándar.

El codificador Transformer está formado por varias capas de redes de autoatención y feed-forward multicabezales. El componente clave aquí es el mecanismo de autoatención, que permite al modelo sopesar la importancia de cada parche en relación con todos los demás parches al procesar la imagen. Esto permite al ViT comprender el contexto global de la imagen, captando dependencias de largo alcance que podrían pasar desapercibidas a las CNN centradas en características locales. Esta comprensión del contexto global es uno de los principales puntos fuertes de los Transformadores de Visión. Para profundizar en los principios subyacentes, recursos como "El Transformador Ilustrado" de Jay Allammar proporcionan excelentes explicaciones visuales de la arquitectura de los Transformadores.

Relevancia y aplicaciones

Los Transformadores de Visión han ganado protagonismo rápidamente debido a su impresionante rendimiento y escalabilidad. Su habilidad para captar el contexto global y su capacidad para beneficiarse de grandes conjuntos de datos los han hecho muy relevantes en las aplicaciones modernas de aprendizaje profundo. Entre las aplicaciones clave de los ViT se incluyen:

  • Clasificación de imágenes: Los ViT han obtenido los mejores resultados en pruebas comparativas de clasificación de imágenes, superando a menudo el rendimiento de los modelos tradicionales basados en CNN. Su arquitectura es especialmente eficaz cuando se entrena en grandes conjuntos de datos como ImageNet.
  • Detección de Objetos: Los Transformadores de Visión se utilizan cada vez más como columna vertebral en los marcos de detección de objetos. Modelos como RT-DETR de Ultralytics aprovechan los Transformadores de Visión para conseguir un rendimiento en tiempo real con gran precisión.
  • Segmentación de imágenes: Los ViT también son eficaces en tareas de segmentación de imágenes, permitiendo una clasificación precisa a nivel de píxel para aplicaciones como el análisis de imágenes médicas y la conducción autónoma. Por ejemplo, el Segment Anything Model (SAM ) utiliza una columna vertebral ViT para sus potentes capacidades de segmentación.

Las aplicaciones en el mundo real abarcan varias industrias. En sanidad, las ViT ayudan en el análisis de imágenes médicas para mejorar el diagnóstico. En agricultura, mejoran la supervisión de cultivos y la detección de enfermedades. Además, su eficacia y precisión las hacen adecuadas para su despliegue en dispositivos periféricos, como se explora en las guías para NVIDIA Jetson y Raspberry Pi.

Transformadores de Visión vs. CNNs

Aunque las CNN han sido durante mucho tiempo la arquitectura dominante en la visión por ordenador, los Transformadores de Visión ofrecen un enfoque fundamentalmente diferente. Las CNN destacan en la captura de patrones locales mediante capas convolucionales, lo que las hace eficaces para tareas en las que las características locales son cruciales. Sin embargo, a veces tienen dificultades para captar las dependencias de largo alcance y el contexto global. Los ViT, en cambio, captan intrínsecamente el contexto global a través de sus mecanismos de autoatención, lo que supone una ventaja en tareas que requieren una comprensión holística de la escena.

A pesar de sus puntos fuertes, los ViT suelen requerir conjuntos de datos significativamente mayores para el entrenamiento en comparación con las CNN para lograr un rendimiento óptimo. Las CNN pueden ser más eficientes desde el punto de vista informático para conjuntos de datos más pequeños y tareas centradas en la extracción de características locales. La elección entre ViTs y CNNs suele depender de la aplicación específica, el tamaño del conjunto de datos y los recursos informáticos disponibles. Los Transformadores de Visión representan una evolución significativa en la visión por ordenador, demostrando el poder de los mecanismos de atención y allanando el camino para futuros avances en este campo.

Leer todo