Glosario

Transformador Visión (ViT)

Descubre cómo los Transformadores de Visión (ViT) revolucionan la visión por ordenador con la autoatención, destacando en tareas de clasificación, detección y segmentación.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los Transformadores de Visión (ViT) han revolucionado la visión por ordenador al introducir en las tareas de visión arquitecturas basadas en transformadores, utilizadas tradicionalmente en el procesamiento del lenguaje natural (PLN). A diferencia de las Redes Neuronales Convolucionales (CNN), que se basan en operaciones convolucionales, los ViT utilizan mecanismos de autoatención para analizar y procesar datos de imágenes, ofreciendo un enfoque más flexible y escalable a diversos retos de visión.

Cómo funcionan los Transformadores de Visión

Los ViT dividen una imagen de entrada en parches más pequeños de tamaño fijo, los aplanan y tratan cada parche como un "token", similar a las palabras en PNL. A continuación, estos tokens se incrustan en vectores de alta dimensión y pasan a través de múltiples capas de codificadores transformadores, donde los mecanismos de autoatención permiten al modelo centrarse en las partes relevantes de la imagen. Esta estructura permite a los ViT captar eficazmente las dependencias locales y globales.

Los ViT se basan en codificaciones posicionales para conservar la información espacial, un aspecto crítico de los datos de imagen del que carecen los transformadores tradicionales. Al aprender las relaciones entre los parches, los ViT pueden lograr un rendimiento de vanguardia en tareas como la clasificación de imágenes, la detección de objetos y la segmentación.

Ventajas sobre las CNN

  1. Escalabilidad: Los ViT se escalan mejor con grandes conjuntos de datos en comparación con las CNN, lo que los hace adecuados para aplicaciones que requieren imágenes de alta resolución o diversos conjuntos de datos.
  2. Contexto global: El mecanismo de autoatención permite a las ViT modelar dependencias de largo alcance en una imagen, mientras que las CNN se limitan a campos receptivos locales.
  3. Flexibilidad: Los ViT pueden ajustarse a diferentes tareas con cambios arquitectónicos mínimos, aprovechando modelos preentrenados como ImageNet.

Aprende más sobre el funcionamiento de los transformadores en la entrada del glosario Transformador.

Aplicaciones de los transformadores de visión

Clasificación de imágenes

Los ViT destacan en tareas de clasificación de imágenes gracias a su capacidad para captar características globales de la imagen. Los ViT preentrenados, como Google's Vision Transformer, han alcanzado una precisión de vanguardia en puntos de referencia como ImageNet. Por ejemplo, los ViT se aplican en la sanidad para clasificar imágenes médicas, lo que ayuda en el diagnóstico de enfermedades.

Explora las tareas de clasificación de imágenes con los modelosUltralytics YOLO .

Detección de objetos

Los ViT se utilizan cada vez más en los conductos de detección de objetos, sustituyendo a las redes tradicionales basadas en convolución. Modelos como DETR (DEtection TRansformer) demuestran la eficacia de los ViT para detectar y localizar objetos sin depender de las redes de propuesta de regiones.

Descubre soluciones de detección de objetos con Ultralytics YOLO.

Segmentación de imágenes

Al aprovechar la autoatención, los ViT proporcionan soluciones precisas y eficientes para la segmentación semántica y de instancias. Las aplicaciones incluyen la conducción autónoma, donde la segmentación precisa a nivel de píxel es crucial para detectar señales de tráfico, peatones y vehículos.

Más información sobre las tareas de segmentación en la segmentación de imágenes.

Ejemplos reales

  1. Sanidad: Los ViT se emplean en la imagen médica para tareas como la detección de tumores y la segmentación de órganos. Su capacidad para analizar imágenes de alta resolución ayuda en el diagnóstico precoz y la planificación del tratamiento. Por ejemplo, las capacidades de imagen médica deUltralytics YOLO11 pueden mejorarse con columnas vertebrales basadas en ViT para aumentar la precisión.

  2. Vehículos autónomos: Los ViT impulsan los sistemas de visión de los coches autónomos, permitiendo la detección en tiempo real de obstáculos, marcas de carril y señales de tráfico. Su conocimiento global del contexto mejora la seguridad y la toma de decisiones.

Explora más aplicaciones de la IA en la conducción autónoma con las soluciones de IA de visión.

Retos y consideraciones

Aunque los ViT ofrecen ventajas significativas, conllevan retos:

  • Requisitos de datos: Los ViT funcionan mejor con grandes conjuntos de datos, ya que sus mecanismos de autoatención requieren muchos datos para generalizar con eficacia.
  • Costes computacionales: Entrenar ViTs requiere considerables recursos computacionales debido a su complejidad cuadrática en la autoatención.

Para resolver estos problemas, se han introducido enfoques como modelos híbridos que combinan ViTs con CNNs y técnicas como la fusión de parches para hacer que los ViTs sean más eficientes.

Conceptos relacionados

  • Transformadores: Los ViT son una aplicación especializada de los transformadores, diseñados originalmente para la PNL. Más información sobre los transformadores.
  • Autoatención: El mecanismo central de los ViT que les permite centrarse en distintas partes de la imagen. Explora la autoatención para una comprensión más profunda.

Las ViT siguen superando los límites de la visión por ordenador, ofreciendo soluciones innovadoras en todos los sectores. Con herramientas como Ultralytics HUB, los desarrolladores pueden explorar el potencial de las ViT en aplicaciones del mundo real, simplificando el despliegue y ampliando las soluciones de IA.

Leer todo