Descubre cómo los Transformadores de Visión (ViT) revolucionan la visión por ordenador con la autoatención, destacando en tareas de clasificación, detección y segmentación.
Los Transformadores de Visión (ViT) han revolucionado la visión por ordenador al introducir en las tareas de visión arquitecturas basadas en transformadores, utilizadas tradicionalmente en el procesamiento del lenguaje natural (PLN). A diferencia de las Redes Neuronales Convolucionales (CNN), que se basan en operaciones convolucionales, los ViT utilizan mecanismos de autoatención para analizar y procesar datos de imágenes, ofreciendo un enfoque más flexible y escalable a diversos retos de visión.
Los ViT dividen una imagen de entrada en parches más pequeños de tamaño fijo, los aplanan y tratan cada parche como un "token", similar a las palabras en PNL. A continuación, estos tokens se incrustan en vectores de alta dimensión y pasan a través de múltiples capas de codificadores transformadores, donde los mecanismos de autoatención permiten al modelo centrarse en las partes relevantes de la imagen. Esta estructura permite a los ViT captar eficazmente las dependencias locales y globales.
Los ViT se basan en codificaciones posicionales para conservar la información espacial, un aspecto crítico de los datos de imagen del que carecen los transformadores tradicionales. Al aprender las relaciones entre los parches, los ViT pueden lograr un rendimiento de vanguardia en tareas como la clasificación de imágenes, la detección de objetos y la segmentación.
Aprende más sobre el funcionamiento de los transformadores en la entrada del glosario Transformador.
Los ViT destacan en tareas de clasificación de imágenes gracias a su capacidad para captar características globales de la imagen. Los ViT preentrenados, como Google's Vision Transformer, han alcanzado una precisión de vanguardia en puntos de referencia como ImageNet. Por ejemplo, los ViT se aplican en la sanidad para clasificar imágenes médicas, lo que ayuda en el diagnóstico de enfermedades.
Explora las tareas de clasificación de imágenes con los modelosUltralytics YOLO .
Los ViT se utilizan cada vez más en los conductos de detección de objetos, sustituyendo a las redes tradicionales basadas en convolución. Modelos como DETR (DEtection TRansformer) demuestran la eficacia de los ViT para detectar y localizar objetos sin depender de las redes de propuesta de regiones.
Descubre soluciones de detección de objetos con Ultralytics YOLO.
Al aprovechar la autoatención, los ViT proporcionan soluciones precisas y eficientes para la segmentación semántica y de instancias. Las aplicaciones incluyen la conducción autónoma, donde la segmentación precisa a nivel de píxel es crucial para detectar señales de tráfico, peatones y vehículos.
Más información sobre las tareas de segmentación en la segmentación de imágenes.
Sanidad: Los ViT se emplean en la imagen médica para tareas como la detección de tumores y la segmentación de órganos. Su capacidad para analizar imágenes de alta resolución ayuda en el diagnóstico precoz y la planificación del tratamiento. Por ejemplo, las capacidades de imagen médica deUltralytics YOLO11 pueden mejorarse con columnas vertebrales basadas en ViT para aumentar la precisión.
Vehículos autónomos: Los ViT impulsan los sistemas de visión de los coches autónomos, permitiendo la detección en tiempo real de obstáculos, marcas de carril y señales de tráfico. Su conocimiento global del contexto mejora la seguridad y la toma de decisiones.
Explora más aplicaciones de la IA en la conducción autónoma con las soluciones de IA de visión.
Aunque los ViT ofrecen ventajas significativas, conllevan retos:
Para resolver estos problemas, se han introducido enfoques como modelos híbridos que combinan ViTs con CNNs y técnicas como la fusión de parches para hacer que los ViTs sean más eficientes.
Las ViT siguen superando los límites de la visión por ordenador, ofreciendo soluciones innovadoras en todos los sectores. Con herramientas como Ultralytics HUB, los desarrolladores pueden explorar el potencial de las ViT en aplicaciones del mundo real, simplificando el despliegue y ampliando las soluciones de IA.