Cheque verde
Enlace copiado en el portapapeles

Explorar cómo funcionan las aplicaciones de la visión por ordenador

Sumérgete con nosotros en las aplicaciones de la visión por ordenador. También recorreremos diversas tareas de visión por ordenador, como la detección y segmentación de objetos.

Cuando exploramos la historia de los modelos de visión por ordenador, vimos cómo ha evolucionado la visión por ordenador y el camino que ha llevado a los modelos de visión avanzados que tenemos hoy. Los modelos modernos como Ultralytics YOLOv8 soportan múltiples tareas de visión por ordenador y se están utilizando en diversas aplicaciones apasionantes. 

En este artículo, echaremos un vistazo a los fundamentos de la visión por ordenador y los modelos de visión. Veremos cómo funcionan y sus diversas aplicaciones en distintos sectores. Las innovaciones de la visión por ordenador están por todas partes, moldeando silenciosamente nuestro mundo. ¡Descubrámoslas una a una! 

¿Qué es la Visión Artificial?

La inteligencia artificial (IA) es un término general que engloba muchas tecnologías que pretenden reproducir una parte de la inteligencia humana. Uno de estos subcampos de la IA es la visión por ordenador. La visión por ordenador se centra en dotar a las máquinas de ojos que puedan ver, observar y comprender su entorno. 

Al igual que la visión humana, las soluciones de visión por ordenador pretenden distinguir objetos, calcular distancias y detectar movimientos. Sin embargo, a diferencia de los humanos, que tienen toda una vida de experiencias que les ayudan a ver y comprender, los ordenadores dependen de grandes cantidades de datos, cámaras de alta definición y complejos algoritmos. 

Fig. 1. Comparación de la visión humana y la visión por ordenador.

Los sistemas de visión por ordenador pueden procesar y analizar datos visuales como imágenes y vídeos a velocidades y con una precisión increíbles. La capacidad de analizar con rapidez y precisión grandes cantidades de información visual convierte a la visión por ordenador en una poderosa herramienta en diversos sectores, desde la fabricación a la sanidad.

Los modelos de visión admiten varias tareas de visión por ordenador

Los modelos de visión por ordenador son el núcleo de cualquier aplicación de visión por ordenador. Son esencialmente algoritmos computacionales impulsados por técnicas de aprendizaje profundo, diseñados para dar a las máquinas la capacidad de interpretar y comprender la información visual. Los modelos de visión permiten realizar tareas cruciales de visión por ordenador que van desde la clasificación de imágenes a la detección de objetos. Veamos con más detalle algunas de estas tareas y sus casos de uso. 

Clasificación de imágenes

La clasificación de imágenes consiste en clasificar y etiquetar las imágenes en clases o categorías predefinidas. Un modelo de visión como YOLOv8 puede entrenarse con grandes conjuntos de datos de imágenes etiquetadas. Durante el entrenamiento, el modelo aprende a reconocer patrones y características asociados a cada clase. Una vez entrenado, puede predecir la categoría de nuevas imágenes no vistas analizando sus características y comparándolas con los patrones aprendidos. 

Fig. 2. Un ejemplo de clasificación de imágenes.

Hay distintos tipos de clasificación de imágenes. Por ejemplo, cuando se trata de imágenes médicas, puedes utilizar la clasificación binaria para dividir las imágenes en dos grupos, como sanos o enfermos. Otro tipo es la clasificación multiclase. Puede ayudar a clasificar imágenes en muchos grupos, como clasificar diferentes animales de una granja como cerdos, cabras y vacas. O digamos que quieres clasificar los animales en grupos y subgrupos, como clasificar los animales en mamíferos y aves y luego en especies como leones, tigres, águilas y gorriones; la clasificación jerárquica sería la mejor opción.

Detección de objetos

La detección de objetos es el proceso de identificar y localizar objetos en imágenes y fotogramas de vídeo mediante visión por ordenador. Consta de dos tareas: la localización de objetos, que dibuja recuadros delimitadores alrededor de los objetos, y la clasificación de objetos, que identifica la categoría de cada objeto. Basándose en las anotaciones de los recuadros delimitadores, un modelo de visión puede aprender a reconocer patrones y características específicas de cada categoría de objetos y predecir la presencia y localización de estos objetos en imágenes nuevas no vistas. 

Fig. 3. YOLOv8 Detección de objetos para detectar jugadores en un campo de fútbol.

La detección de objetos tiene muchos casos de uso en distintos sectores, desde los deportes a la biología marina. Por ejemplo, en el comercio minorista, la tecnología Just Walk Out de Amazon utiliza la detección de objetos para automatizar la caja identificando los artículos que cogen los clientes. Una combinación de visión por ordenador y datos de sensores permite a los clientes coger sus artículos y marcharse sin esperar en la cola. 

A continuación te explicamos cómo funciona:

  • Las cámaras montadas en el techo captan a los clientes que se mueven por la tienda, y estas secuencias de vídeo se procesan en tiempo real mediante modelos de visión.
  • La detección de objetos se utiliza para detectar el producto exacto que un cliente coge y coloca en su cesta para actualizar su carrito virtual en consecuencia.
  • Los sensores de peso de las estanterías mejoran la precisión al detectar la retirada o sustitución de artículos.
  • Cuando el cliente sale de la tienda, se puede utilizar tecnología de detección de objetos y reconocimiento facial para confirmar que se ha ido, y sus datos de pago, como una tarjeta de crédito, se pueden utilizar para cobrarle automáticamente.

Segmentación semántica y de instancias

La segmentación semántica y la segmentación de instancias son tareas de visión por ordenador que ayudan a dividir las imágenes en segmentos significativos. La segmentación semántica clasifica los píxeles en función de su significado semántico y trata todos los objetos de una categoría como una única entidad con la misma etiqueta. Es adecuada para etiquetar objetos incontables como "el cielo" o "el océano" o agrupaciones como "hojas" o "hierba".

La segmentación por instancias, en cambio, puede distinguir diferentes instancias de la misma clase asignando una etiqueta única a cada objeto detectado. Puedes utilizar la segmentación por instancias para segmentar objetos contables en los que el número y la independencia de los objetos son importantes. Permite una identificación y diferenciación más precisas.

Fig. 4. Un ejemplo de segmentación semántica y de instancia.

Podemos entender mejor el contraste entre la segmentación semántica y la segmentación por instancias con un ejemplo relacionado con los coches autónomos. La segmentación semántica es estupenda para tareas que requieren comprender el contenido de una escena y puede utilizarse en vehículos autónomos para clasificar características de la carretera, como pasos de peatones y señales de tráfico. Mientras tanto, la segmentación por instancias puede utilizarse en vehículos autónomos para identificar entre peatones individuales, vehículos y obstáculos. 

Estimación de la pose

La estimación de la pose es una tarea de visión por ordenador centrada en la detección y el seguimiento de puntos clave de las poses de un objeto en imágenes o vídeos. Se utiliza sobre todo para la estimación de la pose humana, con puntos clave que incluyen zonas como los hombros y las rodillas. Estimar la pose de un ser humano nos ayuda a comprender y reconocer acciones y movimientos que son fundamentales para diversas aplicaciones.

Fig. 5. Un ejemplo de estimación de la pose utilizando YOLOv8.

La estimación de la pose puede utilizarse en los deportes para analizar cómo se mueven los atletas. La NBA utiliza la estimación de la pose para estudiar los movimientos y las posiciones de los jugadores durante el partido. Mediante el seguimiento de puntos clave como hombros, codos, rodillas y tobillos, la estimación de la pose proporciona información detallada sobre los movimientos de los jugadores. Esta información ayuda a los entrenadores a desarrollar mejores estrategias, optimizar los programas de entrenamiento y realizar ajustes en tiempo real durante los partidos. Además, los datos pueden ayudar a controlar la fatiga de los jugadores y el riesgo de lesiones para mejorar la salud y el rendimiento general de los jugadores.

Cajas delimitadoras orientadas Detección de objetos

La Detección de Objetos con Cuadros Delimitadores Orientados (OBB) utiliza rectángulos girados para identificar y localizar con precisión objetos en una imagen. A diferencia de los rectángulos delimitadores estándar, que se alinean con los ejes de la imagen, los OBB giran para adaptarse a la orientación del objeto. Esto los hace especialmente útiles para objetos que no son perfectamente horizontales o verticales. Son magníficos para localizar con precisión y aislar objetos girados para evitar solapamientos en entornos abarrotados.

Fig. 6. Ejemplo de detección de cajas límite orientadas en una imagen aérea de barcos utilizando YOLOV8.

En la vigilancia marítima, la identificación y el seguimiento de los barcos son fundamentales para la seguridad y la gestión de recursos. La detección OBB puede utilizarse para localizar con precisión los barcos, incluso cuando están densamente apiñados u orientados en varios ángulos. Ayuda a vigilar las rutas marítimas, gestionar el tráfico marítimo y optimizar las operaciones portuarias. También puede ayudar en la respuesta a catástrofes, identificando y evaluando rápidamente los daños en los barcos y las infraestructuras tras sucesos como huracanes o vertidos de petróleo.

Seguimiento de objetos

Hasta ahora, hemos hablado de tareas de visión por ordenador que tratan con imágenes. El seguimiento de objetos es una tarea de visión por ordenador que puede seguir a un objeto a lo largo de los fotogramas de un vídeo. Comienza identificando el objeto en el primer fotograma mediante algoritmos de detección y luego sigue continuamente su posición a medida que se mueve por el vídeo. El seguimiento de objetos implica técnicas como la detección de objetos, la extracción de características y la predicción del movimiento para que el seguimiento sea preciso.

Fig 7. Utilizando YOLOv8 para seguir a los peces.

Los modelos de visión como YOLOv8 pueden utilizarse para seguir a los peces en biología marina. Utilizando cámaras submarinas, los investigadores pueden seguir los movimientos y comportamientos de los peces en sus hábitats naturales. El proceso comienza detectando peces individuales en los primeros fotogramas y luego sigue sus posiciones a lo largo del vídeo. El seguimiento de los peces ayuda a los científicos a comprender las pautas de migración, los comportamientos sociales y las interacciones con el medio ambiente. También contribuye a las prácticas pesqueras sostenibles al proporcionar información sobre la distribución y abundancia de los peces.

Una mirada final a la visión por ordenador

La visión por ordenador está cambiando activamente la forma en que utilizamos la tecnología e interactuamos con el mundo. Al utilizar modelos de aprendizaje profundo y algoritmos complejos para comprender imágenes y vídeos, la visión por ordenador ayuda a las industrias a agilizar muchos procesos. Tareas de visión por ordenador como la detección y el seguimiento de objetos están permitiendo crear soluciones que no se habían imaginado antes. A medida que la tecnología de visión por ordenador sigue mejorando, ¡el futuro nos depara muchas más aplicaciones innovadoras! 

¡Aprendamos y crezcamos juntos! Explora nuestro repositorio de GitHub para ver nuestras contribuciones a la IA. Comprueba cómo estamos redefiniendo industrias como la de los coches autónomos y la agricultura con IA. 🚀

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático