Sumérgete con nosotros en las aplicaciones de la visión por ordenador. También recorreremos diversas tareas de visión por ordenador, como la detección y segmentación de objetos.
Cuando exploramos la historia de los modelos de visión por ordenador, vimos cómo ha evolucionado la visión por ordenador y el camino que ha llevado a los modelos de visión avanzados que tenemos hoy. Los modelos modernos como Ultralytics YOLOv8 soportan múltiples tareas de visión por ordenador y se están utilizando en diversas aplicaciones apasionantes.
En este artículo, echaremos un vistazo a los fundamentos de la visión por ordenador y los modelos de visión. Veremos cómo funcionan y sus diversas aplicaciones en distintos sectores. Las innovaciones de la visión por ordenador están por todas partes, moldeando silenciosamente nuestro mundo. ¡Descubrámoslas una a una!
La inteligencia artificial (IA) es un término general que engloba muchas tecnologías que pretenden reproducir una parte de la inteligencia humana. Uno de estos subcampos de la IA es la visión por ordenador. La visión por ordenador se centra en dotar a las máquinas de ojos que puedan ver, observar y comprender su entorno.
Al igual que la visión humana, las soluciones de visión por ordenador pretenden distinguir objetos, calcular distancias y detectar movimientos. Sin embargo, a diferencia de los humanos, que tienen toda una vida de experiencias que les ayudan a ver y comprender, los ordenadores dependen de grandes cantidades de datos, cámaras de alta definición y complejos algoritmos.
Los sistemas de visión por ordenador pueden procesar y analizar datos visuales como imágenes y vídeos a velocidades y con una precisión increíbles. La capacidad de analizar con rapidez y precisión grandes cantidades de información visual convierte a la visión por ordenador en una poderosa herramienta en diversos sectores, desde la fabricación a la sanidad.
Los modelos de visión por ordenador son el núcleo de cualquier aplicación de visión por ordenador. Son esencialmente algoritmos computacionales impulsados por técnicas de aprendizaje profundo, diseñados para dar a las máquinas la capacidad de interpretar y comprender la información visual. Los modelos de visión permiten realizar tareas cruciales de visión por ordenador que van desde la clasificación de imágenes a la detección de objetos. Veamos con más detalle algunas de estas tareas y sus casos de uso.
La clasificación de imágenes consiste en clasificar y etiquetar las imágenes en clases o categorías predefinidas. Un modelo de visión como YOLOv8 puede entrenarse con grandes conjuntos de datos de imágenes etiquetadas. Durante el entrenamiento, el modelo aprende a reconocer patrones y características asociados a cada clase. Una vez entrenado, puede predecir la categoría de nuevas imágenes no vistas analizando sus características y comparándolas con los patrones aprendidos.
Hay distintos tipos de clasificación de imágenes. Por ejemplo, cuando se trata de imágenes médicas, puedes utilizar la clasificación binaria para dividir las imágenes en dos grupos, como sanos o enfermos. Otro tipo es la clasificación multiclase. Puede ayudar a clasificar imágenes en muchos grupos, como clasificar diferentes animales de una granja como cerdos, cabras y vacas. O digamos que quieres clasificar los animales en grupos y subgrupos, como clasificar los animales en mamíferos y aves y luego en especies como leones, tigres, águilas y gorriones; la clasificación jerárquica sería la mejor opción.
La detección de objetos es el proceso de identificar y localizar objetos en imágenes y fotogramas de vídeo mediante visión por ordenador. Consta de dos tareas: la localización de objetos, que dibuja recuadros delimitadores alrededor de los objetos, y la clasificación de objetos, que identifica la categoría de cada objeto. Basándose en las anotaciones de los recuadros delimitadores, un modelo de visión puede aprender a reconocer patrones y características específicas de cada categoría de objetos y predecir la presencia y localización de estos objetos en imágenes nuevas no vistas.
La detección de objetos tiene muchos casos de uso en distintos sectores, desde los deportes a la biología marina. Por ejemplo, en el comercio minorista, la tecnología Just Walk Out de Amazon utiliza la detección de objetos para automatizar la caja identificando los artículos que cogen los clientes. Una combinación de visión por ordenador y datos de sensores permite a los clientes coger sus artículos y marcharse sin esperar en la cola.
A continuación te explicamos cómo funciona:
La segmentación semántica y la segmentación de instancias son tareas de visión por ordenador que ayudan a dividir las imágenes en segmentos significativos. La segmentación semántica clasifica los píxeles en función de su significado semántico y trata todos los objetos de una categoría como una única entidad con la misma etiqueta. Es adecuada para etiquetar objetos incontables como "el cielo" o "el océano" o agrupaciones como "hojas" o "hierba".
La segmentación por instancias, en cambio, puede distinguir diferentes instancias de la misma clase asignando una etiqueta única a cada objeto detectado. Puedes utilizar la segmentación por instancias para segmentar objetos contables en los que el número y la independencia de los objetos son importantes. Permite una identificación y diferenciación más precisas.
Podemos entender mejor el contraste entre la segmentación semántica y la segmentación por instancias con un ejemplo relacionado con los coches autónomos. La segmentación semántica es estupenda para tareas que requieren comprender el contenido de una escena y puede utilizarse en vehículos autónomos para clasificar características de la carretera, como pasos de peatones y señales de tráfico. Mientras tanto, la segmentación por instancias puede utilizarse en vehículos autónomos para identificar entre peatones individuales, vehículos y obstáculos.
La estimación de la pose es una tarea de visión por ordenador centrada en la detección y el seguimiento de puntos clave de las poses de un objeto en imágenes o vídeos. Se utiliza sobre todo para la estimación de la pose humana, con puntos clave que incluyen zonas como los hombros y las rodillas. Estimar la pose de un ser humano nos ayuda a comprender y reconocer acciones y movimientos que son fundamentales para diversas aplicaciones.
La estimación de la pose puede utilizarse en los deportes para analizar cómo se mueven los atletas. La NBA utiliza la estimación de la pose para estudiar los movimientos y las posiciones de los jugadores durante el partido. Mediante el seguimiento de puntos clave como hombros, codos, rodillas y tobillos, la estimación de la pose proporciona información detallada sobre los movimientos de los jugadores. Esta información ayuda a los entrenadores a desarrollar mejores estrategias, optimizar los programas de entrenamiento y realizar ajustes en tiempo real durante los partidos. Además, los datos pueden ayudar a controlar la fatiga de los jugadores y el riesgo de lesiones para mejorar la salud y el rendimiento general de los jugadores.
La Detección de Objetos con Cuadros Delimitadores Orientados (OBB) utiliza rectángulos girados para identificar y localizar con precisión objetos en una imagen. A diferencia de los rectángulos delimitadores estándar, que se alinean con los ejes de la imagen, los OBB giran para adaptarse a la orientación del objeto. Esto los hace especialmente útiles para objetos que no son perfectamente horizontales o verticales. Son magníficos para localizar con precisión y aislar objetos girados para evitar solapamientos en entornos abarrotados.
En la vigilancia marítima, la identificación y el seguimiento de los barcos son fundamentales para la seguridad y la gestión de recursos. La detección OBB puede utilizarse para localizar con precisión los barcos, incluso cuando están densamente apiñados u orientados en varios ángulos. Ayuda a vigilar las rutas marítimas, gestionar el tráfico marítimo y optimizar las operaciones portuarias. También puede ayudar en la respuesta a catástrofes, identificando y evaluando rápidamente los daños en los barcos y las infraestructuras tras sucesos como huracanes o vertidos de petróleo.
Hasta ahora, hemos hablado de tareas de visión por ordenador que tratan con imágenes. El seguimiento de objetos es una tarea de visión por ordenador que puede seguir a un objeto a lo largo de los fotogramas de un vídeo. Comienza identificando el objeto en el primer fotograma mediante algoritmos de detección y luego sigue continuamente su posición a medida que se mueve por el vídeo. El seguimiento de objetos implica técnicas como la detección de objetos, la extracción de características y la predicción del movimiento para que el seguimiento sea preciso.
Los modelos de visión como YOLOv8 pueden utilizarse para seguir a los peces en biología marina. Utilizando cámaras submarinas, los investigadores pueden seguir los movimientos y comportamientos de los peces en sus hábitats naturales. El proceso comienza detectando peces individuales en los primeros fotogramas y luego sigue sus posiciones a lo largo del vídeo. El seguimiento de los peces ayuda a los científicos a comprender las pautas de migración, los comportamientos sociales y las interacciones con el medio ambiente. También contribuye a las prácticas pesqueras sostenibles al proporcionar información sobre la distribución y abundancia de los peces.
La visión por ordenador está cambiando activamente la forma en que utilizamos la tecnología e interactuamos con el mundo. Al utilizar modelos de aprendizaje profundo y algoritmos complejos para comprender imágenes y vídeos, la visión por ordenador ayuda a las industrias a agilizar muchos procesos. Tareas de visión por ordenador como la detección y el seguimiento de objetos están permitiendo crear soluciones que no se habían imaginado antes. A medida que la tecnología de visión por ordenador sigue mejorando, ¡el futuro nos depara muchas más aplicaciones innovadoras!
¡Aprendamos y crezcamos juntos! Explora nuestro repositorio de GitHub para ver nuestras contribuciones a la IA. Comprueba cómo estamos redefiniendo industrias como la de los coches autónomos y la agricultura con IA. 🚀
Comienza tu viaje con el futuro del aprendizaje automático