La evolución de la detección de objetos y los modelos YOLO de Ultralytics

Abirami Vina

4 min leer

18 de octubre de 2024

Acompáñenos en este repaso a la evolución de la detección de objetos. Nos centraremos en cómo han avanzado los modelos YOLO (You Only Look Once) en los últimos años.

La visión por ordenador es un subcampo de la inteligencia artificial (IA) que se centra en enseñar a las máquinas a ver y comprender imágenes y vídeos, de forma similar a como los humanos perciben el mundo real. Aunque reconocer objetos o identificar acciones es algo natural para los humanos, estas tareas requieren técnicas de visión por ordenador específicas y especializadas cuando se trata de máquinas. Por ejemplo, una tarea clave de la visión por ordenador es la detección de objetos, que consiste en identificar y localizar objetos en imágenes o vídeos. 

Desde la década de 1960, los investigadores han trabajado para mejorar la detección de objetos por ordenador. Los primeros métodos, como la comparación de plantillas, consistían en deslizar una plantilla predefinida por una imagen para encontrar coincidencias. Aunque innovadores, estos métodos tenían dificultades con los cambios de tamaño, orientación e iluminación de los objetos. Hoy en día, disponemos de modelos avanzados como Ultralytics YOLO11, capaces de detectar incluso objetos pequeños y parcialmente ocultos, conocidos como objetos ocluidos, con una precisión impresionante.

A medida que la visión por ordenador sigue evolucionando, es importante echar la vista atrás para ver cómo se han desarrollado estas tecnologías. En este artículo, exploraremos la evolución de la detección de objetos y arrojaremos luz sobre la transformación de los modelos YOLO (You Only Look Once). Empecemos.

Los orígenes de la visión por ordenador

Antes de adentrarnos en la detección de objetos, echemos un vistazo a los orígenes de la visión por ordenador. Los orígenes de la visión por ordenador se remontan a finales de los años 50 y principios de los 60, cuando los científicos empezaron a estudiar cómo procesa el cerebro la información visual. En experimentos con gatos, los investigadores David Hubel y Torsten Wiesel descubrieron que el cerebro reacciona ante patrones simples como bordes y líneas. Esto constituyó la base de la idea que subyace a la extracción de rasgos: el concepto de que los sistemas visuales detectan y reconocen rasgos básicos en las imágenes, como los bordes, antes de pasar a patrones más complejos.

__wf_reserved_inherit
Fig. 1. Aprender cómo reacciona el cerebro de un gato a las barras de luz ayudó a desarrollar la extracción de características en visión por ordenador.

Al mismo tiempo, surgió una nueva tecnología capaz de convertir imágenes físicas en formatos digitales, lo que despertó el interés por la forma en que las máquinas podían procesar la información visual. En 1966, el proyecto Summer Vision del Instituto Tecnológico de Massachusetts (MIT) fue más allá. Aunque el proyecto no tuvo éxito del todo, su objetivo era crear un sistema capaz de separar el primer plano del fondo en las imágenes. Para muchos miembros de la comunidad de IA de visión, este proyecto marca el inicio oficial de la visión por ordenador como campo científico.

Historia de la detección de objetos

A medida que la visión por ordenador avanzaba a finales de los 90 y principios de los 2000, los métodos de detección de objetos pasaron de técnicas básicas como la coincidencia de plantillas a enfoques más avanzados. Un método popular fue la cascada de Haar, que se generalizó para tareas como la detección de rostros. Funcionaba escaneando imágenes con una ventana deslizante, buscando características específicas como bordes o texturas en cada sección de la imagen y combinando después estas características para detectar objetos como caras. Haar Cascade era mucho más rápido que los métodos anteriores.

__wf_reserved_inherit
Fig. 2. Uso de la cascada de Haar para la detección de caras.

Junto a ellos, también se introdujeron métodos como el histograma de gradientes orientados (HOG) y las máquinas de vectores de apoyo (SVM). El HOG utilizaba la técnica de la ventana deslizante para analizar cómo cambiaban la luz y las sombras en pequeñas secciones de una imagen, lo que ayudaba a identificar objetos basándose en sus formas. A continuación, las SVM clasificaban estas características para determinar la identidad del objeto. Estos métodos mejoraban la precisión, pero seguían teniendo dificultades en entornos reales y eran más lentos que las técnicas actuales.

La necesidad de detectar objetos en tiempo real

En la década de 2010, el auge del aprendizaje profundo y las redes neuronales convolucionales (CNN) supuso un gran cambio en la detección de objetos. Las CNN permitieron a los ordenadores aprender automáticamente características importantes a partir de grandes cantidades de datos, lo que hizo que la detección fuera mucho más precisa. 

Los primeros modelos como R-CNN (redes neuronales convolucionales basadas en regiones) supusieron una gran mejora de la precisión, ya que ayudaron a identificar objetos con más exactitud que los métodos anteriores. 

Sin embargo, estos modelos eran lentos porque procesaban las imágenes en múltiples etapas, lo que los hacía poco prácticos para aplicaciones en tiempo real en áreas como los coches autoconducidos o la videovigilancia.

Con el objetivo de acelerar las cosas, se desarrollaron modelos más eficaces. Modelos como Fast R-CNN y Faster R-CNN ayudaron a perfeccionar la elección de las regiones de interés y a reducir el número de pasos necesarios para la detección. Aunque esto agilizaba la detección de objetos, seguía sin ser lo bastante rápido para muchas aplicaciones del mundo real que necesitaban resultados instantáneos. La creciente demanda de detección en tiempo real impulsó el desarrollo de soluciones aún más rápidas y eficaces que pudieran equilibrar velocidad y precisión.

__wf_reserved_inherit
Fig. 3. Comparación de las velocidades de R-CNN, R-CNN rápida y R-CNN más rápida.

Modelos YOLO (You Only Look Once): Un hito importante

YOLO es un modelo de detección de objetos que redefine la visión por ordenador al permitir la detección en tiempo real de múltiples objetos en imágenes y vídeos, lo que lo hace bastante único respecto a los métodos de detección anteriores. En lugar de analizar cada objeto detectado individualmente, la arquitectura de YOLO trata la detección de objetos como una única tarea, prediciendo tanto la ubicación como la clase de los objetos de una sola vez mediante CNN. 

El modelo funciona dividiendo una imagen en una cuadrícula, en la que cada parte es responsable de detectar objetos en su área respectiva. Realiza múltiples predicciones para cada sección y filtra los resultados menos fiables, quedándose solo con los precisos. 

__wf_reserved_inherit
Fig. 4. Visión general del funcionamiento de YOLO.

La introducción de YOLO en las aplicaciones de visión por ordenador hizo que la detección de objetos fuera mucho más rápida y eficaz que los modelos anteriores. Gracias a su velocidad y precisión, YOLO se convirtió rápidamente en una opción popular para soluciones en tiempo real en sectores como la fabricación, la sanidad y la robótica.

Otro aspecto importante es que, como YOLO era de código abierto, los desarrolladores e investigadores pudieron mejorarlo continuamente, dando lugar a versiones aún más avanzadas.

El camino de YOLO a YOLO11

Los modelos YOLO han mejorado constantemente con el tiempo, aprovechando los avances de cada versión. Además de mejorar el rendimiento, estas mejoras han facilitado el uso de los modelos a personas con distintos niveles de experiencia técnica.

Por ejemplo, cuando se introdujo Ultralytics YOLOv5, el despliegue de modelos se simplificó con PyTorch, lo que permitió a un mayor número de usuarios trabajar con IA avanzada. Unió precisión y facilidad de uso, dando a más personas la capacidad de implementar la detección de objetos sin necesidad de ser expertos en codificación.

__wf_reserved_inherit
Fig. 5. Evolución de los modelos YOLO.

Ultralytics YOLOv8 continuó este progreso añadiendo soporte para tareas como la segmentación de instancias y haciendo los modelos más flexibles. YOLO es ahora más fácil de utilizar tanto en aplicaciones básicas como en otras más complejas, por lo que resulta útil en una amplia gama de escenarios.

Con el último modelo, Ultralytics YOLO11, se han realizado nuevas optimizaciones. Al reducir el número de parámetros y mejorar la precisión, ahora es más eficiente para tareas en tiempo real. Tanto si es un desarrollador experimentado como si es nuevo en la IA, YOLO11 ofrece un enfoque avanzado de la detección de objetos fácilmente accesible.

Conozca YOLO11: nuevas funciones y mejoras

YOLO11, presentado en el evento híbrido anual de Ultralytics, YOLO Vision 2024 (YV24), admite las mismas tareas de visión por ordenador que YOLOv8, como la detección de objetos, la segmentación de instancias, la clasificación de imágenes y la estimación de poses. Por tanto, los usuarios pueden cambiar fácilmente a este nuevo modelo sin necesidad de ajustar sus flujos de trabajo. Además, la arquitectura mejorada de YOLO11 hace que las predicciones sean aún más precisas. De hecho, YOLO11m alcanza una precisión media superior (mAP) en el conjunto de datos COCO con un 22% menos de parámetros que YOLOv8m.

YOLO11 también está diseñado para funcionar con eficacia en diversas plataformas, desde teléfonos inteligentes y otros dispositivos periféricos hasta sistemas en la nube más potentes. Esta flexibilidad garantiza un rendimiento fluido en diferentes configuraciones de hardware para aplicaciones en tiempo real. Además, YOLO11 es más rápido y eficiente, lo que reduce los costes computacionales y acelera los tiempos de inferencia. Tanto si utiliza el paquete Python de Ultralytics como el Ultralytics HUB sin código, es fácil integrar YOLO11 en sus flujos de trabajo actuales.

El futuro de los modelos YOLO y la detección de objetos

El impacto de la detección avanzada de objetos en las aplicaciones en tiempo real y la IA en los bordes ya se deja sentir en todos los sectores. A medida que sectores como el del petróleo y el gas, la sanidad y el comercio dependen cada vez más de la IA, la demanda de detección de objetos rápida y precisa sigue aumentando. YOLO11 pretende dar respuesta a esta demanda permitiendo una detección de alto rendimiento incluso en dispositivos con una potencia de cálculo limitada. 

A medida que crece la IA, es probable que los modelos de detección de objetos como YOLO11 se vuelvan aún más esenciales para la toma de decisiones en tiempo real en entornos donde la velocidad y la precisión son fundamentales. Con mejoras continuas en el diseño y la adaptabilidad, el futuro de la detección de objetos parece que traerá aún más innovaciones en una gran variedad de aplicaciones.

Principales conclusiones

La detección de objetos ha recorrido un largo camino, evolucionando desde métodos sencillos hasta las técnicas avanzadas de aprendizaje profundo que vemos hoy en día. Los modelos YOLO han estado en el centro de este progreso, ofreciendo una detección en tiempo real más rápida y precisa en diferentes sectores. YOLO11 se basa en este legado, mejorando la eficiencia, reduciendo los costes computacionales y mejorando la precisión, por lo que es una opción fiable para una variedad de aplicaciones en tiempo real. Con los continuos avances en IA y visión por ordenador, el futuro de la detección de objetos parece prometedor, con espacio para aún más mejoras en velocidad, precisión y adaptabilidad.

¿Le interesa la IA? Manténgase en contacto con nuestra comunidad para seguir aprendiendo. Echa un vistazo a nuestro repositorio de GitHub para descubrir cómo utilizamos la IA para crear soluciones innovadoras en sectores como la fabricación y la sanidad. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles