Acompáñanos en este repaso a la evolución de la detección de objetos. Nos centraremos en cómo han avanzado los modelos YOLO (Sólo se mira una vez) en los últimos años.
La visión por ordenador es un subcampo de la inteligencia artificial (IA) que se centra en enseñar a las máquinas a ver y comprender imágenes y vídeos, de forma similar a como los humanos perciben el mundo real. Aunque reconocer objetos o identificar acciones es algo natural para los humanos, estas tareas requieren técnicas de visión por ordenador específicas y especializadas cuando se trata de máquinas. Por ejemplo, una tarea clave de la visión por ordenador es la detección de objetos, que consiste en identificar y localizar objetos dentro de imágenes o vídeos.
Desde la década de 1960, los investigadores han trabajado para mejorar la forma en que los ordenadores pueden detectar objetos. Los primeros métodos, como la comparación de plantillas, consistían en deslizar una plantilla predefinida por una imagen para encontrar coincidencias. Aunque innovadores, estos métodos tenían problemas con los cambios de tamaño, orientación e iluminación de los objetos. Hoy disponemos de modelos avanzados como Ultralytics YOLO11 que pueden detectar incluso objetos pequeños y parcialmente ocultos, conocidos como objetos ocluidos, con una precisión impresionante.
A medida que la visión por ordenador sigue evolucionando, es importante echar la vista atrás para ver cómo se han desarrollado estas tecnologías. En este artículo, exploraremos la evolución de la detección de objetos y arrojaremos luz sobre la transformación de los modelosYOLO (You Only Look Once). ¡Empecemos ya!
Antes de sumergirnos en la detección de objetos, echemos un vistazo a cómo empezó la visión por ordenador. Los orígenes de la visión por ordenador se remontan a finales de los años 50 y principios de los 60, cuando los científicos empezaron a explorar cómo procesa el cerebro la información visual. En experimentos con gatos, los investigadores David Hubel y Torsten Wiesel descubrieron que el cerebro reacciona ante patrones sencillos como bordes y líneas. Esto constituyó la base de la idea que subyace a la extracción de rasgos: el concepto de que los sistemas visuales detectan y reconocen rasgos básicos en las imágenes, como los bordes, antes de pasar a patrones más complejos.
Por la misma época, surgió una nueva tecnología que podía convertir las imágenes físicas en formatos digitales, lo que despertó el interés por la forma en que las máquinas podían procesar la información visual. En 1966, el Proyecto Visión de Verano del Instituto Tecnológico de Massachusetts (MIT) llevó las cosas más lejos. Aunque el proyecto no tuvo éxito del todo, su objetivo era crear un sistema que pudiera separar el primer plano del fondo en las imágenes. Para muchos miembros de la comunidad de IA de Visión, este proyecto marca el inicio oficial de la visión por ordenador como campo científico.
A medida que la visión por ordenador avanzaba a finales de los 90 y principios de los 2000, los métodos de detección de objetos pasaron de técnicas básicas como la coincidencia de plantillas a enfoques más avanzados. Un método popular fue la Cascada de Haar, que se utilizó ampliamente para tareas como la detección de caras. Funcionaba escaneando imágenes con una ventana deslizante, buscando características específicas como bordes o texturas en cada sección de la imagen, y luego combinando estas características para detectar objetos como caras. Haar Cascade era mucho más rápido que los métodos anteriores.
Junto a ellos, también se introdujeron métodos como el Histograma de Gradientes Orientados (HOG) y las Máquinas de Vectores de Soporte (SVM). El HOG utilizaba la técnica de la ventana deslizante para analizar cómo cambiaban la luz y las sombras en pequeñas secciones de una imagen, lo que ayudaba a identificar objetos basándose en sus formas. A continuación, las SVM clasificaban estas características para determinar la identidad del objeto. Estos métodos mejoraban la precisión, pero seguían teniendo dificultades en entornos reales y eran más lentos que las técnicas actuales.
En la década de 2010, el auge del aprendizaje profundo y de las redes neuronales convolucionales (CNN) supuso un gran cambio en la detección de objetos. Las CNN hicieron posible que los ordenadores aprendieran automáticamente características importantes a partir de grandes cantidades de datos, lo que hizo que la detección fuera mucho más precisa.
Los primeros modelos, como las R-CNN (redes neuronales convolucionales basadas en regiones), supusieron una gran mejora en la precisión, ayudando a identificar objetos con más exactitud que los métodos antiguos.
Sin embargo, estos modelos eran lentos porque procesaban las imágenes en múltiples etapas, lo que los hacía poco prácticos para aplicaciones en tiempo real en áreas como los coches autoconducidos o la videovigilancia.
Con el objetivo de acelerar las cosas, se desarrollaron modelos más eficientes. Modelos como Fast R-CNN y Faster R-CNN ayudaron perfeccionando la forma de elegir las regiones de interés y reduciendo el número de pasos necesarios para la detección. Aunque esto hizo que la detección de objetos fuera más rápida, seguía sin ser lo bastante rápida para muchas aplicaciones del mundo real que necesitaban resultados instantáneos. La creciente demanda de detección en tiempo real impulsó el desarrollo de soluciones aún más rápidas y eficaces que pudieran equilibrar velocidad y precisión.
YOLO es un modelo de detección de objetos que redefinió la visión por ordenador al permitir la detección en tiempo real de múltiples objetos en imágenes y vídeos, lo que lo hace bastante único respecto a los métodos de detección anteriores. En lugar de analizar cada objeto detectado individualmente, la arquitectura deYOLO trata la detección de objetos como una única tarea, prediciendo tanto la ubicación como la clase de los objetos de una sola vez mediante CNNs.
El modelo funciona dividiendo una imagen en una cuadrícula, en la que cada parte es responsable de detectar objetos en su área respectiva. Realiza múltiples predicciones para cada sección y filtra los resultados menos fiables, quedándose sólo con los precisos.
La introducción de YOLO en las aplicaciones de visión por ordenador hizo que la detección de objetos fuera mucho más rápida y eficaz que los modelos anteriores. Debido a su velocidad y precisión, YOLO se convirtió rápidamente en una opción popular para soluciones en tiempo real en sectores como la fabricación, la sanidad y la robótica.
Otro punto importante a tener en cuenta es que, como YOLO era de código abierto, los desarrolladores e investigadores pudieron mejorarlo continuamente, dando lugar a versiones aún más avanzadas.
YOLO han mejorado constantemente con el tiempo, aprovechando los avances de cada versión. Además de mejorar el rendimiento, estas mejoras han hecho que los modelos sean más fáciles de utilizar para personas con distintos niveles de experiencia técnica.
Por ejemplo, cuando se introdujo Ultralytics YOLOv5 el despliegue de modelos se simplificó con PyTorchpermitiendo a un mayor número de usuarios trabajar con IA avanzada. Aunó precisión y facilidad de uso, dando a más personas la posibilidad de implementar la detección de objetos sin necesidad de ser expertos en codificación.
Ultralytics YOLOv8 continuó este progreso añadiendo soporte para tareas como la segmentación de instancias y haciendo los modelos más flexibles. Ahora es más fácil utilizar YOLO tanto para aplicaciones básicas como para las más complejas, por lo que resulta útil en toda una serie de escenarios.
Con el último modelo, Ultralytics YOLO11se han realizado más optimizaciones. Al reducir el número de parámetros y mejorar la precisión, ahora es más eficaz para tareas en tiempo real. Tanto si eres un desarrollador experimentado como si te inicias en la IA, YOLO11 te ofrece un enfoque avanzado de la detección de objetos fácilmente accesible.
YOLO11, presentado en el evento híbrido anual de Ultralytics, YOLO Vision 2024 (YV24), admite las mismas tareas de visión por ordenador que YOLOv8, como la detección de objetos, la segmentación de instancias, la clasificación de imágenes y la estimación de poses. Por tanto, los usuarios pueden cambiar fácilmente a este nuevo modelo sin necesidad de ajustar sus flujos de trabajo. Además, la arquitectura mejorada de YOLO11hace que las predicciones sean aún más precisas. De hecho, YOLO11m alcanza una precisión media superior (mAP) en el conjunto de datos COCO con un 22% menos de parámetros que YOLOv8m.
YOLO11 también está diseñado para funcionar eficazmente en diversas plataformas, desde teléfonos inteligentes y otros dispositivos periféricos hasta sistemas en la nube más potentes. Esta flexibilidad garantiza un rendimiento sin problemas en diferentes configuraciones de hardware para aplicaciones en tiempo real. Además, YOLO11 es más rápido y eficiente, reduciendo los costes computacionales y acelerando los tiempos de inferencia. Tanto si utilizas el paqueteUltralytics Python como el HUB sin código Ultralytics , es fácil de integrar YOLO11 en tus flujos de trabajo actuales.
El impacto de la detección avanzada de objetos en las aplicaciones en tiempo real y la IA en los bordes ya se deja sentir en todos los sectores. A medida que sectores como el petróleo y el gas, la sanidad y el comercio dependen cada vez más de la IA, la demanda de detección de objetos rápida y precisa sigue aumentando. YOLO11 pretende responder a esta demanda permitiendo una detección de alto rendimiento incluso en dispositivos con una potencia de cálculo limitada.
A medida que crece la IA de borde, es probable que los modelos de detección de objetos como YOLO11 sean aún más esenciales para la toma de decisiones en tiempo real en entornos donde la velocidad y la precisión son fundamentales. Con las continuas mejoras en el diseño y la adaptabilidad, el futuro de la detección de objetos parece que traerá aún más innovaciones en una gran variedad de aplicaciones.
La detección de objetos ha recorrido un largo camino, evolucionando desde métodos sencillos hasta las técnicas avanzadas de aprendizaje profundo que vemos hoy en día. Los modelos YOLO han estado en el centro de este progreso, proporcionando una detección en tiempo real más rápida y precisa en diferentes sectores. YOLO11 se basa en este legado, mejorando la eficiencia, reduciendo los costes computacionales y aumentando la precisión, lo que lo convierte en una opción fiable para diversas aplicaciones en tiempo real. Con los continuos avances en IA y visión por ordenador, el futuro de la detección de objetos parece prometedor, con espacio para aún más mejoras en velocidad, precisión y adaptabilidad.
¿Tienes curiosidad por la IA? ¡Mantente conectado con nuestra comunidad para seguir aprendiendo! Echa un vistazo a nuestro repositorio de GitHub para descubrir cómo utilizamos la IA para crear soluciones innovadoras en sectores como la fabricación y la sanidad. 🚀
Comienza tu viaje con el futuro del aprendizaje automático