Cheque verde
Enlace copiado en el portapapeles

Una guía para profundizar en la detección de objetos en 2025

Infórmate sobre la detección de objetos, su importancia en la IA y cómo modelos como YOLO11 están transformando sectores como el de los coches autónomos, la sanidad y la seguridad.

Muchas industrias están integrando rápidamente soluciones de inteligencia artificial (IA) en sus operaciones. Entre las muchas tecnologías de IA disponibles hoy en día, la visión por ordenador es una de las más populares. La visión por ordenador es una rama de la IA que ayuda a los ordenadores a ver y comprender el contenido de imágenes y vídeos, igual que hacen los humanos. Hace posible que las máquinas reconozcan objetos, identifiquen patrones y den sentido a lo que están viendo. 

Se calcula que el valor del mercado mundial de la visión por ordenador ascenderá a 175.720 millones de dólares en 2032. La visión por ordenador engloba varias tareas que permiten a los sistemas de IA de visión analizar e interpretar datos visuales. Una de las tareas esenciales y más utilizadas de la visión por ordenador es la detección de objetos. 

La detección de objetos se centra en localizar y clasificar objetos en datos visuales. Por ejemplo, si muestras a un ordenador la imagen de una vaca, puede detectarla y dibujar un cuadro delimitador a su alrededor. Esta capacidad es útil en aplicaciones del mundo real como el control de animales, los coches autoconducidos y la vigilancia. 

Entonces, ¿cómo se puede realizar la detección de objetos? Una forma es mediante modelos de visión por ordenador. Por ejemplo Ultralytics YOLO11 es un modelo de visión por ordenador que admite tareas de visión por ordenador como la detección de objetos. 

En esta guía, exploraremos la detección de objetos y cómo funciona. También hablaremos de algunas aplicaciones reales de la detección de objetos y de Ultralytics YOLO11.

Fig. 1. Utilizando el soporte de YOLO11para la detección de objetos para controlar el ganado.

¿Qué es la detección de objetos? 

La detección de objetos es una tarea de visión por ordenador que identifica y localiza objetos en imágenes o vídeos. Responde a dos preguntas clave: "¿Qué objetos hay en la imagen?" y "¿Dónde están situados?".

Puedes pensar en la detección de objetos como un proceso que implica dos pasos clave. El primero, la clasificación de objetos, permite al sistema reconocer y etiquetar objetos, como identificar un gato, un coche o una persona basándose en patrones aprendidos. El segundo, la localización, determina la posición del objeto dibujando un cuadro delimitador a su alrededor, que indica dónde aparece en la imagen. Juntos, estos pasos permiten a las máquinas detectar y comprender los objetos de una escena.

El aspecto de la detección de objetos que la hace única es su capacidad para reconocer objetos y señalar su ubicación con precisión. Otras tareas de visión por ordenador se centran en objetivos diferentes.

Por ejemplo, la clasificación de imágenes asigna una etiqueta a toda una imagen. Mientras, la segmentación de imágenes proporciona una comprensión de los distintos elementos a nivel de píxel. Por otro lado, la detección de objetos combina el reconocimiento con la localización. Esto la hace especialmente útil para tareas como el recuento de múltiples objetos en tiempo real.

Fig. 2. Comparación de tareas de visión por ordenador.

Reconocimiento de objetos vs. Detección de objetos

A medida que exploras diversos términos de la visión por ordenador, puede que te parezca que el reconocimiento de objetos y la detección de objetos son intercambiables, pero tienen finalidades distintas. Una buena forma de entender la diferencia es examinar la detección y el reconocimiento de caras.

La detección de caras es un tipo de detección de objetos. Identifica la presencia de una cara en una imagen y marca su ubicación mediante un cuadro delimitador. Responde a la pregunta: "¿Dónde está la cara en la imagen?". Esta tecnología se utiliza habitualmente en las cámaras de los teléfonos inteligentes que enfocan automáticamente las caras o en las cámaras de seguridad que detectan la presencia de una persona.

El reconocimiento facial, en cambio, es una forma de reconocimiento de objetos. No sólo detecta una cara, sino que identifica de quién es analizando rasgos únicos y comparándolos con una base de datos. Responde a la pregunta: "¿Quién es esta persona?". Esta es la tecnología que hay detrás del desbloqueo de tu teléfono con Face ID o de los sistemas de seguridad de los aeropuertos que verifican las identidades.

En pocas palabras, la detección de objetos encuentra y localiza objetos, mientras que el reconocimiento de objetos los clasifica e identifica. 

Fig. 3. Detección de objetos frente a reconocimiento de objetos. Imagen del autor.

Muchos modelos de detección de objetos, como YOLO11, están diseñados para detectar caras, pero no para reconocerlas. YOLO11 puede identificar eficazmente la presencia de una cara en una imagen y dibujar un cuadro delimitador a su alrededor, lo que lo hace útil para aplicaciones como sistemas de vigilancia, control de multitudes y etiquetado automático de fotos. Sin embargo, no puede determinar de quién es la cara. YOLO11 puede integrarse con modelos entrenados específicamente para el reconocimiento facial, como Facenet o DeepFace, para permitir tanto la detección como la identificación en un único sistema.

Comprender cómo funciona la detección de objetos

Antes de hablar de cómo funciona la detección de objetos, veamos primero cómo analiza una imagen un ordenador. En lugar de ver una imagen como nosotros, un ordenador la descompone en una cuadrícula de diminutos cuadrados llamados píxeles. Cada píxel contiene información sobre el color y el brillo que los ordenadores pueden procesar para interpretar los datos visuales.

Para dar sentido a estos píxeles, los algoritmos los agrupan en regiones significativas basándose en la forma, el color y lo cerca que están unos de otros. Los modelos de detección de objetos, como YOLO11, pueden reconocer patrones o características en estos grupos de píxeles. 

Por ejemplo, un coche autoconducido no ve a un peatón como nosotros, sino que detecta formas y patrones que coinciden con las características de un peatón. Estos modelos se basan en un amplio entrenamiento con conjuntos de datos de imágenes etiquetadas, lo que les permite aprender las características distintivas de objetos como coches, señales de tráfico y personas.

Un modelo típico de detección de objetos tiene tres partes fundamentales: columna vertebral, cuello y cabeza. La columna vertebral extrae características importantes de una imagen. El cuello procesa y refina estas características, mientras que la cabeza se encarga de predecir la ubicación de los objetos y clasificarlos.

Afinar las detecciones y presentar los resultados

Una vez realizadas las detecciones iniciales, se aplican técnicas de postprocesamiento para mejorar la precisión y filtrar las predicciones redundantes. Por ejemplo, se eliminan los cuadros delimitadores superpuestos, asegurando que sólo se conservan las detecciones más relevantes. Además, se asignan puntuaciones de confianza (valores numéricos que representan lo seguro que está el modelo de que un objeto detectado pertenece a una clase determinada) a cada objeto detectado para indicar la certeza del modelo en sus predicciones.

Por último, el resultado se presenta con cuadros delimitadores dibujados alrededor de los objetos detectados, junto con sus etiquetas de clase y puntuaciones de confianza previstas. Estos resultados pueden utilizarse en aplicaciones reales.

Modelos populares de detección de objetos 

Hoy en día, hay muchos modelos de visión por ordenador disponibles, y algunos de los más populares son los modelosYOLO Ultralytics . Son conocidos por su velocidad, precisión y versatilidad. A lo largo de los años, estos modelos se han hecho más rápidos, precisos y capaces de manejar una gama más amplia de tareas. El lanzamiento de Ultralytics YOLOv5 facilitó el despliegue con marcos de trabajo como PyTorch, permitiendo que más personas utilicen la IA de Visión avanzada sin necesidad de profundos conocimientos técnicos.

Sobre esta base, Ultralytics YOLOv8 introdujo nuevas funciones como la segmentación de instancias, la estimación de poses y la clasificación de imágenes. Ahora, YOLO11 lleva las cosas aún más lejos con un mejor rendimiento en múltiples tareas. Con un 22% menos de parámetros que YOLOv8m, YOLO11m consigue una mayor precisión media (mAP) en el conjunto de datos COCO. En pocas palabras, YOLO11 puede reconocer objetos con mayor precisión utilizando menos recursos, lo que lo hace más rápido y fiable.

Tanto si eres un experto en IA como si acabas de empezar, YOLO11 ofrece una solución potente pero fácil de usar para aplicaciones de visión por ordenador.

Entrenamiento personalizado de un modelo de detección de objetos

Entrenar modelos de IA de Visión consiste en ayudar a los ordenadores a reconocer y comprender imágenes y vídeos. Sin embargo, el entrenamiento puede ser un proceso largo. En lugar de empezar desde cero, el aprendizaje por transferencia acelera las cosas utilizando modelos preentrenados que ya reconocen patrones comunes.

Por ejemplo, YOLO11 ya ha sido entrenado en el conjunto de datos COCO, que contiene un conjunto diverso de objetos cotidianos. Este modelo preentrenado puede seguir entrenándose a medida para detectar objetos específicos que pueden no estar incluidos en el conjunto de datos original. 

Para entrenar a YOLO11 de forma personalizada, necesitas un conjunto de datos etiquetados que contenga imágenes de los objetos que quieres detectar. Por ejemplo, si quieres construir un modelo para identificar distintos tipos de frutas en una tienda de comestibles, crearías un conjunto de datos con imágenes etiquetadas de manzanas, plátanos, naranjas, etc. Una vez preparado el conjunto de datos, se puede entrenar a YOLO11 , ajustando parámetros como el tamaño del lote, la tasa de aprendizaje y las épocas para optimizar el rendimiento.

Con este enfoque, las empresas pueden entrenar a YOLO11 para que detecte cualquier cosa, desde piezas defectuosas en la fabricación hasta especies salvajes en proyectos de conservación, adaptando el modelo a sus necesidades exactas.

Aplicaciones de la detección de objetos

A continuación, echemos un vistazo a algunos de los casos de uso de la detección de objetos en el mundo real y cómo está transformando diversas industrias.

Detección de peligros para la conducción autónoma

Los coches autoconducidos utilizan tareas de visión por ordenador, como la detección de objetos, para navegar con seguridad y evitar obstáculos. Esta tecnología les ayuda a reconocer peatones, otros vehículos, baches y peligros de la carretera, lo que les permite comprender mejor su entorno. Pueden tomar decisiones rápidas y moverse con seguridad entre el tráfico analizando constantemente su entorno.

Fig. 4. Ejemplo de uso de la detección de objetos para detectar baches con YOLO11.

Análisis de imágenes médicas en sanidad

Las técnicas de imagen médica, como los rayos X, las resonancias magnéticas, las tomografías computarizadas y las ecografías, crean imágenes muy detalladas del cuerpo humano para ayudar a diagnosticar y tratar enfermedades. Estas exploraciones producen grandes cantidades de datos que los médicos, como radiólogos y patólogos, deben analizar cuidadosamente para detectar enfermedades. Sin embargo, revisar cada imagen en detalle puede llevar mucho tiempo, y los expertos humanos a veces pueden pasar por alto detalles debido al cansancio o a la falta de tiempo.

Los modelos de detección de objetos como YOLO11 pueden ayudar identificando automáticamente características clave en las exploraciones médicas, como órganos, tumores o anomalías, con gran precisión. Los modelos entrenados a medida pueden resaltar las áreas de interés con recuadros delimitadores, ayudando a los médicos a centrarse más rápidamente en los posibles problemas. Esto reduce la carga de trabajo, mejora la eficacia y proporciona información rápida.

Fig. 5. Análisis de imágenes médicas con YOLO11.

Aumentar la seguridad con la detección de personas y anomalías

El seguimiento de objetos es una tarea de visión por ordenador soportada por YOLO11, que permite la supervisión en tiempo real y las mejoras de seguridad. Se basa en la detección de objetos, identificándolos y siguiendo continuamente su movimiento a lo largo de los fotogramas. Esta tecnología se utiliza ampliamente en los sistemas de vigilancia para mejorar la seguridad en diversos entornos.

Por ejemplo, en escuelas y guarderías, el seguimiento de objetos puede ayudar a vigilar a los niños y evitar que se alejen. En aplicaciones de seguridad, desempeña un papel clave en la detección de intrusos en zonas restringidas, la supervisión de multitudes para detectar aglomeraciones o comportamientos sospechosos, y el envío de alertas en tiempo real cuando se detecta actividad no autorizada. Al seguir la pista de los objetos mientras se mueven, los sistemas de seguimiento YOLO11 mejoran la seguridad, automatizan la vigilancia y permiten responder con mayor rapidez a posibles amenazas.

Pros y contras de la detección de objetos

He aquí algunas de las principales ventajas que la detección de objetos puede aportar a diversas industrias:

  • Automatización: La detección de objetos puede ayudar a reducir la necesidad de supervisión humana en tareas como la monitorización de grabaciones de CCTV.
  • Funciona con otros modelos de IA: Puede integrarse con sistemas de reconocimiento facial, de reconocimiento de acciones y de seguimiento para mejorar la precisión y la funcionalidad.
  • Procesamiento en tiempo real: Muchos modelos de detección de objetos, como YOLO11, son rápidos y eficaces, lo que los hace ideales para aplicaciones en tiempo real que requieren resultados instantáneos. 

Aunque estas ventajas ponen de manifiesto cómo influye la detección de objetos en los distintos casos de uso, también es importante tener en cuenta los retos que implica su aplicación. He aquí algunos de los principales retos:

  • Privacidad de los datos: El uso de datos visuales, especialmente en ámbitos sensibles como la vigilancia o la asistencia sanitaria, puede plantear problemas de privacidad y preocupaciones de seguridad.
  • Oclusión: La oclusión en la detección de objetos se produce cuando los objetos están parcialmente bloqueados u ocultos a la vista, lo que dificulta que el modelo los detecte y clasifique con precisión.
  • Computacionalmente caro: Los modelos de alto rendimiento suelen requerir potentes GPU (Unidades de Procesamiento Gráfico) para su procesamiento, lo que hace costosa la implantación en tiempo real.

Puntos clave

La detección de objetos es una herramienta revolucionaria de la visión por ordenador que ayuda a las máquinas a detectar y localizar objetos en imágenes y vídeos. Se está utilizando en sectores que van desde los coches autoconducidos a la sanidad, haciendo que las tareas sean más fáciles, seguras y eficientes. Con modelos más recientes como YOLO11, las empresas pueden crear fácilmente modelos personalizados de detección de objetos para crear aplicaciones especializadas de visión por ordenador. 

Aunque existen algunos retos, como los problemas de privacidad y los objetos ocultos a la vista, la detección de objetos es una tecnología fiable. Su capacidad para automatizar tareas, procesar datos visuales en tiempo real e integrarse con otras herramientas de IA Vision la convierte en una parte esencial de las innovaciones de vanguardia.

Para saber más, visita nuestro repositorio de GitHub y participa en nuestra comunidad. Explora las innovaciones en sectores como la IA en los coches autoconducidos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. Echa un vistazo a nuestras opciones de licencia yolo y da vida a tus proyectos de Vision AI. 🚀

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático