Glosario

Detección de objetos

Descubre el poder de la detección de objetos: identifica y localiza objetos en imágenes o vídeos con modelos de vanguardia como YOLO. ¡Explora las aplicaciones del mundo real!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La detección de objetos es una tarea fundamental de la visión por ordenador (VC ) que consiste en identificar la presencia, ubicación y tipo de uno o más objetos dentro de una imagen o vídeo. A diferencia de la clasificación de imágenes, que asigna una única etiqueta a toda la imagen, la detección de objetos delimita con precisión cada instancia de objeto mediante un cuadro delimitador y le asigna una etiqueta de clase. Esta capacidad permite a las máquinas comprender las escenas visuales con mayor granularidad, reflejando más fielmente la percepción visual humana.

Cómo funciona la detección de objetos

La detección de objetos suele combinar dos tareas básicas: clasificación de objetos (determinar "qué" objeto está presente) y localización de objetos (determinar "dónde" se encuentra el objeto). Los sistemas modernos de detección de objetos se basan en gran medida en el aprendizaje profundo (deep learning, DL), en particular en las redes neuronales convolucionales (Convolutional Neural Networks, CNN). Estas redes se entrenan en grandes conjuntos de datos, como el popular conjunto de datos COCO, para aprender características y patrones asociados a diferentes clases de objetos. El modelo procesa una imagen de entrada y genera una lista de cuadros delimitadores, cada uno con una etiqueta de clase asociada (por ejemplo, "coche", "persona") y una puntuación de confianza. El rendimiento de estos modelos suele medirse utilizando métricas como la Intersección sobre la Unión (IoU) y la Precisión Media (mAP).

Detección de Objetos vs. Tareas Relacionadas

Es importante distinguir la detección de objetos de otras tareas relacionadas con la visión por ordenador:

  • Clasificación de imágenes: Asigna una única etiqueta a toda una imagen (por ejemplo, "Esta imagen contiene un gato"). No proporciona información sobre la ubicación del objeto u objetos.
  • Segmentación de imágenes: Clasifica cada píxel de una imagen. La segmentación semántica asigna una etiqueta de clase a cada píxel (por ejemplo, todos los píxeles que pertenecen a coches se etiquetan como "coche"), mientras que la segmentación por instancias distingue entre diferentes instancias de la misma clase (por ejemplo, etiquetando "coche 1", "coche 2"). La segmentación proporciona información espacial más detallada que las cajas delimitadoras de la detección de objetos.

Tipos de modelos de detección de objetos

Los modelos de detección de objetos suelen dividirse en dos categorías:

  • Detectores de dos etapas: Estos modelos proponen primero regiones de interés (RoIs) donde podrían estar situados los objetos y luego clasifican los objetos dentro de estas regiones. Algunos ejemplos son la familia R-CNN(CNN basada en regiones). A menudo consiguen una gran precisión, pero pueden ser más lentos.
  • Detectores de una etapa: Estos modelos realizan la localización y la clasificación en una sola pasada directamente sobre la cuadrícula de la imagen. Algunos ejemplos son Ultralytics YOLO como YOLOv8 y YOLOv11. Suelen ser más rápidos, lo que los hace adecuados para la inferencia en tiempo real. Los enfoques más recientes, como los detectores sin anclaje, simplifican aún más el proceso de detección. Puedes explorar las comparaciones entre distintos modelos YOLO para comprender sus ventajas y desventajas.

Aplicaciones en el mundo real

La detección de objetos es crucial para numerosas aplicaciones en diversos sectores:

Herramientas y formación

Desarrollar modelos de detección de objetos implica utilizar herramientas y plataformas especializadas. Frameworks como PyTorch y TensorFlow proporcionan los bloques de construcción. Bibliotecas como OpenCV ofrecen funciones esenciales de visión por ordenador. Ultralytics proporciona Ultralytics YOLO y la plataforma Ultralytics HUB, que simplifican el proceso de entrenamiento de modelos personalizados, la gestión de conjuntos de datos y el despliegue eficaz de soluciones. El entrenamiento eficaz de modelos suele requerir un cuidadoso ajuste de hiperparámetros y estrategias de aumento de datos.

Leer todo