Descubre el poder de la detección de objetos: identifica y localiza objetos en imágenes o vídeos con modelos de vanguardia como YOLO. ¡Explora las aplicaciones del mundo real!
La detección de objetos es una tarea fundamental de la visión por ordenador (VC ) que consiste en identificar la presencia, ubicación y tipo de uno o más objetos dentro de una imagen o vídeo. A diferencia de la clasificación de imágenes, que asigna una única etiqueta a toda la imagen, la detección de objetos delimita con precisión cada instancia de objeto mediante un cuadro delimitador y le asigna una etiqueta de clase. Esta capacidad permite a las máquinas comprender las escenas visuales con mayor granularidad, reflejando más fielmente la percepción visual humana.
La detección de objetos suele combinar dos tareas básicas: clasificación de objetos (determinar "qué" objeto está presente) y localización de objetos (determinar "dónde" se encuentra el objeto). Los sistemas modernos de detección de objetos se basan en gran medida en el aprendizaje profundo (deep learning, DL), en particular en las redes neuronales convolucionales (Convolutional Neural Networks, CNN). Estas redes se entrenan en grandes conjuntos de datos, como el popular conjunto de datos COCO, para aprender características y patrones asociados a diferentes clases de objetos. El modelo procesa una imagen de entrada y genera una lista de cuadros delimitadores, cada uno con una etiqueta de clase asociada (por ejemplo, "coche", "persona") y una puntuación de confianza. El rendimiento de estos modelos suele medirse utilizando métricas como la Intersección sobre la Unión (IoU) y la Precisión Media (mAP).
Es importante distinguir la detección de objetos de otras tareas relacionadas con la visión por ordenador:
Los modelos de detección de objetos suelen dividirse en dos categorías:
La detección de objetos es crucial para numerosas aplicaciones en diversos sectores:
Desarrollar modelos de detección de objetos implica utilizar herramientas y plataformas especializadas. Frameworks como PyTorch y TensorFlow proporcionan los bloques de construcción. Bibliotecas como OpenCV ofrecen funciones esenciales de visión por ordenador. Ultralytics proporciona Ultralytics YOLO y la plataforma Ultralytics HUB, que simplifican el proceso de entrenamiento de modelos personalizados, la gestión de conjuntos de datos y el despliegue eficaz de soluciones. El entrenamiento eficaz de modelos suele requerir un cuidadoso ajuste de hiperparámetros y estrategias de aumento de datos.