Descubre el poder de la detección de objetos: identifica y localiza objetos en imágenes o vídeos con modelos de vanguardia como YOLO. ¡Explora las aplicaciones del mundo real!
La detección de objetos es una tarea fundamental de la visión por ordenador (VC ) que consiste en identificar la presencia, ubicación y tipo de uno o más objetos dentro de una imagen o vídeo. A diferencia de la clasificación de imágenes, que asigna una única etiqueta a toda la imagen (por ejemplo, "gato"), la detección de objetos delimita con precisión cada instancia de objeto mediante un cuadro delimitador y le asigna una etiqueta de clase (por ejemplo, "gato" en las coordenadas x, y, anchura, altura). Esta capacidad permite a las máquinas comprender las escenas visuales con mayor granularidad, imitando más de cerca la percepción visual humana y permitiendo interacciones más complejas con el entorno. Es una tecnología básica detrás de muchas aplicaciones modernas de inteligencia artificial (IA).
La detección de objetos suele combinar dos tareas básicas: la clasificación de objetos (determinar "qué" objeto está presente) y la localización de objetos (determinar "dónde" se encuentra el objeto, normalmente mediante coordenadas de cuadro delimitador). Los sistemas modernos de detección de objetos se basan en gran medida en el aprendizaje profundo (deep learning, DL), en particular en las redes neuronales convolucionales (Convolutional Neural Networks, CNN). Estas redes se entrenan en grandes conjuntos de datos anotados, como el popular conjunto de datos COCO o Open Images V7, para aprender características visuales y patrones asociados a diferentes clases de objetos.
Durante el funcionamiento (conocido como inferencia), el modelo entrenado procesa una imagen de entrada o un fotograma de vídeo. Produce una lista de objetos potenciales, cada uno representado por un cuadro delimitador, una etiqueta de clase prevista (por ejemplo, "coche", "persona", "perro") y una puntuación de confianza que indica la certeza del modelo sobre la detección. A menudo se utilizan técnicas como la Supresión No Máxima (NMS) para refinar estos resultados eliminando las cajas redundantes y superpuestas del mismo objeto. El rendimiento de estos modelos suele evaluarse utilizando métricas como la Intersección sobre Unión (IoU) y la Precisión Media (mAP).
Es importante distinguir la detección de objetos de otras tareas relacionadas con la visión por ordenador:
Por lo general, los modelos de detección de objetos se dividen en dos categorías principales, que difieren principalmente en su enfoque y en las compensaciones entre velocidad y precisión:
La detección de objetos es una tecnología fundamental que permite numerosas aplicaciones en diversos sectores:
Desarrollar y desplegar modelos de detección de objetos implica diversas herramientas y técnicas. Los marcos de aprendizaje profundo más populares, como PyTorch y TensorFlow proporcionan las bibliotecas fundacionales. Las bibliotecas de visión por ordenador como OpenCV ofrecen funciones esenciales de procesamiento de imágenes.
Ultralytics proporciona tecnología punta Ultralytics YOLO incluyendo YOLOv8 y YOLO11optimizados para ofrecer velocidad y precisión. La plataforma Ultralytics HUB simplifica aún más el flujo de trabajo, ofreciendo herramientas para gestionar conjuntos de datos, entrenar modelos personalizados, realizar el ajuste de hiperparámetros y facilitar el despliegue de modelos. El entrenamiento eficaz de los modelos a menudo se beneficia de las estrategias de aumento de datos y de técnicas como el aprendizaje por transferencia utilizando pesos preentrenados de conjuntos de datos como ImageNet.