Aprende qué es la Intersección sobre Unión (IoU), cómo se calcula y su papel fundamental en la detección de objetos y la evaluación de modelos de IA.
La intersección sobre la unión (IoU) es una métrica fundamental muy utilizada en visión por ordenador (VC), sobre todo en tareas como la detección de objetos y la segmentación de imágenes. Cuantifica la precisión con la que un límite predicho (como un cuadro delimitador en la detección de objetos) coincide con el límite real y verdadero de un objeto. Esencialmente, IoU mide el grado de solapamiento entre el área predicha y el área real, proporcionando una puntuación sencilla pero eficaz del rendimiento de la localización. Comprender el IoU es esencial para evaluar y comparar la eficacia de los modelos de visión por ordenador, especialmente para los usuarios familiarizados con los conceptos básicos del aprendizaje automático (ML).
El IoU sirve como indicador crítico de rendimiento a la hora de evaluar la eficacia de modelos como Ultralytics YOLOlocalizan objetos en una imagen. Mientras que la clasificación nos dice qué objeto está presente (ver Clasificación de imágenes), el IoU nos dice lo bien que el modelo ha localizado su ubicación. Esta precisión espacial es vital en muchos escenarios del mundo real, donde una localización precisa es tan importante como una clasificación correcta. Las puntuaciones altas de IoU indican que las predicciones del modelo coinciden con los límites reales del objeto. Muchas pruebas comparativas de detección de objetos, como la popular evaluación del conjunto de datos COCO y el antiguo reto PASCAL VOC, se basan en gran medida en los umbrales de IoU para determinar si una detección se considera correcta. Puedes explorar varios conjuntos de datos de referencia como COCO y PASCAL V OC en nuestra documentación.
El cálculo consiste en dividir el área donde se solapan el cuadro delimitador previsto y el cuadro delimitador real (la intersección) por el área total cubierta por ambos cuadros combinados (la unión). Esta relación da como resultado una puntuación entre 0 y 1. Una puntuación de 1 significa una coincidencia perfecta, es decir, que el recuadro predicho coincide exactamente con el recuadro real. Una puntuación de 0 indica que no hay solapamiento alguno. Una práctica habitual en muchos protocolos de evaluación de detección de objetos es considerar que una predicción es correcta si la puntuación IoU alcanza o supera un determinado umbral, a menudo 0,5. Sin embargo, pueden utilizarse umbrales más estrictos (por ejemplo, 0,75 o incluso 0,9) en función de la necesidad de precisión de la aplicación, como se observa en métricas como mAP@.5:.95 utilizadas en las evaluaciones COCO. Este umbral influye directamente en métricas como la precisión y el recuerdo.
La capacidad del IoU para medir la precisión de la localización lo hace indispensable en diversos ámbitos:
Aunque el IoU mide específicamente la calidad de la localización de una sola predicción con respecto a una verdad sobre el terreno, a menudo se utiliza junto con otras métricas para obtener una imagen completa del rendimiento.
El IoU no es sólo una métrica de evaluación; también forma parte integrante del propio proceso de entrenamiento. Muchas arquitecturas modernas de detección de objetos, incluidas las variantes de Ultralytics YOLOv8 y YOLOv10, utilizan el IoU o sus variaciones (como el IoU Generalizado (GIoU), el IoU-Distancia (DIoU) o el IoU-Completo (CIoU)) directamente dentro de sus funciones de pérdida. Estas pérdidas avanzadas basadas en IoU ayudan al modelo a aprender a predecir cuadros delimitadores que no sólo se solapan bien, sino que también tienen en cuenta factores como la distancia entre centros y la coherencia de la relación de aspecto, lo que conduce a una convergencia más rápida y a un mejor rendimiento de la localización en comparación con las pérdidas de regresión tradicionales. Puedes encontrar comparaciones detalladas entre diferentes modelos YOLO en nuestra documentación.
El seguimiento del IoU durante el entrenamiento del modelo y el ajuste de hiperparámetros ayuda a los desarrolladores a perfeccionar los modelos para una mejor localización. Herramientas como Ultralytics HUB permiten seguir el IoU y otras métricas, agilizando el ciclo de mejora del modelo. A pesar de su amplia utilidad, el IoU estándar a veces puede ser insensible, sobre todo para cajas no superpuestas o de escalas muy diferentes. Esto ha motivado el desarrollo de las variantes de IoU antes mencionadas. No obstante, el IoU sigue siendo una piedra angular de la evaluación de la visión por ordenador y un concepto clave en el aprendizaje profundo (AD).