Sabe o que é a Intersecção sobre a União (IoU), como é calculada e o seu papel fundamental na deteção de objectos e na avaliação de modelos de IA.
A intersecção sobre a união (IoU) é uma métrica fundamental utilizada extensivamente na visão computacional (CV), particularmente em tarefas como a deteção de objectos e a segmentação de imagens. Quantifica a precisão com que um limite previsto (como uma caixa delimitadora na deteção de objectos) corresponde ao limite real e verdadeiro de um objeto. Essencialmente, o IoU mede o grau de sobreposição entre a área prevista e a área real, fornecendo uma pontuação simples e eficaz para o desempenho da localização. Compreender o IoU é essencial para avaliar e comparar a eficácia dos modelos de visão por computador, especialmente para utilizadores familiarizados com conceitos básicos de aprendizagem automática (ML).
O IoU serve como um indicador de desempenho crítico para avaliar a eficácia dos modelos, como o Ultralytics YOLOlocalizam objectos dentro de uma imagem. Enquanto a classificação nos diz que objeto está presente (ver Classificação da imagem), o IoU diz-nos quão bem o modelo identificou a sua localização. Esta precisão espacial é vital em muitos cenários do mundo real onde a localização precisa é tão importante como a classificação correta. Pontuações altas de IoU indicam que as previsões do modelo se alinham de perto com os limites reais do objeto. Muitos benchmarks de deteção de objectos, como a popular avaliação do conjunto de dados COCO e o antigo desafio PASCAL VOC, baseiam-se fortemente nos limiares IoU para determinar se uma deteção é considerada correta. Podes explorar vários conjuntos de dados de referência como o COCO e o PASCAL VOC na nossa documentação.
O cálculo envolve a divisão da área onde a caixa delimitadora prevista e a caixa delimitadora da verdade terrestre se sobrepõem (a intersecção) pela área total coberta por ambas as caixas combinadas (a união). Esta relação resulta numa pontuação entre 0 e 1. Uma pontuação de 1 significa uma correspondência perfeita, ou seja, a caixa prevista sobrepõe-se exatamente à verdade terrestre. Uma pontuação de 0 indica que não há qualquer sobreposição. Uma prática comum em muitos protocolos de avaliação de deteção de objectos é considerar uma previsão correta se a pontuação IoU atingir ou exceder um determinado limiar, frequentemente 0,5. No entanto, podem ser utilizados limiares mais rigorosos (por exemplo, 0,75 ou mesmo 0,9), dependendo da necessidade de precisão da aplicação, como se vê em métricas como mAP@.5:.95 utilizadas nas avaliações COCO. Este limiar tem um impacto direto em métricas como a precisão e a recuperação.
A capacidade da IoU para medir a precisão da localização torna-a indispensável em vários domínios:
Embora o IoU meça especificamente a qualidade da localização de uma única previsão em relação a uma verdade terrestre, é frequentemente utilizado juntamente com outras métricas para obter uma imagem completa do desempenho.
O IoU não é apenas uma métrica de avaliação; é também parte integrante do próprio processo de formação. Muitas arquitecturas modernas de deteção de objectos, incluindo variantes de Ultralytics YOLOv8 e YOLOv10, usam o IoU ou suas variações (como o IoU generalizado (GIoU), o IoU de distância (DIoU) ou o IoU completo (CIoU)) diretamente em suas funções de perda. Essas perdas avançadas baseadas em IoU ajudam o modelo a aprender a prever caixas delimitadoras que não apenas se sobrepõem bem, mas também consideram fatores como distância entre centros e consistência de proporção de aspeto, levando a uma convergência mais rápida e melhor desempenho de localização em comparação com as perdas de regressão tradicionais. Podes encontrar comparações detalhadas entre diferentes modelos YOLO na nossa documentação.
A monitorização do IoU durante o treino do modelo e a afinação dos hiperparâmetros ajuda os programadores a aperfeiçoar os modelos para uma melhor localização. Ferramentas como o Ultralytics HUB permitem monitorizar a IoU e outras métricas, simplificando o ciclo de aperfeiçoamento do modelo. Apesar da sua utilidade generalizada, o IoU padrão pode por vezes ser insensível, especialmente para caixas não sobrepostas ou caixas de escalas muito diferentes. Isto motivou o desenvolvimento das variantes de IoU acima mencionadas. No entanto, a IoU continua a ser uma pedra angular da avaliação da visão computacional e um conceito-chave na aprendizagem profunda (DL).