IoU(Intersection over Union)とは何か、どのように計算されるのか、そして物体検出とAIモデル評価における重要な役割について学びます。
IoU(Intersection over Union)は、コンピュータビジョン(CV)、特に物体検出や 画像セグメンテーションのようなタスクで広く使われる基本的な指標である。これは、予測された境界(物体検出におけるバウンディングボックスのようなもの)が、実際の真実の物体の境界とどれだけ正確に一致するかを定量化するものである。基本的に、IoUは予測された領域と真の領域との重なりの度合いを測定し、ローカライゼーションのパフォーマンスに対するシンプルかつ効果的なスコアを提供します。IoUを理解することは、コンピュータビジョンモデルの有効性を評価・比較するために不可欠であり、特に基本的な機械学習(ML)の概念に精通しているユーザーにとっては重要です。
IoUは、次のようなモデルがどの程度優れているかを評価する際に、重要な性能指標となる。 Ultralytics YOLOのようなモデルが、画像内のオブジェクトの位置をどの程度特定できるかを評価する際に、重要な性能指標となる。分類は、どのような物体が存在するかを教えてくれますが(画像分類を参照)、IoUは、モデルがその物体の位置をどれだけ正確に特定したかを教えてくれます。この空間的な精度は、正確な位置特定が正しい分類と同じくらい重要である多くの実世界のシナリオで不可欠です。IoUスコアが高いということは、モデルの予測が実際のオブジェクトの境界と密接に一致していることを示します。人気のあるCOCOデータセット評価や古いPASCAL VOCチャレンジのような多くの物体検出ベンチマークは、検出が正しいとみなされるかどうかを判断するためにIoUしきい値に大きく依存しています。COCOや PASCAL VOCのような様々なベンチマークデータセットについては、私たちのドキュメントで調べることができます。
この計算では、予測されたバウンディングボックスとグラウンドトゥルースのバウンディングボックスが重なる部分(交点)を、両ボックスがカバーする総面積(和)で割ります。この比率の結果、0から1の間のスコアが得られます。スコア1は完全な一致を意味し、予測されたボックスがグラウンドトゥルースと完全に重なることを意味します。スコア0は、全く重なっていないことを示します。多くの物体検出評価プロトコルで一般的に行われているのは、IoUスコアがある閾値(多くの場合0.5)以上であれば予測は正しいとみなすというものです。しかし、COCO評価で使用されるmAP@.5:.95 のようなメトリクスに見られるように、アプリケーションの精度の必要性に応じて、より厳しい閾値(例えば、0.75や0.9)が使用されることもあります。この閾値は、精度や リコールなどのメトリクスに直接影響します。
IoUの定位精度を測定する能力は、さまざまな領域で不可欠なものとなっている:
IoUは、グランドトゥルースに対する単一の予測に対するローカリゼーションの品質を特に測定しますが、完全なパフォーマンス画像のために他のメトリクスと一緒に使用されることがよくあります。
IoUは単なる評価指標ではなく、トレーニングプロセスそのものに不可欠なものだ。最新の物体検出アーキテクチャの多くは Ultralytics YOLOv8やYOLOv10のバリエーションを含む多くの最新の物体検出アーキテクチャは、IoUまたはそのバリエーション(一般化IoU(GIoU)、距離IoU(DIoU)、完全IoU(CIoU)など)を損失関数内で直接使用しています。これらの高度なIoUベースの損失は、モデルがうまく重なるだけでなく、中心間の距離やアスペクト比の一貫性などの要因も考慮したバウンディングボックスを予測する学習を支援し、従来の回帰損失と比較して、より速い収束と優れたローカリゼーションパフォーマンスをもたらします。異なるYOLO モデル間の詳細な比較は、ドキュメントでご覧いただけます。
モデルのトレーニングや ハイパーパラメータのチューニング中にIoUをモニタリングすることで、開発者はより良いローカライゼーションのためにモデルを改良することができます。Ultralytics HUBのようなツールは、IoUやその他のメトリクスを追跡し、モデルの改善サイクルを効率化します。IoUは広く使われているにもかかわらず、標準的なIoUは、特に重なっていないボックスや非常に異なるスケールのボックスに対して鈍感な場合があります。このことが、前述のIoUバリアントの開発の動機となりました。それにもかかわらず、IoUは依然としてコンピュータビジョン評価の基礎であり、ディープラーニング(DL)における重要な概念である。