用語集

混乱マトリックス

混同行列でモデルの性能を理解するAIの分類精度を向上させるための測定基準、実際の使用例、ツールを紹介します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

混同行列は教師あり学習、特に分類問題で使われる性能測定ツールである。これは、テストデータの集合に対して、予測された分類と実際の真の分類を比較することによって、分類モデルがどの程度うまく機能するかを包括的に要約したものです。この可視化は、モデルの全体的な正しさだけでなく、モデルが犯すエラーの種類(すなわち、モデルが「混乱」している場所)を理解するのにも役立ちます。これは機械学習(ML)や人工知能(AI)において画像分類や 物体検出のようなタスクのために学習されたモデルを評価する際に特に有用です。

コンポーネントを理解する

混同行列は通常,各行が実際のクラスのインスタンスを表し,各列が予測されたクラスのインスタンスを表す(またはその逆)正方格子として表示されます.単純な2値分類問題(2つのクラス、例えばPositiveとNegative)の場合、行列は4つのセルを持ちます:

  • 真の陽性(TP):モデルが陽性のクラスを正しく予測。
  • 真の陰性(TN):モデルは否定クラスを正しく予測した。
  • 偽陽性(FP)(タイプIエラー):モデルが誤って陽性のクラスを予測した(陽性を予測したが、実際のクラスは陰性であった).
  • 偽陰性(FN: False Negatives)(タイプIIエラー):モデルが誤ってネガティブ・クラスを予測した(ネガティブを予測したが、実際のクラスはポジティブだった).

これら4つの要素は、さまざまなパフォーマンス指標を算出するための基礎となる。

他の評価指標との関係

コンフュージョン・マトリックスは詳細な内訳を提供するが、パフォーマンスを要約するために、いくつかの重要な指標がそこから導き出される:

  • 精度:正しい予測の割合(TP + TN) /(TP + TN + FP + FN)。単純ではあるが、不均衡なデータセットでは誤解を招く可能性がある。
  • 精度:正の予測の精度を測定する。tp / (tp + fp)。これは答える:"陽性と予測されたすべての事例のうち、実際に陽性であった事例はいくつあるか?"
  • リコール(感度または真陽性率):実際の陽性インスタンスを識別するモデルの能力を測定する。tp / (tp + fn)。これは答える."すべての実際の陽性の事例のうち、モデルはいくつを正しく識別したか?"
  • F1-スコア:PrecisionとRecallの調和平均。
  • 特異性(真の陰性率):実際の陰性事例を識別するモデルの能力を測定する。tn / (tn + fp)。
  • 受信者動作特性(ROC)曲線:様々な閾値設定における偽陽性率(1-特異度)に対する真陽性率(Recall)をプロットし、異なる判定閾値にわたるパフォーマンスを要約します。

混同行列を理解することは、特に異なるタイプのエラー(FP対FN)のコストが大きく異なる場合に、特定の問題に最も関連するメトリクスを選択するのに役立ちます。これらの詳細については、YOLO パフォーマンス測定基準のガイドをご覧ください。

Ultralytics使用

のようなモデルをトレーニングする場合 Ultralytics YOLOのようなモデルを物体検出や 画像分類などのタスクのためにトレーニングする場合、検証段階(Valモード)で混同行列が自動的に生成されます。これらの行列は、COCOやカスタムデータセットのようなデータセット内の異なるクラスでモデルがどの程度うまく機能するかを視覚化するのに役立ちます。Ultralytics HUBのようなプラットフォームは、モデルのトレーニング、データセットの管理、混同行列を含む結果の分析のための統合された環境を提供し、モデルの評価に関する包括的な洞察を得ることができます。これにより、モデルが苦手とするクラスを素早く特定し、さらなるデータの増強や ハイパーパラメータのチューニングに役立てることができます。次のようなフレームワーク PyTorchTensorFlowのようなフレームワークは、これらの行列を生成するツールを統合していることが多い。

実世界での応用

コンフュージョン・マトリクスは多くの領域で不可欠である:

  1. 医療診断: 医療画像から癌のような病気を検出するように設計されたモデルを評価する場合、混同行列は非常に重要である。False Negative(癌が存在するのに検出できない)は、False Positive(癌が存在しないのに検出し、さらなる検査につながる)よりも深刻な結果をもたらす可能性があります。マトリックスを分析することで、臨床ニーズに応じてPrecisionと Recallのバランスをとることができる。詳しくはNIHの医用画像に関するリソースを参照。これはヘルスケアにおけるAIの重要な分野である。
  2. スパムメールの検出スパムフィルターの場合、混同マトリックスはパフォーマンスを評価するのに役立ちます。False Positive(正当なメールをスパムとして分類すること)は、False Negative(スパムメールを通過させること)よりもユーザーにとって問題かもしれません。マトリクスは、それぞれのタイプのエラーの発生頻度を詳細に示し、モデルの調整を導きます。自然言語処理(NLP)を含むこれらのテクニックを使ったスパム検出の研究を調べることができます。その他のアプリケーションとしては、詐欺検出や セキュリティシステムにおけるモデルの評価などがあります。

利点と限界

混同行列の主な利点は、単一の精度スコアを超えて、モデルの性能のクラスごとの詳細な内訳を提供する能力です。これは、モデルがどこで「混乱」しているかを明確に示し、特に不均衡なクラスやエラーに関連するコストが異なるシナリオにおいて、分類モデルのデバッグと改善に不可欠です。解釈を容易にするために、データの視覚化をサポートします。制限事項としては、(ImageNetのような大規模なデータセットにあるような)非常に多くのクラスを持つ問題では、行列が大きくなり、集約や特別な可視化技術なしでは視覚的に解釈するのが難しくなることがあります。

要約すると、混同行列は教師あり学習において不可欠な評価ツールであり、ロバストで信頼性の高いコンピュータビジョン(CV)やその他のMLモデルを開発するための重要な洞察を提供します。その構成要素を理解することは、Ultralytics HUBのようなプラットフォームで効果的なモデル評価と反復を行うための鍵となります。

すべて読む