用語集

混乱マトリックス

混同行列でモデルの性能を理解するAIの分類精度を向上させるための測定基準、実際の使用例、ツールを紹介します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

混同行列は機械学習(ML)、特に分類モデルの性能を評価するために使われる基本的なツールです。混同行列は、モデルの予測が、異なるクラスにわたって、実際の真実のラベルとどの程度一致するかを、明確かつ簡潔に要約します。各クラスの予測の正解と不正解のカウントを視覚化することで、単純な精度だけよりも深い洞察を提供し、モデルが犯している特定のタイプのエラーを理解するのに役立ちます。

コンポーネントを理解する

混同行列は、テストデータの集合について、予測されたクラスラベルと実際のクラスラベルを比較します。2値分類問題(2つのクラス、例えば正/負)の場合、行列は通常4つの重要な値を含みます:

  • True Positives (TP):陽性と正しく予測されたインスタンスの数。
  • True Negatives (TN):ネガティブとして正しく予測されたインスタンスの数。
  • False Positives (FP):I型エラーとも呼ばれる。Positiveと誤って予測された(実際にはNegativeであった)インスタンスの数。
  • 偽陰性(FN):Type II エラーとも呼ばれる。Negativeと誤って予測された(実際にはPositiveであった)インスタンスの数。

これらの4つの構成要素は、様々な性能測定基準を計算するための基礎となります。マルチクラス分類問題では、マトリックスは拡張され、すべてのクラス間の相互作用を示します。

コンフュージョン・マトリックスを使う理由

全体的な精度は性能の一般的な感覚を与えますが、特に1つのクラスが他のクラスよりも著しく多いような不均衡なデータセットでは、誤解を招く可能性があります。混同行列は、より詳細なビューを提供します:

実世界での応用

混乱行列は、人工知能(AI)を応用した様々な領域で広く使われている:

  1. 医療診断: 医療画像の腫瘍検出のようなアプリケーションでは、混同行列がAIモデルの評価に役立ちます。偽陰性(腫瘍を見逃す)は深刻な結果をもたらす可能性があり、偽陽性(健康な組織に腫瘍のフラグを立てる)は不必要なストレスとさらなる検査につながる可能性がある。マトリックスを分析することで、これらのリスクのバランスをとることができる。ヘルスケアにおけるAIソリューションの詳細については、こちらをご覧ください。
  2. スパムメールのフィルタリング:メールサービスはスパムを分類するために分類器を使用します。混同マトリックスはフィルターのパフォーマンスを評価します。False Positive(正当なメールをスパムと分類すること)は、False Negative(スパムメールを通過させること)よりも問題になることがよくあります。マトリックスは、望ましいバランスになるようにフィルタを調整するのに役立ち、効果的なメールフィルタリング技術に貢献します。

コンフュージョン・マトリックスと他の指標

混乱マトリックスと関連する評価ツールを区別することは重要である:

  • 正確さ:全体的な正しさを表す単一のパーセンテージ。モデルがどのように間違っているかは詳しく説明しない。
  • Precision、Recall、F1-Score:これらは混同行列の値(TP、FP、FN、TN)から計算され、パフォーマンスの特定の側面を要約する。
  • ROC曲線異なる分類しきい値における真陽性率(Recall)と偽陽性率(False Positive Rate)のトレードオフを示すグラフプロット。同じような基礎概念から派生しているが、混同行列のように単一の閾値における生のカウントを示すのではなく、閾値にわたるパフォーマンスを視覚化する。

Ultralytics使用

のようなモデルをトレーニングする場合 Ultralytics YOLOのようなモデルを物体検出や 画像分類などのタスクのためにトレーニングする場合、検証段階(Valモード)で混同行列が自動的に生成されます。これらの行列は、COCOのようなデータセットやカスタムデータセット内の異なるクラスでモデルがどの程度うまく機能するかを視覚化するのに役立ちます。Ultralytics HUBのようなツールは、モデルをトレーニングし、混同行列を含む結果を分析するための環境を提供し、モデルの評価に関する包括的な洞察を得ることができます。実際に混同行列をより深く掘り下げるには、Scikit-learnのドキュメントのようなリソースがさらなる例を提供しています。

すべて読む