用語集

F1スコア

機械学習におけるF1スコアの重要性を知る!最適なモデル評価のために、精度と想起のバランスをどのようにとるかを学びましょう。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

F1-Scoreは、機械学習(ML)や統計解析において、バイナリまたはマルチクラス分類モデルの性能を評価するために広く使用されている指標です。これは、モデルのPrecisionと Recallを1つの指標にまとめる方法を提供し、特に不均衡なデータセットを扱う場合や、偽陽性と偽陰性に関連するコストが大きく異なる場合に、Accuracy単独よりもロバストな評価を提供します。

精度と再現率を理解する

F1スコアに入る前に、その構成要素を理解することが重要だ:

  • 精度この指標は質問に答える:「モデルが陽性と予測したすべてのインスタンスのうち、いくつが実際に陽性だったのか?これは陽性の予測の正しさに焦点を当て、偽陽性(タイプIエラー)を最小化する。高い精度は、偽陽性のコストが高いときに重要である。
  • Recall(感度または真陽性率):この指標は質問に答える:「すべての実際の陽性インスタンスのうち、モデルはいくつを正しく識別したか?これは、すべての関連するインスタンスを見つけ、偽陰性(タイプⅡエラー)を最小化することに重点を置く。ポジティブ・インスタンスを見逃すとコストがかかる場合、高いリコールは極めて重要である。

これらのメトリクスは、混同行列から得られる真陽性(TP)、偽陽性(FP)、偽陰性(FN)のカウントを用いて計算される。

F1スコアが重要な理由

特に不均衡なデータセットでは、精度だけでは誤解を招く可能性がある。例えば、データセットに95%の否定的なインスタンスと5%の肯定的なインスタンスがある場合、常に「否定的」を予測するモデルは95%の精度を達成するが、肯定的なケースを識別するためには役に立たない(リコールゼロ)。

F1-ScoreはPrecisionとRecallの調和平均を計算することでこれに対処する。調和平均は単純な算術平均よりも極端な値にペナルティを与える。その結果、高いF1-Scoreは高い精度と高い想起の両方を必要とし、両者のバランスを保証する。これは0(最悪)から1(最高)の範囲である。

F1スコアの応用

F1-Scoreは、多くのAIやMLの領域における標準的な評価指標である:

  • 情報検索検索結果の関連性と完全性を評価する。
  • 自然言語処理(NLP) 固有表現認識(NER)やテキスト分類(スパム検出など)のようなタスクのパフォーマンスを評価する。スパムフィルタリングにおいて、F1-Scoreはスパムメールを捕捉すること(リコール)と正当なメールの誤分類を最小限に抑えること(精度)のバランスをとるのに役立つ。
  • コンピュータ・ビジョン 平均平均精度(mAP)のような指標は、次のような物体検出モデルでは一般的です。 Ultralytics YOLOのようなオブジェクト検出モデルでは一般的ですが、F1-Scoreは特定のオブジェクトクラスやセグメンテーションタスクのパフォーマンスを評価するために使用できます。これらのメトリクスの詳細については、YOLO Performance Metricsガイドをご覧ください。
  • 医療画像解析 スキャン画像から腫瘍を検出するような診断システムでは、陽性症例(低リコール)を見逃すと深刻な結果を招く可能性があり、一方、誤報(低精度)は不必要なストレスや処置につながる可能性があります。F1-Scoreは、モデルの判定しきい値の最適なバランスを見つけるのに役立ちます。診断テストの評価に関するその他の資料
  • 異常検知まれな不正トランザクションやシステム障害を特定する。ポジティブな事例はまれだが、検出することが重要である。

F1スコアと関連指標

  • 正確さ全体的な正しさを測る。バランスのとれたデータセットには適しているが、不均衡なデータセットには誤解を招く。
  • 精度ポジティブ予測の質に焦点を当てる(FPを最小化する)。
  • リコール実際に検出された陽性の量に焦点を当てる(FNの最小化)。
  • 平均平均精度 (mAP):オブジェクト検出やランキング問題で一般的な指標で、様々な想起しきい値やクラスにわたる精度を平均する。これは、通常1つのポイントを評価するF1-Scoreとは異なり、異なる操作ポイントにわたるパフォーマンスのより広いビューを提供する。
  • 曲線下面積(AUC) ROC曲線下面積を意味することが多く、すべての分類しきい値にわたるモデルの性能を要約する。

適切なメトリクスの選択は、特定の問題と、偽陽性の最小化と偽陰性の最小化の相対的な重要性に依存します。Ultralytics HUBのようなツールは、モデルのトレーニングや評価中にF1-Scoreを含む複数のメトリクスを追跡し、ユーザーが情報に基づいた意思決定を行うのに役立ちます。モデル評価に関する実践的なガイダンスについては、Ultralytics チュートリアルをご覧ください。

すべて読む