用語集

F1スコア

機械学習におけるF1スコアの重要性を知る!最適なモデル評価のために、精度と想起のバランスをどのようにとるかを学びましょう。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

F1スコアは、機械学習(ML)や情報検索において、2値分類モデルの性能を評価するために広く使われている指標である。F1-Scoreは、他の2つの重要な指標であるprecisionと recallのバランスをとる単一のスコアを提供します。このバランスにより、F1-Scoreは、クラスの分布が不均衡な場合(不均衡なデータセット)や、偽陽性と偽陰性の両方が大きなコストを伴う場合に、特に有用となる。F1-Scoreは精度と想起の調和平均として計算され、0と1の間の範囲を与え、1は完全な精度と想起を意味する。

精度と再現率を理解する

F1スコアを把握するには、その構成要素を理解することが不可欠だ:

  • 精度肯定的な予測の精度を測定する。これは質問に答える:"モデルが陽性と予測したすべてのインスタンスのうち、実際に陽性であったのはいくつですか?" という質問に答えます。精度が高いということは、モデルが偽陽性エラーをほとんど犯さないことを意味する。
  • Recall(感度)すべての実際のポジティブ・インスタンスを識別するモデルの能力を測定する.これは質問に答えます:"すべての実際の陽性の事例のうち、モデルはいくつを正しく識別したか?" という質問に答えます。高いリコールは、モデルがほとんど偽のネガティブ・エラーを犯さないことを意味する。

F1-Scoreは、これらの調和平均を計算することによって、これら2つを組み合わせます。単純平均とは異なり、調和平均は極端な値をより重く罰するので、高いF1-Scoreを達成するためには、モデルが精度と想起の両方でそれなりに良い結果を出さなければならないことを意味する。

なぜF1スコアを使うのか?

精度(全体として正しい予測の割合)は一般的な指標であるが、特に不均衡なデータセットでは誤解を招く可能性がある。例えば、データ点の1%しかポジティブ・クラスに属さない場合、すべてをネガティブと予測するモデルは99%の精度を達成するが、ポジティブ・クラスの識別には完全に失敗する。

F1-Scoreは、精度と想起を通じて正のクラスのパフォーマンスに焦点を当てることで、これに対処する。次のような場合に好まれる:

  1. クラスの不均衡が存在する:一方の階級が他方の階級を圧倒的に上回っている場合、正確さよりも優れた評価が得られる。
  2. 偽陽性と偽陰性の両方が重要である:両方のエラーを最小化することが重要なシナリオでは、F1-Scoreのバランシングが役に立ちます。F1-Scoreは、この精度とリコールのトレードオフのバランスをとるモデルを見つけるのに役立ちます。

F1スコアの実例:実例

F1-Scoreは様々な人工知能(AI)アプリケーションにおいて重要である:

  1. 疾患検出のための医療画像解析 コンピュータ・ビジョン(CV)を使ってスキャン画像から癌腫瘍を検出するように設計されたAIモデルを考えてみよう。

    • 偽陰性(想起率が低い)とは、がんが存在するのに発見できなかったことを意味し、患者に深刻な結果をもたらす可能性がある。
    • 偽陽性(精度が低い)とは、がんがないのにがんと診断することであり、不必要なストレスやコスト、さらなる侵襲的検査につながる。
    • F1スコアは、AIヘルスケアソリューションで使用されるようなモデルを評価するのに役立ち、実際の症例を捉えること(再現性)と誤診を避けること(精度)のバランスを保証する。このようなモデルのトレーニングには、脳腫瘍検出データセットのようなデータセットが使われるかもしれない。
  2. スパムメールのフィルタリング電子メールサービスは、スパムを識別するために分類モデルを使用します。

    • 可能な限り多くのスパムを捕捉するためには、高い想起率が必要である。スパムの見逃し(偽陰性)はユーザーを困らせる。
    • 正当なメール(「ハム」)をスパム(偽陽性)と判定しないためには、高い精度が不可欠です。重要なメールを誤って分類することは、非常に問題となります。
    • F1-Scoreはスパムフィルターの全体的な有効性を評価するのに適した尺度を提供し、重要なメッセージを失うことなくジャンクをフィルターする必要性のバランスをとる。これには自然言語処理(NLP)の技術が関わっています。

F1スコアと関連指標

F1スコアを他の評価指標と区別することは重要だ:

  • 正確さ全体的な正しさを測定するが、不均衡なクラスでは信頼できないことがある。
  • PrecisionおよびRecallF1-Scoreはこれらを組み合わせたものである。偽陽性を最小化することが重要な場合は精度を使用し、偽陰性を最小化することが最も重要な場合は想起を使用する。
  • 平均平均精度(mAP)Ultralyticsで実行されるような物体検出タスクの主な指標。 Ultralytics YOLOmAPは、さまざまな想起レベルにわたって、また多くの場合、複数のオブジェクトクラスとIntersection over Union (IoU)のしきい値にわたって、精度を平均します。精度とリコールに関連していますが、mAPは特に、分類とローカライゼーションの両方を考慮して、オブジェクト検出パフォーマンスを評価します。詳しくはYOLO パフォーマンス・メトリクスをご覧ください。YOLO11 YOLOv8ようなモデルの比較は、しばしばmAPに依存しています。
  • Intersection over Union(IoU)オブジェクト検出における予測バウンディングボックスとグランドトゥルースのバウンディングボックスの重なりを測定する。F1-Scoreのように直接分類性能ではなく、ローカリゼーションの品質を評価する。
  • 混乱行列真陽性、真陰性、偽陽性、偽陰性を示し、そこからPrecision、Recall、Accuracy、F1-Scoreが導き出される。

Ultralytics F1スコア

Ultralytics エコシステム内では、mAPは以下のような物体検出モデルを評価するための標準となっている。 YOLO11のような物体検出モデルを評価するための標準である一方で、F1-Scoreは、分類タスクの能力を評価する場合、または検出やセグメンテーション問題内の特定のクラスに関するパフォーマンスを評価する場合、特にクラスの不均衡が懸念される場合に関連する可能性があります。Ultralytics HUBのようなツールは、カスタムモデルのトレーニングやモデル評価中の様々なパフォーマンスメトリクスのトラッキングを容易にします。F1スコアのようなメトリクスを理解することは、ハイパーパラメータチューニングのようなテクニックを使用して、特定のニーズに合わせてモデルを微調整するのに役立ちます。フレームワーク PyTorchScikit-learnのようなライブラリは、F1-Scoreを計算するための実装を提供しています。

すべて読む