機械学習におけるF1スコアの重要性を知る!最適なモデル評価のために、精度と想起のバランスをどのようにとるかを学びましょう。
F1スコアは、機械学習(ML)や情報検索において、2値分類モデルの性能を評価するために広く使われている指標である。F1-Scoreは、他の2つの重要な指標であるprecisionと recallのバランスをとる単一のスコアを提供します。このバランスにより、F1-Scoreは、クラスの分布が不均衡な場合(不均衡なデータセット)や、偽陽性と偽陰性の両方が大きなコストを伴う場合に、特に有用となる。F1-Scoreは精度と想起の調和平均として計算され、0と1の間の範囲を与え、1は完全な精度と想起を意味する。
F1スコアを把握するには、その構成要素を理解することが不可欠だ:
F1-Scoreは、これらの調和平均を計算することによって、これら2つを組み合わせます。単純平均とは異なり、調和平均は極端な値をより重く罰するので、高いF1-Scoreを達成するためには、モデルが精度と想起の両方でそれなりに良い結果を出さなければならないことを意味する。
精度(全体として正しい予測の割合)は一般的な指標であるが、特に不均衡なデータセットでは誤解を招く可能性がある。例えば、データ点の1%しかポジティブ・クラスに属さない場合、すべてをネガティブと予測するモデルは99%の精度を達成するが、ポジティブ・クラスの識別には完全に失敗する。
F1-Scoreは、精度と想起を通じて正のクラスのパフォーマンスに焦点を当てることで、これに対処する。次のような場合に好まれる:
F1-Scoreは様々な人工知能(AI)アプリケーションにおいて重要である:
疾患検出のための医療画像解析: コンピュータ・ビジョン(CV)を使ってスキャン画像から癌腫瘍を検出するように設計されたAIモデルを考えてみよう。
スパムメールのフィルタリング:電子メールサービスは、スパムを識別するために分類モデルを使用します。
F1スコアを他の評価指標と区別することは重要だ:
Ultralytics エコシステム内では、mAPは以下のような物体検出モデルを評価するための標準となっている。 YOLO11のような物体検出モデルを評価するための標準である一方で、F1-Scoreは、分類タスクの能力を評価する場合、または検出やセグメンテーション問題内の特定のクラスに関するパフォーマンスを評価する場合、特にクラスの不均衡が懸念される場合に関連する可能性があります。Ultralytics HUBのようなツールは、カスタムモデルのトレーニングや、モデル評価中の様々なパフォーマンスメトリクスのトラッキングを容易にします。F1スコアのようなメトリクスを理解することは、ハイパーパラメータチューニングのようなテクニックを使用して、特定のニーズに合わせてモデルを微調整するのに役立ちます。フレームワーク PyTorchやScikit-learnのようなライブラリは、F1-Scoreを計算するための実装を提供しています。