用語集

精度

機械学習における精度の重要性、その計算方法、不均衡なデータセットにおける限界、モデルのパフォーマンスを向上させる方法を発見してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

精度は、機械学習(ML)モデル、特に人工知能(AI)やコンピュータ・ビジョン(CV)の分類タスクのパフォーマンスを評価するために使用される、最も基本的で直感的な測定基準の1つです。これは、予測総数のうちAIモデルによって行われた正しい予測の割合を表します。理解するのも計算するのも簡単ですが、特に特定のタイプのデータセットや特定の問題要件を扱う場合、精度だけに頼ることは時に誤解を招くことがあります。

精度の計算方法

精度は、正しい予測(真陽性と真陰性の両方)の数を、行われた予測の総数で割ることによって計算される。例えば、あるモデルが100枚の画像のうち90枚を正しく識別した場合、その精度は90%となります。この単純さが、モデルの性能を評価する出発点としてよく使われる理由です。

AIと機械学習における重要性

精度は、モデルが全体としてどれくらいの頻度で正しいかを端的に示す尺度です。モデル開発とモデルトレーニングの初期段階で、一般的な性能の感覚を得るために広く使われています。精度が高いことは、多くのアプリケーションの主要な目標であることが多く、モデルが新しい未知のデータに対してよく一般化することを示します。例えば Ultralytics YOLOのような多くの最先端のモデルは、スピードのような他の要素とのバランスを取りながら、高い精度を目指しています。YOLO11 YOLOv8ような比較は、しばしば精度のベンチマークを強調しています。

精度の限界

その直感性とは裏腹に、精度には大きな限界がある:

  • 不均衡なデータセット:あるクラスが他のクラスより著しく多いような不均衡なデータを扱うとき、精度は性能の悪い指標になることがある。例えば、稀な病気(例えば、1%の有病率)を検出する場合、常に「病気なし」と予測するモデルは99%の精度を達成しますが、実際の症例を特定できず、役に立たないことになります。このことは、潜在的なデータセットのバイアスを考慮することの重要性を強調している。
  • エラーの種類を無視する:精度はすべてのエラーを平等に扱う。しかし、多くの現実のシナリオでは、異なるエラーのコストは異なる。例えば、悪性腫瘍を良性と誤分類すること(偽陰性)は、良性腫瘍を悪性と分類すること(偽陽性)よりもはるかに重大であることが多い。
  • 精度のパラドックス:状況によっては、標準的な定義に従った精度の低いモデルの方が、実際には有用な場合がある。これは「精度のパラドックス」として知られている。

精度を他の指標と区別する

精度には限界があるため、特に不均衡なデータやさまざまなエラーコストでは、他の測定基準が好まれたり、併用されたりすることが多い:

  • 精度:実際に正しい識別の割合を測定する。誤認識のコストが高い場合(例えば、スパムフィルターが重要なメールをスパムとしてマークする場合)、高い精度は非常に重要である。
  • リコール(感度):正しく識別された実際の陽性の割合を測定する。偽陰性のコストが高い場合(例:診断の見落とし)には、高い再現性が不可欠である。
  • F1-スコア:PrecisionとRecallの調和平均。偽陽性と偽陰性の両方が重要な場合に有用。
  • 平均平均精度(mAP):物体検出における一般的な指標で、異なる想起レベルにわたって分類精度とローカライズ精度(IoU)の両方を考慮する。
  • 混乱マトリックス:分類アルゴリズムの性能を視覚化した表で、真陽性、真陰性、偽陽性、偽陰性を示し、精度、再現率、精度の計算に役立つ。
  • ROC曲線とAUC:これらは、様々な閾値設定における真陽性率(Recall)と偽陽性率のトレードオフを可視化する。

これらの異なるYOLO パフォーマンス指標を理解することで、特定のニーズに合わせたモデルのパフォーマンスをより微妙に評価することができる。

実際のAI/MLアプリケーション

  1. 医療画像解析: YOLO11使用した腫瘍検出のようなタスクでは、全体的な精度が考慮される一方で、実際の腫瘍(偽陰性)を見逃すリスクを最小限に抑えるために、Recall(感度)のような指標が優先されることが多い。ヘルスケアにおけるAIのソリューションは、これらのメトリクスのバランスを注意深く取る必要があります。
  2. 自律走行車 車載用AIソリューションでは、物体検出モデルが歩行者、車両、障害物を高い精度で識別する必要があります。しかし、単に全体的な精度を測定するだけでは十分ではありません。mAPのようなメトリクスは、正しい分類と正確なローカライゼーション(バウンディングボックス予測)の両方を保証し、安全性を確保するために非常に重要です。

モデルの精度向上

モデルの精度を向上させるには、いくつかのテクニックが役立ちますが、多くの場合、他のメトリクスや計算コストとのトレードオフを伴います:

Model Training Tipsのようなコンサルティングリソースは、実践的なガイダンスを提供します。Ultralytics HUBのようなプラットフォームでは、ユーザーがモデルをトレーニングし、他の主要なメトリクスと一緒に精度を簡単に追跡することができ、多くの場合TensorBoardのようなツールを使用して視覚化されます。スタンフォードAIインデックス・レポートのようなリソースや、Papers With Codeでデータセットを閲覧することで、この分野の進歩を追跡することができます。フレームワーク PyTorch(公式サイト参照)や TensorFlow(公式サイト参照)のようなフレームワークが、これらのモデルの構築と学習によく使われている。

結論として、精度はAIモデルのパフォーマンスを評価するための貴重で直感的な指標であるが、それを単独で使用することはほとんどない。MLタスクの特定のゴールとデータの性質、特に潜在的な不均衡やエラーの様々なコストを考慮することは、精度、リコール、F1スコア、mAPのような最も適切な評価指標を選択するために不可欠です。また、説明可能なAI(XAI)のテクニックを活用することで、単一のメトリクス値を超えた深い洞察を得ることができます。

すべて読む