用語集

アンダーフィット

機械学習モデルにおけるアンダーフィッティングを特定、防止、対処する方法を、専門家のヒント、戦略、実例を用いて学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

機械学習の領域では、最適なモデル性能を達成するのは微妙なバランスである。モデル学習中に遭遇する一般的な課題の1つに、アンダーフィッティングがある。アンダーフィッティングは、機械学習モデルが単純すぎて、学習データの根本的なパターンを捉えることができない場合に発生する。これは本質的に、モデルがデータを効果的に学習できないことを意味し、その結果、訓練セットと未経験データの両方でパフォーマンスが低下する。これは多くの場合、モデルがデータ内の関係を表現するのに必要な複雑さを欠いていることが原因である。

アンダーフィットの原因は?

機械学習モデルのアンダーフィッティングにはいくつかの要因がある。

  • モデルの単純さ:データの複雑さに対して単純すぎるモデルを使用することが主な原因である。例えば、非常に非線形なデータに線形モデルを当てはめようとすると、アンダーフィッティングになる可能性が高い。複雑なデータセットには、畳み込みニューラルネットワーク(CNN)のような、より複雑なモデルが必要になることが多い。
  • 不十分なトレーニング時間:モデルのトレーニングが十分なエポック数行われない場合、基礎となるデータ・パターンを学習する機会が十分に得られない可能性がある。十分なトレーニングによって、モデルは重みとバイアスを調整し、よりデータにフィットするようになる。
  • 関連する特徴の欠如:モデルに提供される入力特徴が、基礎となるデータ特性を適切に表現していない場合、モデルは効果的な学習に苦戦する可能性がある。より情報量の多い特徴量を作成するフィーチャーエンジニアリングは、これを軽減するのに役立ちます。
  • 過剰正則化:L1正則化やL2正則化のような正則化テクニックはオーバーフィッティングを防ぐのに有効ですが、正則化が過剰になりすぎるとモデルを拘束しすぎてアンダーフィッティングになることがあります。

アンダーフィットの特定

アンダーフィッティングは、通常、訓練と検証中のモデルのパフォーマンス指標を観察することで識別される。主な指標は以下の通りです:

  • 高いトレーニングエラー:モデルはトレーニングデータセットで高いエラー率を示し、トレーニングデータをうまく学習していないことを示す。
  • 高い検証エラー:同様に、モデルは検証データセットで高いエラー率を示しており、これは未知のデータに対する汎化が不十分であることを示唆している。
  • パフォーマンス指標が低い:トレーニングセットと検証セットの両方で、精度正確さリコールmAPなどの指標が、望ましい値よりも著しく低い。詳細については、YOLO パフォーマンス・メトリクスをご覧ください。

アンダーフィットへの対応

アンダーフィットに対抗するには、いくつかの戦略を採用することができる:

  • モデルの複雑さを増す:より複雑なモデル・アーキテクチャの使用を検討する。例えば、線形モデルがアンダーフィットの場合、多項式モデル、決定木、またはUltralytics YOLOv8 のようなニューラルネットワークを物体検出タスクに使用してみる。
  • Train Longer: 学習エポック数を増やし、モデルがデータパターンを学習する時間を増やす。Ultralytics HUBのようなツールは、効率的なモデルのトレーニングとモニタリングを容易にします。
  • フィーチャー・エンジニアリング:既存のデータから、より適切で有益なフィーチャーを作成する。これには、新しいフィーチャーを作成したり、既存のフィーチャーを変換したり、より関連性の高いフィーチャーのサブセットを選択したりすることが含まれる。
  • 正則化を減らす:正則化が使用されている場合は、正則化の強さを減らして、モデルがより柔軟にトレーニングデータにフィットできるようにしてみてください。
  • より多くのデータを集める:場合によっては、アンダーフィッティングはトレーニングデータ不足が原因であることもある。トレーニングデータセットのサイズを大きくすることで、モデルに学習するためのより多くの例を提供することができます。Ultralytics 、使用する可能性のあるデータセットを探そう。

アンダーフィットの実例

  1. 画像分類のための単純な線形回帰.犬の品種を分類するような複雑な画像の分類に、基本的な線形回帰モデルを使うことを想像してみてください。線形モデルは、犬の品種を区別する複雑な視覚的特徴を捉えるにはあまりにも単純で、大幅なアンダーフィットと低い分類精度につながります。より適切なモデルは、画像特徴を効果的に学習するために、ImageNetのような大規模なデータセットで訓練されたCNNであろう。
  2. 密集したシーンにおける物体検出の基本モデル:混雑した街頭シーンでの物体検出に、非常に浅いニューラルネットワークを使うことを考えてみよう。このような単純なモデルでは、複雑な空間関係や文脈情報を学習できないため、多くの物体、特に小さい物体や隠れた物体を検出できない可能性がある。のような、より高度で深いアーキテクチャを使用する必要がある。 Ultralytics YOLO11のような、より高度で深いアーキテクチャを使用することが、このようなシーンにおける物体の複雑さと密度を扱うために必要であろう。

アンダーフィットとオーバーフィットの比較

アンダーフィッティングはオーバーフィッティングの反対である。アンダーフィッティングは、モデルが単純すぎて訓練データを適切に学習できない場合に起こるが、オーバーフィッティングは、モデルが過度に複雑で、ノイズや無関係な詳細を含めて訓練データを学習しすぎる場合に起こる。オーバーフィッティング・モデルは、訓練データでは非常に優れた性能を発揮するが、新しい未知のデータでは汎化に失敗するため、性能が低下する。機械学習のゴールは、アンダーフィットとオーバーフィットの両方を回避し、良い汎化とパフォーマンスを達成するために、バランスの取れたモデルを見つけることである。クロスバリデーションや ハイパーパラメータチューニングのようなテクニックは、このバランスを見つける上で非常に重要である。

すべて読む