用語集

クロスバリデーション

モデルの精度を高め、オーバーフィッティングを防ぎ、ロバストなパフォーマンスを保証する、機械学習における交差検証の威力をご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

クロスバリデーションは、機械学習(ML)において、モデルが独立したデータセットに対してどの程度汎化するかを評価するために使用される重要な統計的手法である。クロスバリデーションでは、データをトレーニングセットとテストセットに分割するのではなく、データを複数のサブセット、つまり「フォールド」に分割する。モデルはいくつかのフォールドで繰り返し学習され、残りのフォールドで評価される。このプロセスは、単純な訓練とテストの分割と比較して、未知のデータに対するモデルのパフォーマンスのより信頼性の高い推定を提供し、モデルがノイズを含めて訓練データを学習しすぎるオーバーフィッティングのリスクを大幅に低減します。

クロスバリデーションの仕組み

最も広く使われている方法は、K-Foldクロスバリデーションである。このプロセスには以下のステップが含まれる:

  1. シャッフルと分割:データセット全体がランダムにシャッフルされ、「K」個の等しいサイズのフォールド(部分集合)に分割される。
  2. 反復訓練と検証: モデルはK回学習される。各反復'i'(1からKまで):
  3. パフォーマンスの集約:K回の反復のそれぞれで記録されたパフォーマンス指標は、モデルの汎化能力のよりロバストな推定値を生成するために平均化される。

Scikit-learnのような多くの一般的なMLライブラリは、Stratified K-Fold(不均衡なデータセットには不可欠)やLeave-One-Out CVを含む様々なクロスバリデーション戦略の効率的な実装を提供している。

なぜクロスバリデーションを使うのか?

クロスバリデーションは、いくつかの重要な理由から、信頼できるモデル評価の基礎となる:

  • より信頼性の高い性能推定:複数の検証セットの結果を平均化することで、CVは、単一の訓練/テスト分割に関連する分散を削減し、モデルが実際にどのように動作するかをより安定的に測定します。これは研究における再現性を促進します。
  • 効率的なデータ利用:すべてのデータ・ポイントが異なるフォールドのトレーニング・データと検証データの両方になるため、限られたデータセットを有効に活用できる。これは、データ収集が高価であったり困難であったりする場合に特に有益である。
  • 過剰適合/過小適合の検出:訓練パフォーマンスと平均検証パフォーマンスの不一致を明らかにすることで、複雑すぎる(オーバーフィット)、または単純すぎる(アンダーフィット)モデルを識別するのに役立ちます。
  • 頑健なハイパーパラメータのチューニング:CVは、最適なハイパーパラメータを選択するための、より信頼性の高い基礎を提供する。異なるハイパーパラメータ・セットは、それらのクロスバリデーションされた平均性能に基づいて評価することができ、より優れた汎化能力を持つモデルにつながります。Ultralytics 、CVの原理を組み込んだハイパーパラメータチューニングのためのツールを提供しています。

クロスバリデーションと単純な訓練/バリデーションの比較

単純な訓練と検証の分割は、データを一度分割し、一方を訓練用に、一方を検証用にする。実装は簡単だが、その主な欠点は、性能評価がどの特定のデータポイントがたまたま検証セットに入るかに大きく依存することである。特に「簡単」または「難しい」検証セットは、過度に楽観的または悲観的な性能推定につながる可能性がある。

クロスバリデーションは、検証のために異なるサブセットを系統的に使用し、すべてのデータポイントが一度だけ評価プロセスに貢献するようにすることで、これを克服する。これにより、モデルの頑健性について、より安定した信頼できる評価が得られる。最終的なテストデータセットは、トレーニングとCVベースのチューニングの両方で未確認であり、選択されたモデルの最終的な評価のために確保されるべきであることに注意することが重要です。Ultralytics 、 Ultralytics YOLOK-Fold Cross Validationを実装するための詳細なガイダンスを提供しています。

実世界での応用

クロスバリデーションは、さまざまな領域にわたって信頼できるAIシステムを構築する上で不可欠である:

  1. 医療画像解析: 脳腫瘍データセットのようなデータセットを用いた脳スキャンにおける腫瘍の検出のような、医療画像解析のための畳み込みニューラルネットワーク(CNN)を開発する場合、臨床試験を検討したり、規制当局(例えばFDA)からの承認を求めたりする前に、多様な患者データにわたってモデルの診断精度と汎化性を厳密に評価するためにCVが使用される。
  2. 自律走行車:のような物体検出モデル Ultralytics YOLOような物体検出モデルにとって、CVは、Argoverseのような複雑なデータセットによく見られるさまざまな環境条件(照明、天候、道路タイプ)において、歩行者、自転車、その他の車両を検出する際の信頼性の高いパフォーマンスを保証するのに役立ちます。平均平均精度(mAP)のようなメトリクスで測定されることが多いこのロバストな評価は、自動車向けAIソリューションのようなセーフティクリティカルなシステムにモデルを展開する前に不可欠です。

その他の用途としては、画像セグメンテーションのモデル評価、感情分析のような自然言語処理(NLP)タスク、金融モデリングにおけるリスク評価などがある。Ultralytics HUBのようなプラットフォームは、開発ライフサイクルを合理化するために、このような評価技術を統合または促進することがよくあります。

すべて読む