用語集

クロスバリデーション

機械学習における交差検証のパワーを発見してください!オーバーフィッティングを防ぎ、精度を保証し、モデル選択を助ける方法を学びましょう。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

交差検証は、機械学習や人工知能で使用される統計的手法で、学習時に使用されなかったデータのサブセットでモデルをテストすることで、モデルの性能を評価する。これは、モデルが新しい未知のデータに対してうまく汎化することを保証し、オーバーフィッティングを防ぐのに役立ちます。データセットを複数の部分または「フォールド」に分割することで、クロスバリデーションはデータの異なる部分でモデルを系統的にテストし、その有効性のロバストな尺度を提供する。

クロスバリデーションの仕組み

交差検証の核となる考え方は、データセットをトレーニングとテストのサブセットに複数回分割することである。モデルはあるサブセットで学習され、別のサブセットでテストされる。すべてのデータポイントが少なくとも一度は学習と検証の両方に使用されるように、データセットをローテーションする。最もよく使われる手法は Kフォールド・クロス・バリデーションここで、データセットは次のように分割される。 K 均等な大きさの折り目:

  • このモデルは K-1 を折り、残りの折り目でテストした。
  • このプロセスを繰り返す K 回、毎回異なるフォールドをテストセットとして使用する。
  • 結果はすべての反復で平均化され、最終的なパフォーマンス指標となる。

他のバリエーションとしては、各データポイントをテストセットとして1回だけ使用するLeave-One-Out Cross-Validation(LOOCV)や、フォールド間でクラス分布を維持するStratified K-Fold Cross-Validationがあり、不均衡なデータセットに最適である。

クロスバリデーションの利点

交差検証は、モデル評価においていくつかの利点を提供する:

  • より良い汎化:未知のデータでテストすることにより、クロスバリデーションはモデルがトレーニングデータセットにオーバーフィットしないことを保証します。
  • 信頼できる指標:複数のフォールドから平均化された結果は、より正確で安定したモデル性能の推定値を提供します。
  • モデルの選択:クロスバリデーションは、異なるモデルやハイパーパラメータ設定を比較して、最もパフォーマンスの良いものを選択するのに役立ちます。

機械学習におけるオーバーフィッティングや汎化の防止については、オーバーフィッティング用語集のページで詳しく説明しています。

AIとMLの応用

クロスバリデーションは、モデルのロバスト性と信頼性を確保するために、さまざまなAIやMLアプリケーションで広く使用されている:

1.ハイパーパラメータの調整

クロスバリデーションは、グリッド探索やランダム探索のような手法によってハイパーパラメータを最適化する際に重要な役割を果たす。異なるフォールドで複数のパラメータの組み合わせを評価することで、実務者は最適な構成を特定することができます。モデルのパフォーマンスを向上させるハイパーパラメータ・チューニングの詳細をご覧ください。

2.モデルの比較

サポートベクターマシン(SVM)やランダムフォレストのような異なるアルゴリズムを選択する場合、クロスバリデーションは、同一条件下で各モデルを評価することにより、公平な比較を提供します。ランダムフォレストと サポートベクターマシン(SVM)についての詳細はこちらをご覧ください。

3.実世界での応用

  • ヘルスケア医療画像解析では、クロスバリデーションにより、脳腫瘍を特定するような診断モデルが、多様な患者データセットにわたって良好に一般化されることを保証します。ヘルスケアにおけるAIの影響について、AI in Healthcareをご覧ください。
  • 小売業小売業の需要予測では、検証のために過去のデータのサブセットを使用することで、モデルが将来の売上をより正確に予測するのに役立ちます。AIが小売業をどのように変革するかについては、AI for Smarter Retail Inventory Managementをご覧ください。

クロスバリデーションと関連概念

クロスバリデーションと検証データの比較

クロスバリデーションがデータセットの動的な分割を含むのに対し、検証データはトレーニング中のパフォーマンス評価のために予約された固定サブセットを指します。詳しくは、検証データの用語解説ページをご覧ください。

クロスバリデーションとテストデータの比較

テストデータは、モデルのトレーニングと検証の後、最終的な評価に使用されます。一方、交差検証は、中間評価のためにトレーニングデータを複数のサブセットに分割します。詳しくは、テストデータの用語解説ページをご覧ください。

クロスバリデーションとオーバーフィッティングの防止

交差検証は、オーバーフィッティングを特定し、軽減するための重要な戦略である。ドロップアウト層や正則化のようなテクニックも役に立ちますが、クロス・バリデーションは、モデル・パフォーマンスの経験的証拠を提供します。詳しくは正則化の用語解説ページをご覧ください。

結論

クロスバリデーションは機械学習において不可欠なツールであり、モデルの正確性と汎用性を保証する。未知のデータで厳密にテストし、結果を平均化することで、モデルの選択とチューニングの指針となる信頼性の高いパフォーマンス指標を提供します。物体検出におけるクロスバリデーションの実用的な実装については、Ultralytics HUB のUltralytics YOLO を使用した物体検出のための K-Fold Cross-Validationをご覧ください。

AIプロジェクトやモデルトレーニングを始めるには、Ultralytics HUBで直感的なツールやリソースをご覧ください。

すべて読む