交差検証は、機械学習や人工知能で使用される統計的手法で、学習時に使用されなかったデータのサブセットでモデルをテストすることで、モデルの性能を評価する。これは、モデルが新しい未知のデータに対してうまく汎化することを保証し、オーバーフィッティングを防ぐのに役立ちます。データセットを複数の部分または「フォールド」に分割することで、クロスバリデーションはデータの異なる部分でモデルを系統的にテストし、その有効性のロバストな尺度を提供する。
交差検証の核となる考え方は、データセットをトレーニングとテストのサブセットに複数回分割することである。モデルはあるサブセットで学習され、別のサブセットでテストされる。すべてのデータポイントが少なくとも一度は学習と検証の両方に使用されるように、データセットをローテーションする。最もよく使われる手法は Kフォールド・クロス・バリデーションここで、データセットは次のように分割される。 K
均等な大きさの折り目:
K-1
を折り、残りの折り目でテストした。K
回、毎回異なるフォールドをテストセットとして使用する。他のバリエーションとしては、各データポイントをテストセットとして1回だけ使用するLeave-One-Out Cross-Validation(LOOCV)や、フォールド間でクラス分布を維持するStratified K-Fold Cross-Validationがあり、不均衡なデータセットに最適である。
交差検証は、モデル評価においていくつかの利点を提供する:
機械学習におけるオーバーフィッティングや汎化の防止については、オーバーフィッティング用語集のページで詳しく説明しています。
クロスバリデーションは、モデルのロバスト性と信頼性を確保するために、さまざまなAIやMLアプリケーションで広く使用されている:
クロスバリデーションは、グリッド探索やランダム探索のような手法によってハイパーパラメータを最適化する際に重要な役割を果たす。異なるフォールドで複数のパラメータの組み合わせを評価することで、実務者は最適な構成を特定することができます。モデルのパフォーマンスを向上させるハイパーパラメータ・チューニングの詳細をご覧ください。
サポートベクターマシン(SVM)やランダムフォレストのような異なるアルゴリズムを選択する場合、クロスバリデーションは、同一条件下で各モデルを評価することにより、公平な比較を提供します。ランダムフォレストと サポートベクターマシン(SVM)についての詳細はこちらをご覧ください。
クロスバリデーションがデータセットの動的な分割を含むのに対し、検証データはトレーニング中のパフォーマンス評価のために予約された固定サブセットを指します。詳しくは、検証データの用語解説ページをご覧ください。
テストデータは、モデルのトレーニングと検証の後、最終的な評価に使用されます。一方、交差検証は、中間評価のためにトレーニングデータを複数のサブセットに分割します。詳しくは、テストデータの用語解説ページをご覧ください。
交差検証は、オーバーフィッティングを特定し、軽減するための重要な戦略である。ドロップアウト層や正則化のようなテクニックも役に立ちますが、クロス・バリデーションは、モデル・パフォーマンスの経験的証拠を提供します。詳しくは正則化の用語解説ページをご覧ください。
クロスバリデーションは機械学習において不可欠なツールであり、モデルの正確性と汎用性を保証する。未知のデータで厳密にテストし、結果を平均化することで、モデルの選択とチューニングの指針となる信頼性の高いパフォーマンス指標を提供します。物体検出におけるクロスバリデーションの実用的な実装については、Ultralytics HUB のUltralytics YOLO を使用した物体検出のための K-Fold Cross-Validationをご覧ください。
AIプロジェクトやモデルトレーニングを始めるには、Ultralytics HUBで直感的なツールやリソースをご覧ください。