用語集

テストデータ

AIにおけるテストデータの重要性、モデルのパフォーマンスを評価し、オーバーフィッティングを検出し、実世界の信頼性を確保する上でのテストデータの役割をご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

テストデータは、機械学習(ML)開発のライフサイクルにおいて極めて重要な要素である。テストデータとは、トレーニングセットや検証セットとは別の独立したデータセットのことで、トレーニングやチューニングが完了した後、モデルの性能を最終的に評価するためだけに使用されます。このデータセットには、モデルがこれまでに遭遇したことのないデータポイントが含まれており、新しい実世界のデータに対してモデルがどの程度うまく機能するかを公平に評価することができる。テストデータを使用する主な目的は、モデルの汎化能力、つまり未知の入力に対して正確に実行する能力を推定することです。

テストデータの重要性

MLモデルの成功の真の尺度は、明示的にトレーニングされていないデータを扱う能力にある。テストデータは、モデルのパフォーマンスを客観的に評価する最終チェックポイントとなる。専用のテストセットがないと、モデルがノイズや特定のパターンを含むトレーニングデータを学習しすぎて、新しいデータに汎化できないオーバーフィッティングのリスクが高くなります。テストデータを使用することで、報告されたパフォーマンス指標が、モデルの期待される実世界の能力を反映していることを確認し、モデル展開前の信頼性を高めることができます。この最終評価ステップは、YOLOv8 YOLOv9の比較のように、異なるモデルやアプローチを確実に比較するために重要である。 これは、GoogleMLルールに概説されているようなベストプラクティスに沿ったものである。

主な特徴

効果的であるためには、テストデータは一定の特徴を持たなければならない:

  • 代表性:モデルが展開後に遭遇する実世界データの特性を正確に反映する必要がある。これには、特徴の類似分布、クラス、潜在的なバリエーションが含まれる。適切なデータ収集とアノテーションが不可欠です。
  • 独立性:テスト・データは訓練セットや検証セットから厳密に分離されなければならない。モデルのトレーニングやハイパーパラメータのチューニングに使用してはならない。重複や漏れがあると、性能予測が過度に楽観的になる可能性がある。
  • 十分なサイズ:テストセットは、統計的に意味のある結果を提供し、モデルのパフォーマンスを確実に推定するのに十分な大きさが必要です。

テストデータとトレーニングおよび検証データの比較

MLで使われる他のデータ分割とテストデータを区別することは不可欠だ:

  • トレーニングデータこれはデータセットの最も大きな部分で、モデルの学習に直接使用される。モデルは、教師あり学習のようなアルゴリズムを通じて、このデータからパターンと関係を学習する。
  • 検証データこの別個のデータセットは、モデルのハイパーパラメータ(アーキテクチャの選択や最適化の設定など)を調整し、トレーニングプロセスに関する決定(早期停止など)を行うために、トレーニングフェーズで使用される。最終的なテストセットを使用することなく、モデルの評価とファインチューニングのプロセスを導き、トレーニング中にモデルがどの程度汎化しているかについてのフィードバックを提供します。
  • テストデータ:すべてのトレーニングと検証が完了した後に一度だけ使用され、未知のデータに対するモデルのパフォーマンスを最終的かつ公平に評価する。

慎重なデータ分割のような戦略を用いてこれらのデータセットを適切に分離することは、信頼性の高いモデルを開発し、その実世界での能力を正確に評価するために極めて重要である。

実例

  1. 自律走行:自動運転 Ultralytics YOLO自動運転車の物体検出用にトレーニングされたモデルは、多様で未知の運転シナリオ(夜間走行、大雨、不慣れな交差点など)を含むテストセットで評価される。これにより、実車に搭載される前に、歩行者、自転車、他の車両(ウェイモのテクノロジーはこのようなテストに大きく依存している)を確実に検出することができる。
  2. 医療診断: 医療画像解析では脳腫瘍検出データセットのようなデータを使用して腫瘍を検出するように訓練されたモデルは、訓練や検証の一部ではない、異なる病院、機械、患者集団からのスキャンからなるテストセットで評価されなければならない。これにより、実際の臨床環境におけるモデルの診断精度と ロバスト性が確認されます。

評価と管理

テストセットでの性能は、通常、精度平均平均精度(mAP)など、タスクに関連するメトリクスを使用して測定さYOLO 。多くの場合、公正な比較を確実にし、再現性を促進するために、COCOのような確立されたベンチマーク・データセットに対してモデルが評価されます。プロジェクトのライフサイクルを通じて、これらの異なるデータセットを管理するには、Ultralytics HUBのようなプラットフォームが役立ちます。

すべて読む