用語集

テストデータ

AIにおけるテストデータの重要性、モデルのパフォーマンスを評価し、オーバーフィッティングを検出し、実世界の信頼性を確保する上でのテストデータの役割をご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

テストデータは、機械学習(ML)開発のライフサイクルにおいて極めて重要な要素である。テストデータとは、トレーニングセットや検証セットとは別の独立したデータセットのことで、トレーニングやチューニングが完了した後、モデルの性能を最終的に評価するためだけに使用されます。このデータセットには、モデルがこれまでに遭遇したことのないデータポイントが含まれており、新しい実世界のデータに対してモデルがどの程度うまく機能するかを公平に評価することができる。テストデータを使用する主な目的は、モデルの汎化能力、つまり未知の入力に対して正確に実行する能力を推定することです。

テストデータの重要性

MLモデルの成功の真の尺度は、明示的にトレーニングされていないデータを扱う能力にある。テストデータは、モデルのパフォーマンスを客観的に評価する最終チェックポイントとなる。専用のテストセットがないと、モデルがノイズや特定のパターンを含むトレーニングデータを学習しすぎて、新しいデータに汎化できないオーバーフィッティングのリスクが高くなります。テストデータを使用することで、報告されたパフォーマンス測定基準が、モデルの期待される実世界での能力を反映していることを確認し、モデルの展開前に信頼性を高めることができます。この最後の評価ステップは、YOLOv8 YOLOv9を比較するなど、異なるモデルやアプローチを確実に比較するために重要です。

主な特徴

効果的であるためには、テストデータは一定の特徴を持たなければならない:

  • 独立性:訓練や検証に使用されるデータとは厳密に分離されていなければならない。モデルは、トレーニングやハイパーパラメータ・チューニングのプロセスのどの部分においても、テスト・データを決して見てはならない。
  • 代表性:モデルが本番で遭遇する実世界データの特性や分布を正確に反映する必要がある。これには、類似したタイプの入力、バリエーション、潜在的なエッジケースなどが含まれる。データ収集とアノテーションのベストプラクティスは、ここで重要です。
  • 十分なサイズ:トレーニングセットより小さいことが多いが、テストセットは統計的に有意な評価結果を出すのに十分な大きさが必要である。GoogleMLルールで強調されているように、不十分なサイズは信頼性の低いパフォーマンス推定につながる可能性がある。

テストデータとトレーニングおよび検証データの比較

MLで使われる他のデータ分割とテストデータを区別することは不可欠だ:

  • トレーニングデータこれはデータセットの最も大きな部分であり、モデルの内部パラメータまたは重みを調整することによってモデルを訓練するために直接使用される。
  • 検証データこの別個のサブセットは、モデルのハイパーパラメータ(学習率やネットワーク・アーキテクチャの選択など)を調整し、学習プロセス自体に関する決定(早期停止など)を行うために、学習プロセス中に使用される。パラメータ更新時には見えないが、ハイパーパラメータ選択を通じて間接的に最終モデルに影響を与える。詳細は、モデル評価とファインチューニングのガイドをご覧ください。
  • テストデータ:このデータセットは、モデルが完全にトレーニングされチューニングされた後に一度だけ使用され、最終的な公平な性能評価を提供する。トレーニングやチューニングの決定に影響を与えるべきではありません。COCOのような標準的なベンチマークデータセットには、標準化された評価のためにあらかじめ定義されたテスト分割が付属していることが多い。

実例

  1. 自律走行:自動運転 Ultralytics YOLO物体検出(車、歩行者、信号機の検出)のために訓練されたモデルは、訓練セットや検証セットに含まれていない条件(天候、時間帯、場所)で記録された道路映像のテストセットを使用して評価される。これにより、自動運転車のAIにとって極めて重要な、多様な実走行シナリオにおけるモデルの信頼性が保証される。
  2. 医療診断: 脳腫瘍検出データセットのようなデータセットを使ってX線から腫瘍を検出するような、医療画像解析用に開発されたモデルは、トレーニングや検証に使われたものとは異なる病院やスキャナーの全く新しい患者画像セットでテストされる。これにより、臨床研究におけるAIの役割で述べたように、潜在的な臨床使用の前に診断精度が確認される。

テストデータでのパフォーマンス評価

テストセットでの性能は、通常、タスクに関連するメトリクス、例えば、精度正確度リコールF1スコア、またはオブジェクト検出の平均平均精度(mAP)を使用して測定されます。未見のテスト・データで計算されたこれらのメトリクスは、本番でのモデルのパフォーマンスを最も現実的に見積もることができます。これらのメトリクスの詳細については、YOLO Performance Metricsガイドをご覧ください。Ultralytics HUBのようなプラットフォームは、評価段階でのこれらのメトリクスの追跡を容易にします。モデルテストのベストプラクティスは、この最終評価ステップの重要性を強調しています。

すべて読む