AIにおけるテストデータの重要性、モデルのパフォーマンスを評価し、オーバーフィッティングを検出し、実世界の信頼性を確保する上でのテストデータの役割をご覧ください。
テストデータは、機械学習(ML)開発のライフサイクルにおいて極めて重要な要素である。テストデータとは、トレーニングセットや検証セットとは別の独立したデータセットのことで、トレーニングやチューニングが完了した後、モデルの性能を最終的に評価するためだけに使用されます。このデータセットには、モデルがこれまでに遭遇したことのないデータポイントが含まれており、新しい実世界のデータに対してモデルがどの程度うまく機能するかを公平に評価することができる。テストデータを使用する主な目的は、モデルの汎化能力、つまり未知の入力に対して正確に実行する能力を推定することです。
MLモデルの成功の真の尺度は、明示的にトレーニングされていないデータを扱う能力にある。テストデータは、モデルのパフォーマンスを客観的に評価する最終チェックポイントとなる。専用のテストセットがないと、モデルがノイズや特定のパターンを含むトレーニングデータを学習しすぎて、新しいデータに汎化できないオーバーフィッティングのリスクが高くなります。テストデータを使用することで、報告されたパフォーマンス測定基準が、モデルの期待される実世界での能力を反映していることを確認し、モデルの展開前に信頼性を高めることができます。この最後の評価ステップは、YOLOv8 YOLOv9を比較するなど、異なるモデルやアプローチを確実に比較するために重要です。
効果的であるためには、テストデータは一定の特徴を持たなければならない:
MLで使われる他のデータ分割とテストデータを区別することは不可欠だ:
テストセットでの性能は、通常、タスクに関連するメトリクス、例えば、精度、正確度、リコール、F1スコア、またはオブジェクト検出の平均平均精度(mAP)を使用して測定されます。未見のテスト・データで計算されたこれらのメトリクスは、本番でのモデルのパフォーマンスを最も現実的に見積もることができます。これらのメトリクスの詳細については、YOLO Performance Metricsガイドをご覧ください。Ultralytics HUBのようなプラットフォームは、評価段階でのこれらのメトリクスの追跡を容易にします。モデルテストのベストプラクティスは、この最終評価ステップの重要性を強調しています。