用語集

トレーニングデータ

AIにおける学習データの重要性をご覧ください。質の高いデータセットが、実世界のタスクに対して、いかに正確でロバストな機械学習モデルを生み出すかを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能(AI)や機械学習の分野では、学習データはモデルにタスクを実行する方法を教えるために使用される不可欠な要素である。学習データは、多数の例を含むデータセットで構成され、各例は入力とその望ましい出力またはラベルをペアにしている。通常、教師あり学習アルゴリズムによってこのデータを処理することで、モデルはパターン、関係、特徴を識別することを学習し、新しい未知のデータに対して予測や決定を行うことができるようになる。

トレーニングデータとは何か?

学習データは、AIモデルの教材として機能する。これは、学習プロセスの例として機能するように特別にフォーマットされた、精選された情報のコレクションである。例えば、物体検出のようなコンピュータビジョンのタスクでは、学習データは画像やビデオフレーム(入力特徴)と、その中の物体の位置やクラスを示す注釈(ラベル)から構成される。これらのラベルを作成するプロセスはデータラベリングとして知られている。モデルはこのデータに基づいて内部パラメータを反復的に調整し、予測値と提供されたラベルの差を最小化する。

トレーニングデータの重要性

学習データの質、量、多様性は、モデルの性能と実世界のシナリオに汎化する能力を直接決定する(MLにおける汎化)。高品質で代表的なデータは、ロバストで高い精度を達成するモデルの構築に役立ちます。データが不十分であったり、偏っていたりすると、パフォーマンスが低下したり、オーバーフィッティング(モデルは訓練データをうまく学習しすぎるが、新しいデータでは失敗する)したり、データセットバイアス(Dataset Bias)により不公平な結果になったりします。したがって、トレーニング・データを注意深く収集し準備することは、あらゆるAIプロジェクトにおいて重要なステップです。

実際のアプリケーションにおけるトレーニングデータの例

トレーニング・データは、数え切れないほどのAIアプリケーションの原動力となっている。ここに2つの例がある:

  1. 自律走行車:モデル Ultralytics YOLO自動運転車のAIで使用されるUltralytics YOLOのようなモデルは、様々な走行状況の画像やセンサーデータを含む膨大なデータセットで学習される。このデータは、車両、歩行者、自転車、信号機などのオブジェクトのバウンディングボックスやセグメンテーションマスクで綿密にラベル付けされ、多くの場合、COCOデータセットのような大規模な公開データセットを使用する。
  2. 自然言語処理: センチメント分析(ウィキペディア)のようなタスクでは、学習データは、「肯定的」、「否定的」、「中立的」のようなセンチメントでラベル付けされたテキストサンプル(製品レビュー、ソーシャルメディアへの投稿など)で構成される。モデルは、これらの感情ラベルに言語パターンを関連付けることを学習します。

データの品質と準備

高品質のトレーニングデータを確保するには、いくつかの重要なプロセスがある:

  • データ収集:問題領域を正確に反映する関連データの収集。
  • データクリーニング(ウィキペディア)データセット内のエラー、矛盾、欠損値を特定し、修正すること。
  • データのラベリング:データに正しい出力やターゲットを正確に注釈すること。
  • データの拡張モデルのロバスト性を向上させるために、既存データの修正コピー(画像の回転、明るさの変更など)を作成し、データセットを人為的に拡張すること。

トレーニングデータと検証およびテストデータの比較

一緒に論じられることも多いが、これらのデータセットはそれぞれ異なる目的をもっている:

  • トレーニングデータ:モデルのパラメータ(重み)を調整してモデルを訓練するために使用する。
  • 検証データテストセットからのバイアスを導入することなく、未知のデータ上でのモデルのパフォーマンスを評価し、ハイパーパラメータをチューニングする(ハイパーパラメータ最適化(Wikipedia))ために、トレーニング中に定期的に使用される。
  • テストデータモデルのトレーニングが完了した後にのみ使用され、全く新しいデータに対するモデルのパフォーマンスを最終的かつ公平に評価する。

これらのデータセットを適切に分離することは、信頼性の高いモデルを開発し、実世界の能力を正確に評価するために極めて重要です。Ultralytics HUBのようなプラットフォームは、モデル開発のライフサイクルにおいて、これらのデータセットを効果的に管理するのに役立ちます。

すべて読む