用語集

トレーニングデータ

AIにおける学習データの重要性をご覧ください。質の高いデータセットが、実世界のタスクに対して、いかに正確でロバストな機械学習モデルを生み出すかを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能(AI)や機械学習(ML)の分野では、学習データは、分類や予測などの特定のタスクを実行する方法をモデルに教えるために使用される基本的なデータセットである。学習データは多くの例から構成され、各例は通常、入力と対応する望ましい出力またはラベルをペアにしている。教師あり学習のようなプロセスを通じて、モデルはこのデータを分析し、基本的なパターンと関係を特定し、入力から出力へのマッピングを学習するために内部パラメータ(モデルの重み)を調整する。この学習により、モデルは新しい、以前は見られなかったデータが提示されたときに、正確な予測や決定を行うことができるようになる。

トレーニングデータとは何か?

学習データは、AIモデルの教科書であり、練習問題だと考えてほしい。学習データとは、学習段階で例として使用するために特別にフォーマットされた、注意深く管理された情報の集合である。例えば、物体検出のようなコンピュータビジョン(CV)のタスクでは、学習データは画像やビデオフレーム(入力特徴)と、画像内の物体の位置(バウンディングボックス)とクラスを指定する注釈(ラベル)から構成されます。これらのラベルの作成は、データラベリングとして知られる重要なステップです。モデルはこのデータを繰り返し処理し、予測値を真のラベルと比較し、バックプロパゲーションや 勾配降下のような技術を用いてパラメータを調整し、誤差や損失関数を最小化する。

トレーニングデータの重要性

AIモデルの性能と信頼性は、その学習データの質、量、多様性に直接結びついている。高い精度を達成し、実世界のシナリオにうまく汎化するモデルを構築するためには、高品質で代表的なデータが不可欠です(MLにおける汎化)。逆に、訓練データが不十分、ノイズが多い、または偏っている場合、パフォーマンスの低下、オーバーフィッティング(訓練データではうまくモデルが機能するが、新しいデータではうまく機能しない)、または固有のデータセットバイアスによる不公平で差別的な結果など、重大な問題につながる可能性があります。バイアスに対処することは、AI倫理の重要な側面である。したがって、綿密なデータ収集とアノテーション、そして準備は、成功するAIシステムを開発する上で重要な段階である。

実際のアプリケーションにおけるトレーニングデータの例

トレーニングデータは、様々な領域における無数のAIアプリケーションの燃料である。ここに2つの例がある:

  1. 自律走行車自動運転車は知覚システムのトレーニングデータに大きく依存している。このデータには、カメラ、LiDAR、レーダーセンサーからの膨大な量の映像が含まれ、他の車両、歩行者、自転車、信号、車線標識などのオブジェクトが綿密にラベル付けされている。ウェイモのテクノロジーで使用されているようなモデルは、複雑な環境を安全にナビゲートする方法を学習するために、Argoverseのようなデータセットでトレーニングされています。詳しくは、車載ソリューションのAIをご覧ください。
  2. センチメント分析 自然言語処理(NLP)において、センチメント分析モデルはテキストの背後にある感情のトーンを決定する。学習データは、「肯定的」、「否定的」、「中立的」などの感情でラベル付けされたテキストサンプル(カスタマーレビューやソーシャルメディアへの投稿など)で構成される(センチメント分析 - Wikipedia)。これにより、企業は世論や顧客満足度を自動的に測定することができる。

データの品質と準備

トレーニングデータの高い品質を確保することは最も重要であり、いくつかの重要なステップがある。データクリーニング(Wikipedia)は、エラー、不整合、欠損値に対処する。データ前処理(Data Preprocessing)は、生データをモデルに適した形式に変換する。データ補強(Data Augmentation)のような技術は、既存のデータの修正コピー(例えば、画像の回転や切り抜き)を作成することでデータセットを人工的に拡張し、モデルのロバスト性を向上させ、オーバーフィッティングを減らすのに役立つ。Ultralytics Datasets Explorerのようなツールによって促進される探索を通じてデータを理解することも、トレーニングプロセスを開始する前に非常に重要です。

トレーニングデータと検証およびテストデータの比較

典型的なMLプロジェクトでは、データは3つの異なるセットに分けられる:

信頼性の高いモデルを開発し、その能力を正確に評価するためには、これらのデータセットを厳密に分離することが不可欠です。Ultralytics HUBのようなプラットフォームは、モデル開発のライフサイクルを通じてこれらのデータセットを効果的に管理するためのツールを提供します。以下のような最先端のモデル Ultralytics YOLOのような最先端のモデルは、COCOや ImageNetのような大規模なベンチマークデータセットで事前にトレーニングされていることが多く、大規模なトレーニングデータとして機能します。

すべて読む