用語集

トレーニングデータ

機械学習における学習データの重要性、その重要な要素、そしてUltralytics YOLO が最先端のAIモデルのためにどのように学習データを活用しているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

学習データは教師あり機械学習の基礎であり、モデルが正確な予測を行うために学習する基礎を提供する。学習データは入力例の集合から成り、各例は対応する望ましい出力と対になっており、"ground truth "または "label "として知られている。このラベル付けされたデータを分析することで、機械学習アルゴリズムはパターンと関係を特定し、新しい未知のデータに対して一般化し予測を行うことを可能にする。学習データの質、サイズ、代表性は、学習済みモデルの性能と信頼性に大きく影響する。

トレーニングデータの重要性

ロバストで正確な機械学習モデルを構築するためには、高品質の学習データが不可欠である。データは、モデルが遭遇する実世界のシナリオを代表するものでなければならず、幅広いバリエーションとエッジケースをカバーする必要がある。多様で包括的なデータセットは、モデルがデータ内の基本的なパターンと関係を学習するのに役立ち、未知のデータに対するより良い一般化とパフォーマンスにつながります。トレーニングデータが不十分であったり、偏っていたりすると、実世界のアプリケーションでパフォーマンスが低下したり、不公平な挙動や差別的な挙動を示すモデルになる可能性があります。

トレーニング・データに関する主な考慮事項

トレーニングデータの有効性にはいくつかの要因がある:

  • データの質:正確で一貫性があり、適切にラベル付けされたデータは極めて重要である。データに誤りや矛盾があると、モデルが誤ったパターンを学習する可能性がある。
  • データ量:モデルがより複雑なパターンを学習できるようになるため、一般的にデータ量が多いほどモデルの性能は向上する。しかし、データの質を犠牲にして量を増やすべきではありません。
  • データの関連性:学習データは、モデルが学習する特定のタスクに関連したものでなければならない。無関係なデータを含めると、ノイズが発生し、モデルが望ましいパターンを学習する妨げになる。
  • データの多様性:幅広いシナリオ、バリエーション、エッジケースをカバーする多様なデータセットは、モデルが新しい未知のデータに対してより良く一般化するのに役立つ。
  • データのバランス:分類タスクでは、訓練データにおいて各クラスをバランスよく表現することが重要です。データのバランスが悪いと、偏ったモデルになってしまい、代表度の低いクラスではパフォーマンスが低下します。データの不均衡への対処については、Ultralytics ブログをご覧ください。

トレーニングデータと関連用語の比較

学習データを、機械学習で使われる他のタイプのデータと区別することは重要だ:

  • 検証データ: 検証データは、モデルのハイパーパラメータを微調整し、トレーニング中のパフォーマンスを評価するために使用されます。これは、未知のデータに対するモデルの性能の不偏推定値を提供することで、オーバーフィッティングを防ぐのに役立ちます。
  • テストデータ: テストデータは、学習済みモデルの最終的な性能を評価するために使用される。テストデータは訓練データおよび検証データから完全に独立しており、新しい未知のデータに対するモデルの性能の不偏推定値を提供する。

トレーニングデータの実世界での応用

トレーニングデータは、様々な業界の幅広い実アプリケーションで使用されています。具体的な例を2つご紹介します:

自律走行車

自動運転車は、複雑な実環境でのナビゲーションや意思決定の方法を学習するために、学習データに大きく依存している。このようなシステムの学習データには、通常、カメラ、ライダー、レーダーからの画像やセンサーデータと、歩行者、車両、交通標識などの物体の存在や位置を示す対応するラベルが含まれる。膨大な量の多様かつ代表的なデータでトレーニングを行うことで、自律走行モデルは周囲の状況を正確に認識し、安全な運転判断を行うことを学習することができる。詳しくは、自動運転車におけるビジョンAIの役割をご覧ください。

医療診断

医療診断用のAIモデルを開発する上で、トレーニングデータは重要な役割を果たす。例えば、医療画像診断の分野では、X線、CTスキャン、MRI画像からがんなどの病気を検出するモデルを学習させることができる。このようなモデルの学習データは、腫瘍やその他の異常の存在や位置を示す、専門の放射線科医によってラベル付けされた医療画像から構成される。ラベル付けされた医用画像の大規模なデータセットから学習することで、AIモデルは医師がより迅速で正確な診断を下すのを支援することができる。ヘルスケアにおけるAIの応用についてもっと知る。

トレーニングデータUltralytics YOLO

Ultralytics YOLO (You Only Look Once)モデルは、卓越した性能を達成するために高品質な学習データに依存する最先端の物体検出モデルです。これらのモデルは、各画像内のオブジェクトの位置とクラスを示す、対応するバウンディングボックスの注釈が付いた画像の大規模なデータセットで学習されます。YOLOv3 から YOLOv10、NAS、SAM 、RT-DETR を含む、 Ultralytics でサポートされているさまざまなモデルを、検出、セグメンテーションなどにご活用ください。

Ultralytics は、データセットの管理とカスタムモデルのトレーニングのためのユーザーフレンドリーなプラットフォーム、Ultralytics HUBを提供している。ユーザーは独自のデータセットをアップロードしたり、COCOのような様々な既存のデータセットから選んでモデルをトレーニングすることができる。 Ultralytics YOLO を使ったカスタムデータセットのトレーニングについては、Google Colabで詳細をご覧ください。このプラットフォームは、データ可視化、モデル評価、デプロイメント用のツールも提供し、高性能な物体検出モデルの構築とデプロイメントを容易にします。

Ultralytics ドキュメントには、データセットのフォーマットモデルのトレーニングパフォーマンス・メトリクスに関する広範なリソースが用意されており、ユーザーはトレーニング・データを特定のアプリケーションに効果的に活用することができます。

すべて読む