学習データは教師あり機械学習の基礎であり、モデルが正確な予測を行うために学習する基礎を提供する。学習データは入力例の集合から成り、各例は対応する望ましい出力と対になっており、"ground truth "または "label "として知られている。このラベル付けされたデータを分析することで、機械学習アルゴリズムはパターンと関係を特定し、新しい未知のデータに対して一般化し予測を行うことを可能にする。学習データの質、サイズ、代表性は、学習済みモデルの性能と信頼性に大きく影響する。
ロバストで正確な機械学習モデルを構築するためには、高品質の学習データが不可欠である。データは、モデルが遭遇する実世界のシナリオを代表するものでなければならず、幅広いバリエーションとエッジケースをカバーする必要がある。多様で包括的なデータセットは、モデルがデータ内の基本的なパターンと関係を学習するのに役立ち、未知のデータに対するより良い一般化とパフォーマンスにつながります。トレーニングデータが不十分であったり、偏っていたりすると、実世界のアプリケーションでパフォーマンスが低下したり、不公平な挙動や差別的な挙動を示すモデルになる可能性があります。
トレーニングデータの有効性にはいくつかの要因がある:
学習データを、機械学習で使われる他のタイプのデータと区別することは重要だ:
トレーニングデータは、様々な業界の幅広い実アプリケーションで使用されています。具体的な例を2つご紹介します:
自動運転車は、複雑な実環境でのナビゲーションや意思決定の方法を学習するために、学習データに大きく依存している。このようなシステムの学習データには、通常、カメラ、ライダー、レーダーからの画像やセンサーデータと、歩行者、車両、交通標識などの物体の存在や位置を示す対応するラベルが含まれる。膨大な量の多様かつ代表的なデータでトレーニングを行うことで、自律走行モデルは周囲の状況を正確に認識し、安全な運転判断を行うことを学習することができる。詳しくは、自動運転車におけるビジョンAIの役割をご覧ください。
医療診断用のAIモデルを開発する上で、トレーニングデータは重要な役割を果たす。例えば、医療画像診断の分野では、X線、CTスキャン、MRI画像からがんなどの病気を検出するモデルを学習させることができる。このようなモデルの学習データは、腫瘍やその他の異常の存在や位置を示す、専門の放射線科医によってラベル付けされた医療画像から構成される。ラベル付けされた医用画像の大規模なデータセットから学習することで、AIモデルは医師がより迅速で正確な診断を下すのを支援することができる。ヘルスケアにおけるAIの応用についてもっと知る。
Ultralytics YOLO (You Only Look Once)モデルは、卓越した性能を達成するために高品質な学習データに依存する最先端の物体検出モデルです。これらのモデルは、各画像内のオブジェクトの位置とクラスを示す、対応するバウンディングボックスの注釈が付いた画像の大規模なデータセットで学習されます。YOLOv3 から YOLOv10、NAS、SAM 、RT-DETR を含む、 Ultralytics でサポートされているさまざまなモデルを、検出、セグメンテーションなどにご活用ください。
Ultralytics は、データセットの管理とカスタムモデルのトレーニングのためのユーザーフレンドリーなプラットフォーム、Ultralytics HUBを提供している。ユーザーは独自のデータセットをアップロードしたり、COCOのような様々な既存のデータセットから選んでモデルをトレーニングすることができる。 Ultralytics YOLO を使ったカスタムデータセットのトレーニングについては、Google Colabで詳細をご覧ください。このプラットフォームは、データ可視化、モデル評価、デプロイメント用のツールも提供し、高性能な物体検出モデルの構築とデプロイメントを容易にします。
Ultralytics ドキュメントには、データセットのフォーマット、モデルのトレーニング、パフォーマンス・メトリクスに関する広範なリソースが用意されており、ユーザーはトレーニング・データを特定のアプリケーションに効果的に活用することができます。