Yolo 深圳
深セン
今すぐ参加
用語集

学習データ

トレーニングデータがAIモデルを駆動する仕組みを学びましょう。データ調達、アノテーション、そしてコンピュータービジョンタスクで優れた精度Ultralytics トレーニング方法を探求します。

トレーニングデータは、機械学習モデルにパターン認識、予測、または特定のタスクの実行方法を教えるために使用される初期データセットである。これは人工知能システムの基礎となる教科書として機能し、アルゴリズムが内部パラメータを調整するために分析する真値を提供する。教師あり学習の文脈では、トレーニングデータは入力サンプルと対応する出力ラベルのペアで構成され、モデルが両者の関係を学習することを可能にする。 このデータの質、量、多様性は、モデルの最終的な精度と、新規かつ未見の情報への汎化能力に直接影響を与えます。

AIにおけるトレーニングデータの役割

トレーニングデータの主な機能は、モデルの予測と実際の結果との誤差を最小化することである。モデル学習プロセスにおいて、アルゴリズムはデータを反復処理し、画像内のエッジや文中のキーワードなど、特定のラベルと相関する特徴を識別する。このプロセスは、学習中のハイパーパラメータ調整に用いられる検証データや、モデルの性能を最終評価するために確保されるテストデータとは異なる。

高品質なトレーニングデータは、モデルが遭遇する現実世界のシナリオを代表していなければならない。データセットに偏りがある場合や多様性に欠ける場合、モデルは過学習に陥る可能性がある。過学習では、モデルはトレーニング例を記憶するが、新しい入力に対して良好な性能を発揮できない。逆に、データが単純すぎる場合や不十分な場合、モデルが根本的なパターンを捉えられないため、過学習不足が発生する。

実際のアプリケーション

トレーニングデータは、システムが過去の事例から学習することを可能にすることで、事実上あらゆる産業におけるイノベーションを推進する。

  • 医療におけるAI 医療診断分野では、トレーニングデータは数千枚のX線画像で構成され、それらは「正常」または肺炎などの特定の病変を含むものとラベル付けされる。 Ultralytics モデルは、こうしたラベル付き例を処理することで、 潜在的な異常を高精度でハイライト表示し、放射線科医を支援することを学習できる。これにより診断時間が大幅に短縮される。
  • 自動運転車 自動運転車は、数百万マイルに及ぶ走行映像を含む膨大なデータセットに依存しています。この訓練データには、歩行者、交通標識、他の車両、車線マーカーを示す注釈付きフレームが含まれます。Waymo Open DatasetやnuScenesなどの包括的なライブラリから取得されたこの情報は、車両の知覚システムに複雑な環境を安全に走行する方法を教えます。

データの調達と管理

堅牢なトレーニングデータの取得は、機械学習プロジェクトにおいて最も困難な部分であることが多い。データGoogle Searchなどの公開リポジトリや、 COCO などの専門コレクションから入手できます。 しかし、生のデータは精度を確保するために、 慎重なデータクリーニング とアノテーションを 必要とする場合が多いです。

Ultralytics ツールは、このワークフローを効率化し、 データセットのアップロード、ラベリング、管理を統合環境で提供します。効果的な管理には データ拡張も含まれます。これは既存の画像に変換(反転、回転、色調整など)を適用し、 訓練セットのサイズを人工的に増大させる技術です。これによりモデルは入力データの変動に対してより頑健になります。

YOLO26を用いた実践例

Python 、を使用してトレーニングを開始する方法を示しています。 ultralytics ライブラリ。ここでは、 事前学習済み YOLO26 モデルは、 COCO8トレーニングパイプラインの検証用に設計された 小さなデータセット。

from ultralytics import YOLO

# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

データ品質の重要性

「ゴミを入れればゴミが出る」という格言は機械学習の根幹をなす。トランスフォーマーや 深層畳み込みニューラルネットワーク(CNN)といった最も洗練されたアーキテクチャでさえ、質の低い訓練データを補うことはできない。ラベルノイズ(真のラベルが誤っている状態)のような問題は、性能を著しく低下させる。 したがって、データセットの完全性を維持するには、 多くの場合ヒューマン・イン・ザ・ループ検証を伴う 厳格な品質保証プロセスが不可欠である。

さらに、AI倫理の原則を遵守するには、 トレーニングデータに人口統計学的または社会経済的バイアスがないか精査することが必要です。 AIの公平性を確保するには、 均衡が取れ代表性のあるトレーニングデータセットから始めることが重要であり、 これにより導入されたアプリケーションにおける差別的な結果を防止できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加