用語集

データラベリング

機械学習におけるデータラベリングの重要な役割、そのプロセス、課題、AI開発における実際の応用例についてご紹介します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データラベリングとは、画像、ビデオ、テキスト、オーディオなどの生データに、有益なタグや注釈を追加する重要なプロセスである。これらのラベルはコンテキストを提供し、機械学習(ML)モデルがデータを正確に理解・解釈できるようにする。教師あり学習では、ラベル付けされたデータは、モデルがパターンを識別し、将来の予測を行うために学習する、検証された正しい答えである「グランドトゥルース」として機能する。これらのラベルの品質と精度はモデルのパフォーマンスに直接影響するため、データのラベリングは、特にコンピュータ・ビジョン(CV)のような分野において、信頼性の高い人工知能(AI)システムを構築するための基本的なステップとなります。

データ・ラベリングの重要性

高品質のラベル付きデータは、MLプロジェクトを成功させるための基盤である。次のようなモデル Ultralytics YOLOのようなモデルは、効果的なトレーニングのために正確にラベル付けされたデータセットに大きく依存します。一貫性のないラベルや不正確なラベルは、実世界のシナリオにおいてパフォーマンスの低い、信頼性の低い予測を行うモデルにつながる可能性があります。ラベル付けを含むデータ準備は、AIプロジェクトに費やされる時間の大部分を占めることが多く、その重要な役割が浮き彫りになっている。Anaconda State of Data Scienceレポートのように、データ準備がデータサイエンティストの時間の大部分を消費していることを示すレポートもある。

データ・ラベリング・プロセス

データにラベルを付けるプロセスには、通常いくつかの段階がある:

  1. データ収集:ラベリングが必要な生データ(画像、ビデオなど)を収集すること。
  2. ガイドラインの定義:一貫性を確保するために、ラベルの適用方法について明確な指示と基準を設けること。
  3. 注釈:専用のツールを使って、定義されたガイドラインに従ってデータにラベルを付けること。これはしばしばデータ注釈と呼ばれる。
  4. 品質保証(QA):ラベル付けされたデータをレビューし、正確性、一貫性、ガイドラインへの準拠を確認すること。

実践的なステップの詳細については、「Ultralytics データ収集とアノテーションガイド」を参照してください。

コンピュータ・ビジョンにおけるデータ・ラベリングの種類

CVのタスクによって必要なラベルの種類は異なる:

  • バウンディングボックス: オブジェクト検出のために、関心のあるオブジェクトの周囲に矩形を描く。
  • ポリゴン/マスク: 画像セグメンテーションのために、ピクセルレベルでオブジェクトの正確な形状をアウトライン化します。
  • キーポイント: 姿勢推定のために、オブジェクト上の特定のポイント(人体の関節など)をマークすること。
  • 分類タグ:画像全体に1つのラベルを付けて、その内容を分類すること。

アプリケーションと実例

データ・ラベリングは、様々な分野における数多くのAIアプリケーションを後押ししている:

  • ヘルスケア医療画像(The Cancer Imaging Archive (TCIA)などのリソースにあるX線やMRIなど)にラベル付けして、病気や異常を検出するモデルをトレーニングする。詳しくはAI in Healthcareをご覧ください。
  • 自律走行車: Waymo Open Datasetのようなデータセットからセンサーデータ(カメラ画像、LiDARポイントクラウド)に注釈を付け、自動運転車に歩行者、車両、交通標識の認識を教える。自動車におけるAIを探る。
  • 小売業棚に並んだ商品に画像でタグ付けし、在庫管理の自動化や顧客行動の分析を行う。
  • 農業農作物の画像にラベルを貼り、健康状態の監視、病気の検出、収穫量の推定を行う。

関連概念

データラベリングは、MLの他の重要な概念と密接に関係している:

  • データ増強:既存のデータに変形(回転や明るさの変化など)を加えることで、ラベル付けされたデータセットのサイズと多様性を人為的に増加させる技術。詳細はデータ増強の概要を参照。
  • データの前処理:ラベル付けやトレーニングに使用する前に、生データをクリーニング、フォーマット、準備するステップ。
  • 教師あり学習:教師なし学習や強化学習とは対照的に、ラベル付けされたデータに依存してモデルを学習するMLのパラダイム。ウィキペディアの教師あり学習のページで詳細を読むことができる。

データラベリングの課題

その重要性にもかかわらず、データラベリングには課題がある:

  • コストと時間:大規模なデータセットのラベリングには、費用と時間がかかり、多くの場合、多大な人的労力を必要とする。
  • 品質管理:ラベル間の高い精度と一貫性を確保することは難しいが、モデルのパフォーマンスにとって極めて重要である。高いデータ品質を維持することが最も重要です。
  • 主観性:タスクによっては主観的な判断が必要となり、ラベラー間で矛盾が生じる可能性がある。
  • スケーラビリティ:非常に大規模なデータセットに対するラベリング操作の管理とスケーリングは複雑です。

能動学習のような技術は、ウィキペディアの能動学習のページで説明されているように、最も情報量の多いデータ点をインテリジェントに選択して最初にラベル付けすることで、ラベリングの負担を軽減することを目的としている。

ツールとプラットフォーム

様々なツールがデータラベリングプロセスの合理化に役立ちます。Ultralytics HUBは、コンピュータビジョンタスク用に設計された統合データセット管理とラベリング機能を提供する。その他の人気のあるオープンソースや商用プラットフォームには、Label Studioや CVAT (Computer Vision Annotation Tool)があります。

すべて読む