用語集

データラベリング

機械学習におけるデータラベリングの重要な役割、そのプロセス、課題、AI開発における実際の応用例についてご紹介します。

データラベリングとは、生データ(画像、テキストファイル、ビデオなど)を識別し、1つ以上の有益なラベルや注釈を追加してコンテキストを提供し、機械学習モデルがそこから学習できるようにするプロセスである。このプロセスは教師あり学習の基本であり、ラベル付けされたデータセットは、アルゴリズムが新しいラベル付けされていないデータに対して正確な予測を行うための学習に使用する「グランドトゥルース」として機能する。モデルの性能は、学習するラベルの品質と精度に直接依存するため、高品質なデータのラベリングは、堅牢なAIモデルを構築する上で最も重要で時間のかかるステップの1つです。

なぜデータラベリングが重要なのか?

データのラベリングは、モデルが世界を理解し解釈するために必要な基礎を提供する。コンピュータビジョン(CV)では、ラベルは、オブジェクトが何であり、それが画像内のどこにあるかを認識するためにモデルに教える。正確なラベルがなければ、モデルはそのタスクを実行するために必要なパターンを学習できず、精度の低さや信頼性の低さにつながります。ラベリングによって作成される学習データの質は、結果として得られるAIの質を直接左右する。この原則は、しばしば "ガベージ・イン、ガベージ・アウト "と要約される。COCOや ImageNetのような十分にラベリングされたベンチマークデータセットは、コンピュータビジョンの最先端技術の発展に役立ってきた。

コンピュータ・ビジョンにおけるデータ・ラベリングの種類

CVのタスクによって、必要なアノテーションの種類は異なる。最も一般的な方法は以下の通り:

  • 画像分類最も単純な形式で、画像全体にその内容を表す単一のラベルを割り当てる(例:「猫」、「犬」)。CIFAR-100のようなこのタスクのためのデータセットを調べることができる。
  • オブジェクト検出画像内の各オブジェクトの周囲にバウンディングボックスを描き、それにクラスラベルを割り当てる。これにより、オブジェクトが何であるか、どこにあるかがモデルに伝えられる。
  • 画像分割オブジェクトの正確な形状をピクセルレベルで輪郭を描く、より詳細な手法。セマンティック・セグメンテーション(同じクラスのオブジェクトはすべて1つのマスクを共有する)と、インスタンス・セグメンテーション(個々のオブジェクトのインスタンスは個別にセグメンテーションされる)に分けられる。
  • 姿勢推定この技法は、キーポイントに注釈を付けることで、オブジェクトの位置と向きを特定する。例えば、人間のポーズ推定では、キーポイントは肘、膝、手首などの関節をマークする。COCO Keypointsデータセットは、このタスクのための一般的なリソースです。

実世界での応用

  1. 自律走行車:データのラベリングは、自動運転車の知覚システムのトレーニングに不可欠である。人間のアノテーターは、何百万もの画像やビデオフレームに綿密なラベル付けを行い、車、歩行者、自転車の周囲にバウンディングボックスを描き、レーンマークを区分し、交通標識を分類します。この豊富でラベル付けされたデータにより、Ultralytics YOLO11のようなモデルは、複雑な都市環境を安全にナビゲートすることを学習することができる。ウェイモのような企業の仕事は、膨大で正確にラベル付けされたデータセットに大きく依存している。この分野の詳細については、当社の自動車向けAIソリューションのページをご覧ください。
  2. 医療画像解析: ヘルスケアにおけるAIでは、放射線科医や医療専門家がMRI、CT、X線などのスキャン画像にラベル付けを行い、腫瘍、病変、その他の異常を特定する。例えば、脳腫瘍のデータセットでは、専門家が腫瘍の正確な境界を概説する。このラベル付けされたデータは、早期診断を支援するモデルの訓練に使用され、医療従事者の作業負担を軽減し、患者の転帰を改善する可能性がある。北米放射線学会(RSNA)は、医療診断におけるAIの役割を積極的に探求している。

データラベリングと関連概念

データラベリングは他のデータ準備作業と並行して行われることが多いが、それらを区別することは重要である:

  • データ拡張この手法は、すでにラベル付けされたデータの修正版(画像の回転、反転、明るさの変更など)を作成することで、学習データセットを人為的に拡張する。オーグメンテーションはデータの多様性を高めるが、ラベル付けされたデータの初期セットに依存する。データ補強の概要で詳細を説明する。
  • データのクリーニングこのプロセスでは、データセットのエラー、矛盾、不正確さを特定し、修正または除去する。これには誤ったラベルの修正も含まれるが、データクリーニングは品質保証のステップであり、データラベリングは注釈を作成する最初の行為である。ウィキペディアのデータクレンジングは、さらなる文脈を提供している。
  • データの前処理これは、データのラベリング、クリーニング、および正規化や画像サイズの変更など、モデル用に準備するためのその他の変換を含む、より広い包括的な用語です。ラベリングは、より大きな前処理パイプラインの中の特定の重要なステップです。

課題と解決策

その重要性にもかかわらず、データラベリングには、高いコスト、多大な時間投資、ヒューマンエラーや主観性の可能性などの課題がつきまとう。大規模なアノテーターチーム全体でラベルの品質と一貫性を確保することは、ロジスティクス上の大きなハードルである。

このプロセスを合理化するために、チームはCVATのような専門的なアノテーションツールや、データセットとラベリングワークフローを管理するための共同作業環境を提供するUltralytics HUBのようなプラットフォームを使用することが多い。さらに、アクティブラーニングのような高度な技術は、最も有益なデータポイントをインテリジェントに選択してラベル付けすることで、人間のアノテーション担当者の時間と労力を最適化することができる。スタンフォードAIラボの記事で詳述されているように、データの質に焦点を当てることがAIを成功させる鍵である。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク