用語集

データラベリング

機械学習におけるデータラベリングの重要な役割、そのプロセス、課題、AI開発における実際の応用例についてご紹介します。

データラベリングとは、生データ（画像、テキストファイル、ビデオなど）を識別し、1つ以上の有益なラベルや注釈を追加してコンテキストを提供し、機械学習モデルがそこから学習できるようにするプロセスである。このプロセスは教師あり学習の基本であり、ラベル付けされたデータセットは、アルゴリズムが新しいラベル付けされていないデータに対して正確な予測を行うための学習に使用する「グランドトゥルース」として機能する。モデルの性能は、学習するラベルの品質と精度に直接依存するため、高品質なデータのラベリングは、堅牢なAIモデルを構築する上で最も重要で時間のかかるステップの1つです。

なぜデータラベリングが重要なのか？

データのラベリングは、モデルが世界を理解し解釈するために必要な基礎を提供する。コンピュータビジョン（CV）では、ラベルは、オブジェクトが何であり、それが画像内のどこにあるかを認識するためにモデルに教える。正確なラベルがなければ、モデルはそのタスクを実行するために必要なパターンを学習できず、精度の低さや信頼性の低さにつながります。ラベリングによって作成される学習データの質は、結果として得られるAIの質を直接左右する。この原則は、しばしば "ガベージ・イン、ガベージ・アウト "と要約される。COCOや ImageNetのような十分にラベリングされたベンチマークデータセットは、コンピュータビジョンの最先端技術の発展に役立ってきた。

コンピュータ・ビジョンにおけるデータ・ラベリングの種類

CVのタスクによって、必要なアノテーションの種類は異なる。最も一般的な方法は以下の通り：

画像分類：最も単純な形式で、画像全体にその内容を表す単一のラベルを割り当てる（例：「猫」、「犬」）。CIFAR-100のようなこのタスクのためのデータセットを調べることができる。
オブジェクト検出：画像内の各オブジェクトの周囲にバウンディングボックスを描き、それにクラスラベルを割り当てる。これにより、オブジェクトが何であるか、どこにあるかがモデルに伝えられる。
画像分割：オブジェクトの正確な形状をピクセルレベルで輪郭を描く、より詳細な手法。セマンティック・セグメンテーション（同じクラスのオブジェクトはすべて1つのマスクを共有する）と、インスタンス・セグメンテーション（個々のオブジェクトのインスタンスは個別にセグメンテーションされる）に分けられる。
姿勢推定：この技法は、キーポイントに注釈を付けることで、オブジェクトの位置と向きを特定する。例えば、人間のポーズ推定では、キーポイントは肘、膝、手首などの関節をマークする。COCO Keypointsデータセットは、このタスクのための一般的なリソースです。

実世界での応用

自律走行車：データのラベリングは、自動運転車の知覚システムのトレーニングに不可欠である。人間のアノテーターは、何百万もの画像やビデオフレームに綿密なラベル付けを行い、車、歩行者、自転車の周囲にバウンディングボックスを描き、レーンマークを区分し、交通標識を分類します。この豊富でラベル付けされたデータにより、Ultralytics YOLO11のようなモデルは、複雑な都市環境を安全にナビゲートすることを学習することができる。ウェイモのような企業の仕事は、膨大で正確にラベル付けされたデータセットに大きく依存している。この分野の詳細については、当社の自動車向けAIソリューションのページをご覧ください。
医療画像解析： ヘルスケアにおけるAIでは、放射線科医や医療専門家がMRI、CT、X線などのスキャン画像にラベル付けを行い、腫瘍、病変、その他の異常を特定する。例えば、脳腫瘍のデータセットでは、専門家が腫瘍の正確な境界を概説する。このラベル付けされたデータは、早期診断を支援するモデルの訓練に使用され、医療従事者の作業負担を軽減し、患者の転帰を改善する可能性がある。北米放射線学会（RSNA）は、医療診断におけるAIの役割を積極的に探求している。