機械学習のためのデータラベリングの基礎を学びましょう。物体検出などの主要な種類や、Ultralytics を使用してワークフローを加速する方法を発見してください。
データラベリングとは、画像、動画フレーム、テキスト、音声などの生データを識別し、 文脈を提供する情報タグやメタデータを付加する基礎的なプロセスである。機械学習(ML)の領域では、 アルゴリズムは本質的に物理世界を理解できず、「教師」による指導を必要とする。この指導は、 教師あり学習で使用されるラベル付きデータセットの形で提供される。 ラベルは モデルの予測目標となる正解値である 真値(ground truth)として機能します。単純な分類器から Ultralytics 複雑なアーキテクチャの訓練に至るまで、 これらのラベルの正確性、一貫性、品質が モデルの成功を左右する主要な決定要因となります。
日常会話ではこれらの用語がしばしば混同されるが、微妙な違いに留意する価値がある。 「データラベリング」は一般的に、データにカテゴリやタグを割り当てる広範な行為を指す(例: メールを「スパム」としてタグ付けする)。 一方、 データアノテーションはより具体的に コンピュータビジョン(CV)分野に限定され、 バウンディングボックス、ポリゴン、キーポイントを用いた 物体の精密な境界設定を伴います。ただし、 ほとんどの機械学習運用(MLOps)ワークフローにおいては、 両用語とも高品質なトレーニングデータの 作成を指す場合があります。
モデルの遂行すべきタスクに基づいて、ラベリング手法は変化します。一般的な種類には以下が含まれます:
データラベリングの有用性は、AIを採用するほぼすべての業界に及んでいる。
ラベル付きデータセットの作成は、AIプロジェクトにおいて最も時間のかかる工程であることが多い。このプロセスでは通常、「ヒューマン・イン・ザ・ループ」(HITL)アプローチが採用され、人間のアノテーターがラベルを検証して高い精度を確保する。 現代的なワークフローでは、Ultralytics ツールを活用し、 データセット管理を簡素化するとともに、チームによるアノテーションの共同作業を可能にします。 アクティブラーニングのような高度な技術も採用可能で、 モデルがデータを事前ラベル付けし、人間は信頼度の低い予測のみを修正するため、 プロセスを大幅に加速させることができます。
以下の例は、事前学習済みYOLO26モデルを使用して新しい画像に対して自動的にラベルを生成する方法を示しています (自動ラベリング)。生成されたラベルはその後、人間によって修正することができます:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")