术语表

数据标签

了解数据标注在机器学习中的关键作用、其过程、挑战以及在人工智能开发中的实际应用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据标签是为原始数据(如图像、视频、文本或音频)添加信息标签或注释的重要过程。这些标签提供了上下文,使机器学习(ML)模型能够准确地理解和解释数据。在监督学习中,标注数据是 "基本事实",是经过验证的正确答案,模型通过学习这些答案来识别模式并进行未来预测。这些标签的质量和准确性直接影响模型的性能,因此数据标签是构建可靠的人工智能(AI)系统的基本步骤,尤其是在计算机视觉(CV)等领域。

数据标签的重要性

高质量的标注数据是成功的 ML 项目的基石。像 Ultralytics YOLO等模型在很大程度上依赖于准确标注的数据集进行有效训练。不一致或不正确的标签会导致模型表现不佳,并在实际场景中做出不可靠的预测。包括标注在内的数据准备工作通常占人工智能项目投入时间的很大一部分,凸显了其关键作用。Anaconda 数据科学现状报告等一些报告指出,数据准备耗费了数据科学家的大部分时间。

数据标签流程

标注数据的过程通常包括几个阶段:

  1. 数据收集:收集需要标注的原始数据(图像、视频等)。
  2. 准则定义:为如何使用标签制定明确的说明和标准,以确保一致性。
  3. 注释:使用专用工具,根据定义的准则为数据添加标签。这通常被称为数据注释
  4. 质量保证 (QA):审查标注数据,以验证其准确性、一致性和是否符合准则。

要深入了解实际步骤,请参阅《Ultralytics 数据收集和注释指南》。

计算机视觉中的数据标签类型

不同的简历任务需要不同类型的标签:

  • 边框在感兴趣的物体周围绘制矩形,用于物体检测
  • 多边形/遮罩在像素级别勾勒出物体的精确形状,用于图像分割
  • 关键点:标记物体上的特定点(如人体关节),用于姿势估计
  • 分类标签:为整幅图像指定一个标签,对其内容进行分类。

应用和实际案例

数据标签为各行各业的众多人工智能应用提供了动力:

  • 医疗保健:标记医学图像(如来自癌症成像档案(TCIA)等资源的 X 光片或核磁共振成像),以训练检测疾病或异常的模型。更多信息,请访问人工智能在医疗保健领域的应用。
  • 自动驾驶汽车:Waymo 开放数据集等数据集中的传感器数据(摄像头图像、激光雷达点云)进行注释,教自动驾驶汽车感知行人、车辆和交通标志。探索汽车领域的人工智能
  • 零售:用图像标记货架上的产品,实现库存管理自动化或分析客户行为。
  • 农业:为农作物图像贴标签,以监测健康状况、检测疾病或估计产量。

相关概念

数据标记与其他关键的 ML 概念密切相关:

  • 数据增强:通过对现有数据进行转换(如旋转或亮度变化),人为增加标注数据集的大小和多样性的技术。更多详情,请参阅数据扩增概述
  • 数据预处理: 对原始数据进行标记或用于训练之前,对其进行清理、格式化和准备的步骤。
  • 监督学习:依赖标记数据来训练模型的 ML 范式,与无监督学习或强化学习形成鲜明对比。你可以在维基百科的监督学习页面上了解更多相关信息。

数据标签的挑战

尽管数据标签非常重要,但它也带来了挑战:

  • 成本和时间:为大型数据集添加标签既昂贵又耗时,通常需要大量人力。
  • 质量控制:确保各标签的高准确性和一致性非常困难,但对模型性能至关重要。保持数据的高质量至关重要。
  • 主观性:有些任务需要主观判断,这可能导致贴标者之间的不一致。
  • 可扩展性:管理和扩展超大数据集的标注操作非常复杂。

主动学习(Active Learning)等技术旨在通过智能选择信息量最大的数据点先进行标注,减轻标注负担,从而减少整体工作量,维基百科的 "主动学习 "页面对此进行了解释。

工具和平台

各种工具有助于简化数据标注过程。Ultralytics HUB为计算机视觉任务提供集成的数据集管理和标注功能。其他流行的开源和商业平台包括Label StudioCVAT(计算机视觉标注工具)

阅读全部