术语表

数据标签

了解数据标注在机器学习中的关键作用、其过程、挑战以及在人工智能开发中的实际应用。

数据标注是识别原始数据(如图像、文本文件或视频)并添加一个或多个信息标签或注释以提供上下文的过程,从而使机器学习模型能够从中学习。这一过程是有监督学习的基础,在有监督学习中,标签数据集是 "基本事实",算法利用它来训练自己对新的无标签数据进行准确预测。高质量的数据标注是构建强大人工智能模型最关键、最耗时的步骤之一,因为模型的性能直接取决于它所学习的标签的质量和准确性。

数据标签为何重要?

数据标签为模型理解和解释世界提供了必要的基础。在计算机视觉(CV)中,标签教会模型识别一个物体是什么以及它在图像中的位置。如果没有准确的标签,模型就无法学习执行任务所需的模式,从而导致准确性和可靠性低下。通过标注创建的训练数据的质量直接决定了最终人工智能的质量。这一原则通常被概括为 "垃圾进,垃圾出"。COCOImageNet等标注良好的基准数据集在推动计算机视觉技术发展方面发挥了重要作用。

计算机视觉中的数据标签类型

不同的简历任务需要不同类型的注释。最常见的方法包括

  • 图像分类最简单的形式,为整幅图像指定一个标签来描述其内容(如 "猫"、"狗")。您可以探索用于这项任务的数据集,如CIFAR-100
  • 物体检测包括在图像中感兴趣的每个物体周围画一个边框,并为其指定一个类别标签。这就告诉了模型这个物体是什么以及它在哪里。
  • 图像分割一种更细化的方法,涉及在像素级别勾勒出对象的确切形状。这种方法又可分为语义分割实例分割,前者是指同一类别的所有对象共享一个掩码,而后者则是指对每个单独的对象实例进行单独分割。
  • 姿势估计这种技术通过标注关键点来识别物体的位置和方向。例如,在人体姿态估计中,关键点将标记肘、膝和腕等关节。COCO 关键点数据集是这项任务的常用资源。

实际应用

  1. 自动驾驶汽车:数据标注对于训练自动驾驶汽车的感知系统至关重要。人类标注员对数以百万计的图像和视频帧进行细致标注,在汽车、行人和骑车人周围绘制边框,分割车道标记,并对交通标志进行分类。这些丰富的标注数据使Ultralytics YOLO11等模型能够学会在复杂的城市环境中安全导航。Waymo等公司所做的工作在很大程度上依赖于大量准确标注的数据集。您可以在我们的人工智能在汽车领域的应用解决方案页面了解更多有关该领域的信息。
  2. 医学图像分析:医疗保健领域的人工智能中,放射科医生和医学专家会对核磁共振成像、CT 和 X 射线等扫描图像进行标注,以识别肿瘤、病变和其他异常情况。例如,在脑肿瘤数据集上,专家会勾勒出肿瘤的准确边界。这些标记数据用于训练模型,帮助进行早期诊断,从而减少医疗专业人员的工作量,改善患者的治疗效果。北美放射学会(RSNA)积极探索人工智能在医疗诊断中的作用。

数据标签与相关概念

数据标注通常与其他数据准备任务同时进行,但必须将它们区分开来:

  • 数据扩充这种技术通过创建已标注数据的修改版本(如旋转、翻转或改变图像亮度),人为地扩展训练数据集。扩增增加了数据的多样性,但依赖于初始的标注数据集。数据扩增概述提供了更多细节。
  • 数据清理这一过程包括识别和纠正或删除数据集中的错误、不一致和不准确之处。虽然这可能包括修正错误的标签,但数据清理是一个质量保证步骤,而数据标签则是创建注释的初始行为。维基百科上的数据清理提供了进一步的背景信息。
  • 数据预处理这是一个更宽泛的统称,包括数据标注、清理和其他转换,如归一化或调整图像大小,以便为模型做好准备。标注是更大范围预处理管道中一个特定的关键步骤。

挑战与解决方案

尽管数据标注非常重要,但它也充满了挑战,包括高昂的成本、大量的时间投入以及人为错误或主观性的可能性。在庞大的标注者团队中确保标注质量和一致性是一个重大的后勤障碍。

为了简化这一过程,团队通常会使用CVAT等专业标注工具或Ultralytics HUB 等平台,它们为管理数据集和标注工作流程提供了一个协作环境。此外,主动学习(Active Learning)等先进技术也能提供帮助,智能地选择信息量最大的数据点进行标注,从而优化人工标注人员的时间和精力。斯坦福人工智能实验室的一篇文章详细指出,注重数据质量是人工智能取得成功的关键。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板