了解数据标注在机器学习中的关键作用、其过程、挑战以及在人工智能开发中的实际应用。
数据标签是为原始数据(如图像、视频、文本或音频)添加信息标签或注释的重要过程。这些标签提供了上下文,使机器学习(ML)模型能够准确地理解和解释数据。在监督学习中,标注数据是 "基本事实",是经过验证的正确答案,模型通过学习这些答案来识别模式并进行未来预测。这些标签的质量和准确性直接影响模型的性能,因此数据标签是构建可靠的人工智能(AI)系统的基本步骤,尤其是在计算机视觉(CV)等领域。
高质量的标注数据是成功的 ML 项目的基石。像 Ultralytics YOLO等模型在很大程度上依赖于准确标注的数据集进行有效训练。不一致或不正确的标签会导致模型表现不佳,并在实际场景中做出不可靠的预测。包括标注在内的数据准备工作通常占人工智能项目投入时间的很大一部分,凸显了其关键作用。Anaconda 数据科学现状报告等一些报告指出,数据准备耗费了数据科学家的大部分时间。
标注数据的过程通常包括几个阶段:
要深入了解实际步骤,请参阅《Ultralytics 数据收集和注释指南》。
不同的简历任务需要不同类型的标签:
数据标签为各行各业的众多人工智能应用提供了动力:
数据标记与其他关键的 ML 概念密切相关:
尽管数据标签非常重要,但它也带来了挑战:
主动学习(Active Learning)等技术旨在通过智能选择信息量最大的数据点先进行标注,减轻标注负担,从而减少整体工作量,维基百科的 "主动学习 "页面对此进行了解释。
各种工具有助于简化数据标注过程。Ultralytics HUB为计算机视觉任务提供集成的数据集管理和标注功能。其他流行的开源和商业平台包括Label Studio和CVAT(计算机视觉标注工具)。