术语表

培训数据

了解训练数据在人工智能中的重要性。了解高质量的数据集如何为实际任务提供准确、强大的机器学习模型。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

人工智能(AI)机器学习(Machine Learning)领域,训练数据是用来指导模型执行任务的基本要素。它由包含大量示例的数据集组成,每个示例将输入与所需的输出或标签配对。通过处理这些数据,通常是通过监督学习算法,模型学会识别模式、关系和特征,从而能够对新的、未见过的数据做出预测或决策。

什么是训练数据?

训练数据是人工智能模型的教材。它是一个经过精心策划的信息集合,专门用于作为学习过程中的范例。例如,在物体检测等计算机视觉任务中,训练数据包括图像或视频帧(输入特征)以及标明其中物体位置和类别的注释(标签)。创建这些标签的过程称为数据标签。模型根据这些数据迭代调整其内部参数,使其预测结果与所提供标签之间的差异最小。

训练数据的重要性

训练数据的质量、数量和多样性直接决定了模型的性能及其在真实世界场景的泛化能力(ML 中的泛化)。高质量、有代表性的数据有助于建立稳健并能达到高准确度的模型。数据不足或有偏差会导致性能低下、过拟合(模型对训练数据的学习效果太好,但在新数据上却失败了),或因数据集偏差而导致不公平的结果。因此,仔细收集和准备训练数据是任何人工智能项目的关键步骤。

真实世界应用中的训练数据示例

训练数据为无数人工智能应用提供了动力。这里有两个例子:

  1. 自动驾驶汽车:类似模型 Ultralytics YOLO用于自动驾驶汽车的人工智能模型是在包含各种驾驶条件下的图像和传感器数据的庞大数据集上训练出来的。这些数据通常使用COCO 数据集等大型公共数据集,通过边界框或分割掩码对车辆、行人、骑车人和交通信号等对象进行精心标注。
  2. 自然语言处理:对于情感分析(维基百科)等任务,训练数据包括标有 "积极"、"消极 "或 "中性 "等情感标签的文本样本(如产品评论、社交媒体帖子)。模型通过学习将语言模式与这些情感标签联系起来。

数据质量和准备

确保高质量的培训数据涉及几个关键流程:

  • 数据收集:收集能准确反映问题领域的相关数据。
  • 数据清理(维基百科)识别并纠正数据集中的错误、不一致或缺失值。
  • 数据标注:为数据准确标注正确的输出或目标。
  • 数据扩充通过创建现有数据的修改副本(如旋转图像、改变亮度)来人为扩展数据集,以提高模型的鲁棒性。

训练数据与验证和测试数据

虽然这些数据集经常放在一起讨论,但它们的用途却截然不同:

  • 训练数据:用于通过调整参数(权重)来训练模型。
  • 验证数据在训练过程中定期使用,以评估模型在未见数据上的性能,并在不引入测试集偏差的情况下调整超参数(超参数优化(维基百科))。
  • 测试数据模型训练完成使用,以便对模型在全新数据上的性能进行最终的、无偏见的评估。

正确分离这些数据集对于开发可靠的模型和准确评估其实际能力至关重要。Ultralytics HUB等平台有助于在模型开发生命周期内有效管理这些数据集。

阅读全部