术语表

测试数据

了解测试数据在人工智能中的重要性,以及它在评估模型性能、检测过度拟合和确保真实世界可靠性方面的作用。

在机器学习中,测试数据是数据集的一个独立部分,用于在模型经过充分训练和调整后对其进行最终评估。该数据集是模型的 "期末考试",对模型在新的、未见过的数据上的表现进行无偏见的评估。其核心原则是,模型在开发过程中绝不应从测试数据中学习,也不应受到测试数据的影响。这种严格的分离确保了在测试集上计算出的性能指标,如准确率平均精度(mAP),能够真实反映模型在真实世界场景中的泛化能力。严格的模型测试模型部署前的关键步骤。

测试数据在 ML 生命周期中的作用

在典型的机器学习 (ML)项目中,数据会被仔细分割,以满足不同的目的。了解这些分区之间的区别至关重要。

  • 训练数据这是最大的数据子集,用于教授模型。模型根据训练集中的示例调整其内部权重,从而迭代学习模式、特征和关系。有效的模型创建依赖于高质量的训练数据和遵循最佳实践,如本模型训练技巧指南中的内容。
  • 验证数据这是一个在训练过程使用的独立数据集。其目的是就模型在未见数据上的表现提供反馈,这有助于超参数调整(如调整学习率)和防止过度拟合。这就像一个练习测试,有助于指导学习策略。评估通常使用专门的验证模式进行。
  • 测试数据:该数据集完全与外界隔绝,直到完成所有训练和验证。它只使用一次,以提供关于模型性能的无偏见的最终报告。使用测试数据对模型进行任何进一步调整都会使结果失效,这种错误有时被称为 "数据泄漏 "或 "测试教学"。最终评估对于了解一个模型(如Ultralytics YOLO模型)在部署后的表现至关重要。Ultralytics HUB等工具有助于在整个项目生命周期内管理这些数据集。

虽然基准数据集可以作为测试集,但其主要作用是作为比较不同模型的公共标准,通常用于ImageNet 大规模视觉识别挑战赛 (ILSVRC) 等学术挑战赛。您可以在模型比较页面中看到这方面的示例。

实际应用

  1. 汽车领域的人工智能:开发人员利用数千小时的驾驶录像进行训练和验证,为自动驾驶汽车创建物体检测模型。在将该模型部署到车队之前,需要根据测试数据集对其进行评估。该测试集包括具有挑战性的、以前从未见过的场景,例如在夜间大雨中行驶、在暴风雪中导航或检测被其他物体遮挡的行人。模型在该测试集上的表现(通常使用来自nuScenes 等基准测试的数据)决定了它是否符合汽车应用中人工智能所需的严格的安全性和可靠性标准
  2. 医学图像分析:计算机视觉(CV)模型进行训练,以便从一家医院的胸部 X 光图像中检测出肺炎迹象。为确保该模型对临床有用,必须在不同医院系统的图像数据集上对其进行测试。测试数据将包括使用不同设备采集的图像、来自不同患者群体的图像以及由不同放射科医生判读的图像。在这一外部测试集上评估模型的性能对于获得监管部门(如美国食品药品管理局)的批准以及确认其在医疗领域的人工智能应用至关重要。这一过程有助于确保模型避免数据集偏差,并在新的临床环境中可靠运行。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板