了解测试数据在人工智能中的重要性,以及它在评估模型性能、检测过度拟合和确保真实世界可靠性方面的作用。
在机器学习中,测试数据是数据集的一个独立部分,用于在模型经过充分训练和调整后对其进行最终评估。该数据集是模型的 "期末考试",对模型在新的、未见过的数据上的表现进行无偏见的评估。其核心原则是,模型在开发过程中绝不应从测试数据中学习,也不应受到测试数据的影响。这种严格的分离确保了在测试集上计算出的性能指标,如准确率或平均精度(mAP),能够真实反映模型在真实世界场景中的泛化能力。严格的模型测试是模型部署前的关键步骤。
在典型的机器学习 (ML)项目中,数据会被仔细分割,以满足不同的目的。了解这些分区之间的区别至关重要。
虽然基准数据集可以作为测试集,但其主要作用是作为比较不同模型的公共标准,通常用于ImageNet 大规模视觉识别挑战赛 (ILSVRC) 等学术挑战赛。您可以在模型比较页面中看到这方面的示例。