术语表

基准数据集

了解基准数据集如何通过实现公平的模型评估、可重复性和机器学习的进步来推动人工智能创新。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

基准数据集是用于评估和比较机器学习(ML)模型性能的标准化数据集合。这些数据集在人工智能(AI)开发中至关重要,为衡量不同算法在特定任务中的表现提供了一致而客观的基准。研究人员和开发人员广泛使用基准数据集来测试新模型,验证对现有模型的改进,确保模型符合公认的标准,并跟踪人工智能界的进展,尤其是计算机视觉(CV)等领域的进展。

基准数据集的重要性

基准数据集非常重要,因为它们为模型评估建立了一个公平竞争的环境。通过使用完全相同的数据和评估标准,研究人员可以在相同条件下直接、公平地比较不同模型的优缺点。这种做法促进了研究的可重复性,使其他人更容易验证结果,并在现有工作的基础上更进一步。基准有助于确定模型的优势或劣势领域,指导未来的研究方向和开发工作,从而创建更强大、更可靠的人工智能系统。基准可作为里程碑,让社区能够衡量一段时间内的进展情况。

基准数据集的主要特点

高质量的基准数据集通常具有几个主要特征:

  • 代表性:数据应准确反映真实世界的情景或模型所针对的特定问题领域。
  • 规模和多样性:数据集的规模和多样性:数据集的规模和多样性必须足够大,以便进行有意义的评估,并防止模型简单地记忆数据(过度拟合)。高质量的计算机视觉数据集至关重要。
  • 清晰的注释:数据必须按照明确规定的准则进行准确一致的标注(数据标注)。
  • 标准化评估指标:基准通常带有特定的指标(如准确性mAPIoU)和评估协议,以确保比较的一致性。
  • 可访问性:研究界应可随时查阅这些资料,通常是通过公共资料库或挑战来实现。

基准数据集的应用

基准数据集广泛应用于各种人工智能和深度学习(DL)任务,包括

真实案例

  1. 比较对象检测模型:当Ultralytics 开发出像 Ultralytics YOLO11等新模型时,会在COCO 等标准基准数据集上对其性能进行严格测试。测试结果(如 mAP 分数)会与之前的版本(YOLOv8)进行比较。YOLOv8YOLOv10)以及其他最先进的模型进行比较。这些模型比较有助于用户选择最适合其特定需求的模型,无论是用于学术研究还是商业应用。Ultralytics HUB等平台允许用户对模型进行训练,并可能在自定义数据上对其进行基准测试。
  2. 推进自动驾驶:开发自动驾驶汽车技术的公司在很大程度上依赖ArgoversenuScenes 等基准。这些数据集包含复杂的城市驾驶场景,并对汽车、行人、骑车人等进行了详细注释。通过在这些基准上评估他们的感知模型,公司可以衡量在检测准确性、跟踪可靠性和整体系统鲁棒性方面的改进,这对于确保自动驾驶汽车人工智能的安全性至关重要。

基准与其他数据集

必须将基准数据集与 ML 生命周期中使用的其他数据拆分区分开来:

  • 训练数据用于根据输入示例及其相应标签调整模型参数,从而对模型进行训练。这通常是数据的最大部分。数据增强等技术通常应用于此。
  • 验证数据在训练过程中用于调整模型超参数(如学习率或架构选择),并在调整时提供对模型技能的无偏估计。它有助于防止对训练数据的过度拟合。
  • 测试数据 模型完全训练完成使用,对其在未见数据上的性能进行最终的、无偏见的评估。基准数据集通常作为标准化测试集,用于比较独立开发的不同模型。

虽然基准数据集可用作测试集,但其主要目的更为广泛:为整个研究界提供一个共同的比较标准,通常由与ImageNet 大规模视觉识别挑战赛(ILSVRC)等挑战赛相关的公共排行榜提供便利。

阅读全部