绿色检查
链接复制到剪贴板

高质量计算机视觉数据集的重要性

与我们一起探讨建立计算机视觉模型时对高质量数据的需求。了解数据质量如何影响模型性能。

截至 2019 年,企业人工智能(AI)的采用率在过去四年中增长了 270%。这一增长推动了计算机视觉(CV)应用的快速整合--人工智能系统使机器能够解释和分析周围世界的视觉数据。这些应用为各种技术提供了动力,从医学成像中的疾病检测和自动驾驶汽车,到交通运输中的交通流优化和安全系统中的监控增强。 

等尖端计算机视觉模型的卓越精度和无与伦比的性能在很大程度上推动了这一指数级增长。 Ultralytics YOLO11等尖端计算机视觉模型的卓越准确性和无与伦比的性能在很大程度上推动了这一指数级增长。然而,这些模型的性能在很大程度上取决于用于训练、验证和测试模型的数据的质量和数量。 

如果没有足够的高质量数据,计算机视觉模型就很难得到有效的训练和微调,从而达到行业标准。在本文中,我们将探讨数据在创建计算机视觉模型中的重要作用,以及为什么高质量数据在计算机视觉中如此重要。我们还将介绍一些技巧,帮助您在训练自定义计算机视觉模型时创建高质量的数据集。让我们开始吧!

数据在建立计算机视觉模型中的作用

计算机视觉模型可以在大型图像和视频数据集上进行训练,以识别模式并做出准确预测。例如,物体检测模型可以在数百甚至数千个标注图像和视频上进行训练,以准确识别物体。 

训练数据的质量和数量会影响模型的性能。 

由于计算机视觉模型只能从它们所接触的数据中学习,因此提供高质量的数据和多样化的示例对它们的成功至关重要。如果没有足够和多样化的数据集,这些模型可能无法准确分析真实世界的场景,并可能产生有偏差或不准确的结果。 

因此,清楚地了解数据在模型训练 中的作用非常重要。在了解高质量数据的特征之前,我们先来了解一下在训练计算机视觉模型时可能会遇到的数据集类型。

计算机视觉数据集的类型

计算机视觉中,训练过程中使用的数据分为三种类型,每种类型都有特定的用途。下面简要介绍一下每种类型:

  • 培训数据:这是用于从头开始训练模型的主要数据集。它由带有预定义标签的图像和视频组成,可让模型学习模式并识别物体。 
  • 验证数据:这是一组用于检查模型在训练过程中表现如何的数据。它有助于确保模型在新的、未见过的数据上正确运行。
  • 测试数据:用于评估训练模型最终性能的独立数据集。它检查模型对全新的、未见过的数据进行预测的能力。
图 1.计算机视觉中的数据分类方式。

高质量计算机视觉数据集的五大特征

无论数据集类型如何,高质量的数据对于建立成功的计算机视觉模型都至关重要。以下是高质量数据集的一些关键特征:

  • 准确性:理想情况下,数据应密切反映真实世界的情况,并包含正确的标签。例如,当涉及医疗保健领域的视觉人工智能时,X 光或扫描图像必须准确标注,以帮助模型正确学习。 
  • 多样性:一个好的数据集应包含各种示例,以帮助模型在不同情况下发挥出色的性能。例如,如果一个模型正在学习检测汽车,那么数据集就应该包括不同形状、大小和颜色的汽车,以及不同的环境(白天、晚上、雨天等)。
  • 一致性:高质量的数据集遵循统一的格式和质量标准。例如,图像应具有相似的分辨率(而不是有的模糊,有的清晰),并经过相同的预处理步骤,如调整大小或颜色调整,以便模型从一致的信息中学习。
  • 及时性:定期更新的数据集能跟上现实世界的变化。比方说,您正在训练一个模型来检测所有类型的车辆。如果有新的车辆(如电动滑板车)出现,就应将其添加到数据集中,以确保模型的准确性和时效性。
  • 隐私:如果数据集包含敏感信息,如人物照片,则必须遵守隐私规则。匿名化(删除可识别的细节)和数据屏蔽(隐藏敏感部分)等技术可以保护隐私,同时还能安全地使用数据

低质量数据带来的挑战

了解高质量数据的特征固然重要,但考虑低质量数据会如何影响计算机视觉模型也同样重要。

过拟合和欠拟合等问题会严重影响模型性能。当模型在训练数据上表现良好,但在新的或未见过的数据上却举步维艰时,就会出现过拟合,这通常是因为数据集缺乏多样性。另一方面,如果数据集没有提供足够的示例或质量,模型无法学习到有意义的模式,就会出现欠拟合。为了避免这些问题,必须维护多样化、无偏见和高质量的数据集,确保在训练和实际应用中都能获得可靠的性能。

图 2.拟合不足与拟合过度过度拟合。

低质量数据也会使模型难以从原始数据中提取和学习有意义的模式,这一过程被称为特征提取。如果数据集不完整、不相关或缺乏多样性,模型可能难以有效执行。 

有时,低质量数据可能是简化数据的结果。简化数据有助于节省存储空间和降低处理成本,但过度简化可能会删除模型正常工作所需的重要细节。这就是为什么在从收集到部署的整个计算机视觉过程中保持高质量数据如此重要的原因。根据经验,数据集应包括基本特征,同时保持多样性和准确性,以保证可靠的模型预测。

图 3.了解特征提取。

保持计算机视觉数据集质量的技巧

既然我们已经了解了高质量数据的重要性和低质量数据的影响,那么让我们来探讨一下如何确保您的数据集符合高标准。

一切从可靠的数据收集开始。利用众包、不同地理区域的数据和合成数据生成等不同来源,可以减少偏差,帮助模型处理真实世界的场景。收集数据后,预处理至关重要。归一化(将像素值缩放至一致的范围)和增强(应用旋转、翻转和缩放等变换)等技术可以增强数据集。这些步骤有助于更好地概括模型并使其更加稳健,从而降低过度拟合的风险。

适当分割数据集是另一个关键步骤。常见的方法是将 70% 的数据用于训练,15% 用于验证,15% 用于测试。仔细检查这些数据集之间是否有重叠,可以防止数据泄漏,确保模型评估的准确性。

图 4.训练、验证和测试之间的通用数据分割。

您还可以使用预先训练好的模型,如YOLO11,以节省时间和计算资源。YOLO11这些模型在大型数据集上经过训练,专为各种计算机视觉任务而设计,可以在您的特定数据集上进行微调,以满足您的需求。通过根据数据调整模型,可以避免过度拟合并保持强大的性能。 

计算机视觉数据集的未来之路

人工智能界传统上一直专注于通过建立更多层次的深度模型来提高性能。然而,随着人工智能的不断发展,重点正从优化模型转向提高数据集的质量。常被称为 "人工智能之父 "的安德鲁-吴(Andrew Ng)认为,"人工智能世界在这十年中需要经历的最重要转变将是转向以数据为中心的人工智能"。 

这种方法强调通过提高标签准确性、去除噪声示例和确保多样性来完善数据集。对于计算机视觉来说,这些原则对于解决偏差和低质量数据等问题至关重要,可使模型在真实世界场景中可靠地运行。

展望未来,计算机视觉的发展将依赖于创建更小的高质量数据集,而不是收集大量数据。Andrew Ng 认为:"改进数据不是一次性的预处理步骤,而是机器学习模型开发迭代过程的核心部分。通过专注于以数据为中心的原则,计算机视觉将继续在各行各业变得更加易用、高效和有影响力。

主要收获

在视觉模型的整个生命周期中,数据起着至关重要的作用。从数据收集到预处理、训练、验证和测试,数据质量直接影响模型的性能和可靠性。通过优先考虑高质量的数据和准确的标签,我们可以建立强大的计算机视觉模型,提供可靠和精确的结果。 

在我们迈向数据驱动的未来时,必须解决道德方面的问题,以降低与偏见和隐私法规相关的风险。最终,确保数据的完整性和公平性是释放计算机视觉技术全部潜力的关键。

加入我们的社区,查看我们的GitHub 存储库,了解有关人工智能的更多信息。查看我们的解决方案页面,探索人工智能在农业制造业等领域的更多应用。

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅