简历数据集：高质量数据至关重要 |Ultralytics

截至 2019 年，企业人工智能 (AI) 的采用率比过去四年增长了 270%。这种增长推动了计算机视觉 (CV) 应用的快速集成——这是一种 AI 系统，使机器能够解释和分析来自周围世界的视觉数据。这些应用为各种技术提供支持，从检测医学影像中的疾病和支持自动驾驶汽车，到优化交通运输中的交通流量和加强安全系统中的监控。

尖端计算机视觉模型（如 Ultralytics YOLO11等尖端计算机视觉模型的卓越准确性和无与伦比的性能，在很大程度上推动了这一指数级增长。然而，这些模型的性能在很大程度上取决于用于训练、验证和测试模型的数据的质量和数量。

如果没有足够的高质量数据，计算机视觉模型可能难以有效地训练和微调以满足行业标准。在本文中，我们将探讨数据在创建计算机视觉模型中的重要作用，以及为什么高质量数据在计算机视觉中如此重要。我们还将介绍一些技巧，以帮助您在训练自定义计算机视觉模型时创建高质量的数据集。让我们开始吧！

数据在构建计算机视觉模型中的作用

计算机视觉模型可以在大量的图像和视频数据集上进行训练，以识别模式并做出准确的预测。例如，一个目标检测模型可以在数百甚至数千个标记图像和视频上进行训练，以准确识别目标。

这种训练数据的质量和数量会影响模型的性能。

由于计算机视觉模型只能从它们接触到的数据中学习，因此提供高质量的数据和多样化的示例对于它们的成功至关重要。如果没有足够且多样化的数据集，这些模型可能无法准确分析真实世界的场景，并可能产生有偏差或不准确的结果。

这就是为什么清楚地了解数据在模型训练中的作用非常重要。在我们了解高质量数据的特征之前，让我们先了解一下在训练计算机视觉模型时可能遇到的数据集类型。

计算机视觉数据集的类型

在计算机视觉中，训练过程中使用的数据分为三种类型，每种类型都有特定的用途。以下快速浏览每种类型：

训练数据：这是用于从头开始训练模型的主要数据集。它由带有预定义标签的图像和视频组成，允许模型学习模式并识别对象。
‍
验证数据：这是一组用于检查模型在训练过程中表现如何的数据。它有助于确保模型在新数据、未见过的数据上正常工作。
‍
测试数据：用于评估训练模型最终性能的独立数据集。它检查模型在新数据、未见过的数据上的预测效果。

__wf_reserved_inherit — 图 1. 数据在计算机视觉中是如何分类的。

高质量计算机视觉数据集的 5 大特征

无论数据集类型如何，高质量的数据对于构建成功的计算机视觉模型至关重要。以下是使数据集具有高质量的一些关键特征：

准确性：理想情况下，数据应紧密反映真实世界的场景，并包含正确的标签。例如，在医疗保健领域的视觉AI中，X射线或扫描图像必须被准确标记，以帮助模型正确学习。
‍
多样性：一个好的数据集应包含各种示例，以帮助模型在不同情况下取得良好表现。例如，如果一个模型正在学习detect 汽车，那么数据集就应该包括在不同环境（白天、夜晚、雨天等）下不同形状、大小和颜色的汽车。
‍
一致性：高质量的数据集遵循统一的格式和质量标准。例如，图像应具有相似的分辨率（而不是一些模糊而另一些清晰），并且经过相同的预处理步骤，例如调整大小或颜色调整，因此模型可以从一致的信息中学习。
‍
及时性：定期更新的数据集能跟上现实世界的变化。比方说，您正在训练一个模型来detect 所有类型的车辆。如果有新的车辆（如电动滑板车）出现，就应将其添加到数据集中，以确保模型的准确性和时效性。
‍
隐私：如果数据集包含敏感信息（如人的照片），则必须遵守隐私规则。诸如匿名化（删除可识别的详细信息）和数据掩码（隐藏敏感部分）等技术可以保护隐私，同时仍然可以安全地使用数据。

低质量数据带来的挑战

虽然理解高质量数据的特性很重要，但同样重要的是要考虑低质量数据如何影响您的计算机视觉模型。

过拟合和欠拟合等问题会严重影响模型性能。过拟合发生在模型在训练数据上表现良好，但在新的或未见过的数据上表现不佳时，通常是因为数据集缺乏多样性。另一方面，欠拟合发生在数据集没有为模型提供足够的示例或质量来学习有意义的模式时。为了避免这些问题，必须维护多样化、无偏见和高质量的数据集，以确保在训练和实际应用中的可靠性能。

低质量的数据也会使模型难以从原始数据中提取和学习有意义的模式，这个过程称为特征提取。如果数据集不完整、不相关或缺乏多样性，模型可能难以有效地执行。

有时，低质量的数据可能是简化数据的结果。简化数据有助于节省存储空间并降低处理成本，但过度简化会删除模型良好运行所需的重要细节。这就是为什么在整个计算机视觉过程中，从收集到部署，保持高质量的数据如此重要。根据经验，数据集应包括基本特征，同时保持多样性和准确性，以保证可靠的模型预测。

维护计算机视觉数据集质量的技巧

现在我们已经了解了高质量数据的重要性以及低质量数据的影响，让我们探讨如何确保您的数据集符合高标准。

这一切都始于可靠的数据收集。使用众包、来自不同地理区域的数据和合成数据生成等多种来源减少偏差，并帮助模型处理真实场景。收集数据后，预处理至关重要。诸如将像素值缩放到一致范围的归一化以及应用旋转、翻转和缩放等变换的增强等技术可增强数据集。这些步骤有助于您的模型更好地泛化并变得更强大，从而降低过拟合的风险。

正确分割数据集是另一个关键步骤。一种常见的方法是分配 70% 的数据用于训练，15% 用于验证，15% 用于测试。仔细检查这些集合之间没有重叠，可以防止数据泄漏，并确保准确的模型评估。

您还可以使用像YOLO11这样的预训练模型来节省时间和计算资源。YOLO11 在大型数据集上经过训练，专为各种计算机视觉任务而设计，可以在您的特定数据集上进行微调，以满足您的需求。通过根据数据调整模型，您可以避免过度拟合并保持强大的性能。

计算机视觉数据集的未来展望

人工智能社区传统上侧重于通过构建具有更多层的更深层模型来提高性能。然而，随着人工智能的不断发展，重点正在从优化模型转移到提高数据集的质量。通常被称为“人工智能之父”的吴恩达认为，“人工智能世界在本十年需要经历的最重要的转变将是转向以数据为中心的人工智能。”

这种方法强调通过提高标签准确性、移除噪声样本和确保多样性来优化数据集。对于计算机视觉而言，这些原则对于解决诸如偏差和低质量数据等问题至关重要，从而使模型能够在实际场景中可靠地运行。

展望未来，计算机视觉的进步将依赖于创建更小、更高质量的数据集，而不是收集大量数据。正如吴恩达所说，“改进数据不是一次性的预处理步骤；它是机器学习模型开发迭代过程的核心部分。”通过关注以数据为中心的原则，计算机视觉将继续变得更易于访问、更高效，并在各个行业中产生更大的影响。

主要要点

数据在视觉模型的整个生命周期中起着至关重要的作用。从数据收集到预处理、训练、验证和测试，数据的质量直接影响模型的性能和可靠性。通过优先考虑高质量的数据和准确的标注，我们可以构建稳健的计算机视觉模型，从而提供可靠而精确的结果。

在我们迈向数据驱动的未来之际，必须解决伦理问题，以减轻与偏见和隐私法规相关的风险。最终，确保数据的完整性和公平性是释放计算机视觉技术全部潜力的关键。

加入我们的社区，并查看我们的GitHub仓库，以了解更多关于人工智能的信息。查看我们的解决方案页面，探索更多人工智能在农业和制造业等领域的应用。

高质量计算机视觉数据集的重要性

数据在构建计算机视觉模型中的作用

计算机视觉数据集的类型

高质量计算机视觉数据集的 5 大特征

低质量数据带来的挑战

维护计算机视觉数据集质量的技巧

计算机视觉数据集的未来展望

主要要点

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

医疗诊断用视觉人工智能工具

从数据到决策：运用视觉人工智能制定企业战略

让我们一起构建人工智能的未来！