术语表

合成数据

释放人工智能/人工智能合成数据的力量!克服数据稀缺、隐私问题和成本问题,同时促进模型训练和创新。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

合成数据是指模仿真实世界数据的统计特性而人工生成的数据,而不是直接从真实事件或测量中收集的数据。在人工智能(AI)机器学习(ML)领域,合成数据是真实训练数据的重要替代或补充。当收集足够的真实世界数据存在困难、昂贵、耗时或引发隐私问题时,合成数据就显得尤为重要。这种人工创建的信息有助于训练模型、测试系统和探索现实中可能罕见或危险的场景。

如何创建合成数据

合成数据可根据所需的复杂度和保真度,使用各种技术生成:

  • 统计建模:使用统计方法,如从符合真实数据特征的分布中抽样。
  • 模拟:创建虚拟环境或模型,根据预定义的规则和互动生成数据。这在机器人和自主系统等领域很常见。NVIDIA Omniverse等平台通常用于生成逼真的模拟。
  • 生成模型:采用深度学习(DL 技术,如生成对抗网络(GAN)或变异自动编码器(VAE),学习真实数据的基本模式并生成新的类似数据点。最初的 GAN 论文为此引入了一个强大的框架。

在人工智能和计算机视觉领域的重要性

合成数据为人工智能开发提供了多项优势:

  • 克服数据匮乏:提供训练复杂模型所需的大型数据集,如 Ultralytics YOLO等复杂模型所需的大型数据集。
  • 增强数据隐私:允许在不暴露真实世界敏感信息的情况下进行模型训练,这在医疗保健和金融等领域至关重要。这种技术有时会包含差分隐私(Differential Privacy)等概念。
  • 覆盖边缘情况:可为现实世界中难以捕捉的罕见或关键场景(如自动驾驶汽车的紧急情况)创建数据。
  • 减少偏差:通过生成平衡的数据集,有可能帮助减少数据集的偏差,但必须注意不要引入新的偏差
  • 成本和时间效率:生成合成数据比大量收集和注释真实世界的数据更快、更省钱。

计算机视觉领域,合成图像被用于在不同条件(照明、天气、视角)下训练物体检测图像分割等任务的模型。

实际应用

  1. 自动驾驶汽车:训练自动驾驶汽车的感知系统需要大量数据,涵盖各种驾驶条件和罕见事件(如事故或异常障碍)。公司使用Unity Simulation等模拟器或Waymo 模拟环境等专有平台来生成真实的合成驾驶数据,从而提高汽车人工智能模型的稳健性和安全性。
  2. 医疗保健:患者隐私法规(如 HIPAA)限制了真实医疗数据的使用。合成数据可帮助研究人员和开发人员训练人工智能模型,用于医学图像分析(如肿瘤检测)或电子健康记录分析,同时又不会泄露患者隐私。像Synthea这样的项目可以生成合成病人记录,用于医疗保健领域的人工智能研究。

合成数据与数据增强

虽然合成数据和数据增强都旨在增加训练数据的多样性和数量,但它们是不同的概念:

  • 数据增强:涉及对现有真实数据进行转换(如旋转、缩放、裁剪、颜色偏移),以创建略有改动的版本。它扩展了数据集,但依赖于初始的真实数据集。为此,可以集成 Albumentations等工具。
  • 合成数据:包括从头开始创建全新的数据点,通常使用模型或模拟,而不一定从真实例子开始(尽管模型最初通常在真实数据上进行训练)。

合成数据可以解决增强技术无法解决的问题,例如创建完全未见场景的示例,或在真实数据完全不可用或因隐私限制而无法使用时生成数据。然而,确保合成数据准确反映真实世界的复杂性仍然是一项挑战,如果不加以谨慎管理,可能会导致合成分布过度拟合等问题。Ultralytics HUB等平台支持在各种数据集(可能包括合成数据集)上训练模型。

阅读全部