术语表

数据集偏差

了解如何识别和减轻人工智能中的数据集偏差,以确保为现实世界的应用提供公平、准确和可靠的机器学习模型。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据集偏差是机器学习(ML)中的一个关键问题,即用于训练模型的数据不能系统地代表模型将被部署的真实世界环境的多样性和复杂性。这种差异源于数据收集、采样或注释过程中的缺陷。因此,在有偏差的数据集上训练出来的模型可能在使用类似数据的评估指标上表现良好,但在应用于新的、未见过的数据或不同的人口群体时,就会表现出概括性差、不准确和不公平。正如围绕 "人工智能中的偏见"的讨论中所强调的那样,解决数据集的偏见对于构建可靠、有效和公平的人工智能系统至关重要。

数据集偏差类型

有几种形式的偏差会渗入数据集,导致模型结果出现偏差。了解这些类型是减少偏差的第一步:

  • 选择偏差:当数据收集过程中偏重某些数据子集而忽略其他数据子集时,就会出现选择偏差,导致样本不具代表性。例如,仅在特定时段收集交通数据可能会忽略其他时段的模式。
  • 抽样偏差:一种特定的选择偏差,即收集的样本不能准确反映目标人口的比例。使用非随机抽样方法通常会造成这种情况。
  • 测量偏差:产生于数据测量或标注阶段的不准确或不一致。这可能涉及传感器故障或不同标注者在进行数据标注时的主观不一致。
  • 标签偏差:当分配给数据点的标签存在主观性、不一致性,或反映了注释者的隐性偏差时,就会出现标签偏差,这可能受到确认偏差解释等因素的影响。
  • 表征偏差:当数据集对现实世界中的某些群体或属性表征不足,导致模型对这些群体的表现不佳时,就会出现这种情况。

数据集偏差的真实案例

在各种应用中,数据集偏差会对现实世界产生重大影响:

  1. 面部识别系统:许多早期的人脸识别词汇系统都是在以浅肤色男性面孔为主的数据集上进行训练的。因此,这些系统在识别肤色较深的人或女性面孔时,准确率往往会大大降低,NIST 关于面部识别中人口统计学效应的研究就证明了这一点。
  2. 医学图像分析:为检测皮肤癌而设计的人工智能模型可能主要在皮肤白皙的人的图像上进行训练。如果在不同人群中使用,由于训练数据中缺乏具有代表性的图像,该模型可能无法准确检测出肤色较深的人的恶性肿瘤,这凸显了医学人工智能研究中的偏见问题,并影响了人工智能在医疗保健领域的应用效果。

识别和减少数据集偏差

检测数据集的偏差需要对数据源、收集方法以及特征和标签的分布进行仔细分析。相关技术包括探索性数据分析、比较子组性能的统计测试以及发现不平衡的数据可视化

一旦确定,缓解战略包括

  • 收集更具代表性的数据:扩大数据收集工作,将代表性不足的群体和情景纳入其中。
  • 数据扩充:使用与Ultralytics YOLO 等模型集成的工具,应用图像旋转、裁剪或颜色变换等技术,有助于增加数据多样性,详见数据扩充术语表
  • 重新取样技术:通过对少数群体进行过量采样或对多数群体进行过量采样来调整数据集。
  • 算法公平性技术:在模型训练或后处理过程中实施旨在提高公平性的算法。人工智能公平 360 工具包(IBM Research)等工具提供了这方面的资源。
  • 使用多样化的基准数据集:在以多样性著称的标准化基准数据集上评估模型。

相关概念

数据集偏差与人工智能中的其他几个重要概念密切相关:

  • 算法偏差数据集偏差源于数据,而算法偏差则源于模型的设计或学习过程,这可能会放大现有偏差或引入新的偏差。
  • 人工智能的公平性这一领域的重点是开发能公平对待个人和群体的人工智能系统,通常涉及数据集和算法偏差的测量和缓解。
  • 人工智能伦理数据集偏差是一个主要的伦理问题,因为有偏差的模型会使歧视和伤害永久化。更广泛的伦理框架为负责任的人工智能开发提供了指导,这也是人工智能伙伴关系(PAI)等组织所倡导的。
  • 可解释的人工智能(XAI)使模型预测更加透明的技术有助于识别数据集中的偏差是否会影响结果。

正如 "理解人工智能偏见"(Understanding AI Bias)博客Google"负责任的人工智能实践"(Responsible AI Practices)等资源中所讨论的那样,理解并主动解决数据集偏见对于创建值得信赖的人工智能系统至关重要。Microsoft 负责任的人工智能资源(Microsoft Responsible AI Resources )和 ACM 公平、负责和透明(Fairness, Accountability, and Transparency,FAccT)会议等实体的研究和资源将继续推进应对这一挑战的方法。

阅读全部