术语表

数据集偏差

了解如何识别和减轻人工智能中的数据集偏差,以确保为现实世界的应用提供公平、准确和可靠的机器学习模型。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

当用于训练机器学习(ML)模型的数据不能代表部署该模型的真实环境时,就会出现数据集偏差。这种代表性的缺乏会导致结果偏差、性能低下和结果不公平。这是人工智能(AI)领域面临的一个重大挑战,尤其是在计算机视觉(CV)等领域,模型直接从视觉数据中学习模式。如果训练数据集包含不平衡或反映了历史偏见,由此产生的人工智能模型将可能继承并可能放大这些问题,从而使数据集偏见成为人工智能总体偏见的主要来源。

数据集偏差的来源和类型

数据集偏差并不是一个单一的问题,在数据收集和注释过程中,它可以通过多种方式表现出来:

  • 选择偏差:当数据不是随机抽样时,就会出现选择偏差,导致某些群体或场景的代表性过高或过低。例如,主要根据白天晴朗天气图像训练的自动驾驶数据集在夜间或雨天可能表现不佳。
  • 测量偏差:产生于数据收集工具或过程中的问题。例如,在人脸识别数据集中对不同人口群体使用不同质量的相机可能会产生偏差。
  • 标签偏差(注释偏差):源于数据标注阶段的不一致或偏见,人类标注者可能会基于主观观点或隐性偏见对数据进行不同的解释或标注。探索不同类型的认知偏差可以揭示潜在的人为因素。
  • 历史偏见:反映了世界上现有的社会偏见,这些偏见会被记录在数据中。如果历史数据显示某些群体在特定角色中的代表性较低,那么根据这些数据训练出来的人工智能可能会延续这种偏见。

正如Ultralytics 关于了解人工智能偏见的博客等资源所强调的那样,了解这些来源对于减轻其影响至关重要。

数据集偏差为何重要

数据集偏差可能造成严重后果,影响模型性能和社会公平性:

  • 准确性和可靠性降低:在有偏见的数据上训练出来的模型,在遇到代表性不足的群体或场景的数据时,往往会表现出较低的准确性。正如"数据集:人工智能原材料"等研究中所讨论的,这限制了模型的泛化能力:人工智能的原材料》等研究中讨论过。
  • 不公平或歧视性结果:有偏见的模型会导致某些群体处于系统性的不利地位,从而引起人们对人工智能公平性人工智能伦理的极大关注。这在招聘、贷款审批和医疗诊断等高风险应用中尤为重要。
  • 强化陈规定型观念:如果根据反映社会偏见的数据进行训练,人工智能系统可能会无意中延续有害的陈规定型观念。
  • 信任的侵蚀:如果系统因潜在的偏见而被视为不公平或不可靠,那么公众对人工智能技术的信任就会受到损害。人工智能伙伴关系(Partnership on AI)和立即人工智能研究所(AI Now Institute)等组织致力于解决这些更广泛的社会问题。

真实案例

  1. 面部识别系统:早期的人脸识别数据集往往过多地使用浅色皮肤的男性。因此,正如美国国家标准与技术研究院(NIST)等机构和算法正义联盟(Algorithmic Justice League)等组织的研究报告所强调的那样,商业系统对深肤色女性的识别准确率明显较低。这种差异给照片标记、身份验证和执法等应用带来了风险。
  2. 医学图像分析:如果训练数据集主要由浅肤色患者的图像组成,那么利用医学图像分析检测皮肤癌的人工智能模型在检测深肤色患者时可能表现不佳。这种偏差可能导致对代表性不足的患者群体漏诊或延误诊断,从而影响人工智能在医疗保健领域的公平性。

区分数据集偏差与相关概念

必须将数据集偏差与类似术语区分开来:

  • 人工智能中的偏差:这是一个广义的术语,包括任何导致不公平结果的系统性错误。数据集偏差是造成人工智能偏差的主要原因,但偏差也可能来自算法本身(算法偏差)或部署环境。
  • 算法偏差:这是指模型的架构、学习过程或优化目标带来的偏差,与初始数据质量无关。例如,算法可能会优先考虑整体准确性,而牺牲对少数群体的公平性。
  • 人工智能的公平性:这是人工智能系统的目标或特性,旨在公平对待不同群体。解决数据集偏差是实现公平的关键一步,但公平还涉及算法调整和NIST 人工智能风险管理框架等框架所定义的伦理考虑因素。
  • 偏差-方差权衡:这是机器学习中关于模型复杂性的一个核心概念。这里的 "偏差 "是指假设过于简单(拟合不足)造成的错误,有别于数据集中的社会或统计偏差。

解决数据集偏差问题

减轻数据集偏差需要在整个ML 工作流程中采取积极主动的策略:

  • 仔细收集数据:努力收集能反映目标部署环境的多样化、有代表性的数据源。使用数据集数据表等框架记录数据集可以提高透明度。
  • 数据预处理和扩充:重新采样、数据合成和有针对性的数据扩充等技术有助于平衡数据集和提高代表性。Ultralytics 生态系统中的工具支持各种增强方法
  • 偏差检测工具:利用Google What-If 工具等工具或Fairlearn等库来审核数据集和模型是否存在潜在偏差。
  • 模型评估:使用公平性指标和标准准确性指标评估不同分组的模型性能。使用模型卡片等方法记录结果。
  • 平台支持: Ultralytics HUB等平台提供管理数据集、训练模型的工具,如 Ultralytics YOLO11等训练模型的工具,并促进严格的模型评估,帮助开发人员构建偏差较小的系统。

通过有意识地解决数据集偏差问题,开发人员可以创建更强大、更可靠、更公平的人工智能系统。关于机器学习中的偏见与公平性调查 "等研究调查以及ACM FAccT 等会议的讨论都能提供更多见解。

阅读全部