术语表

算法偏差

了解算法偏见、其来源和真实案例。学习减少偏见和建立公平、合乎道德的人工智能系统的策略。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

算法偏差是指人工智能(AI)系统中出现的系统性、可重复的错误,导致不公平或歧视性的结果。与纯粹由有缺陷的数据产生的偏差不同,算法偏差源于算法本身的设计、实施或应用。即使输入的训练数据看似平衡,这种情况也可能发生。这是机器学习(ML)计算机视觉(CV)等领域的一个重要问题,因为它会破坏人工智能系统的可靠性和公平性,影响从产品推荐到金融和医疗保健领域的关键决策等各个方面。正如美国国家标准与技术研究院(NIST)等研究机构所强调的那样,解决这类偏差对于构建可信的人工智能至关重要。

算法偏差的来源

算法偏见虽然经常与数据问题交织在一起,但具体产生于算法的机制:

  • 设计选择:在算法开发过程中做出的决定,如选择特定特征或使用的优化算法,可能会无意中引入偏差。例如,如果只为准确性而优化,可能会导致模型在少数群体上表现不佳,因为他们代表了边缘情况。
  • 特征工程和选择:选择、转换或创建特征的过程(特征工程)可能会嵌入偏见。算法可能会学习到间接反映特征中存在的社会偏见的相关性。
  • 代理变量:算法可能会使用看似中性的变量(如邮编或购买记录)作为敏感属性(如种族或收入)的代理变量。即使没有明确的敏感数据,这种代理变量的使用也可能导致歧视性结果。
  • 反馈回路:在随时间学习的系统中,最初的算法偏差会随着系统偏差输出对未来数据收集或用户行为的影响而得到强化。

真实案例

算法偏差可表现在各种应用中:

  1. 招聘工具:用于筛选简历的人工智能系统可能会从历史招聘数据中学习模式。如果过去的做法偏向于某些人群,算法可能会延续这种偏见,惩罚来自代表性不足群体的合格应聘者,亚马逊的一款实验工具就曾发生过这种臭名昭著的情况。
  2. 金融服务:用于信用评分或贷款审批的算法可能会过度拒绝某些社区或人口群体中个人的申请,即使排除了受保护的特征。如果算法识别出看似中性的因素(如互联网浏览模式或光顾过的特定零售商)与信用风险之间的相关性,而这种相关性与社会偏见一致,就可能发生这种情况。人们对金融领域算法偏见的担忧与日俱增。

算法偏差与相关概念

将算法偏见与相关术语区分开来很重要:

  • 人工智能中的偏见这是一个广义的术语,包括人工智能系统中所有形式的系统性不公平。算法偏见是人工智能偏见的一个具体来源,还有数据集偏见等其他来源
  • 数据集偏差这是指用于训练模型的数据所产生的偏差(例如,不具代表性的样本、倾斜的注释)。虽然数据集偏差会导致放大算法偏差,但算法偏差也可能因算法设计而独立产生,即使使用的是完全具有代表性的数据。了解人工智能偏差与数据集偏差之间的相互作用至关重要。
  • 偏差-方差权衡这是 ML 中关于模型复杂性和误差类型的一个基本概念。这里的 "偏差 "指的是模型所做的简化假设导致的系统误差(拟合不足),而不是与社会或公平性相关的偏差。

缓解策略

解决算法偏见问题需要在整个人工智能生命周期中采取积极主动的多方面方法:

  • 公平性指标:将公平性指标与准确性等传统性能指标一起纳入模型训练验证过程。
  • 算法审计:定期对算法进行审计,检查不同子群的结果是否存在偏差。人工智能公平 360Fairlearn工具包等工具可帮助检测和减轻偏见。
  • 减少偏差技术:采用旨在调整算法的技术,如重新权衡数据点、修改学习限制或对模型输出进行后处理,以确保结果更加公平。
  • 可解释的人工智能(XAI)使用 XAI 方法了解算法做出某些决定的原因,帮助识别其逻辑中隐藏的偏见。提高人工智能的透明度是关键。
  • 多元化团队和测试:让不同的团队参与开发过程,并对具有代表性的用户群体进行全面测试,以发现潜在的偏见。
  • 法规意识:随时了解不断发展的法规,如《欧盟人工智能法案》,其中包括与偏见和公平性相关的规定。
  • 持续模型监控监控已部署的模型,以发现性能下降或随着时间推移出现的偏差。

通过了解算法偏见的细微差别,并积极努力通过精心设计、严格测试以及遵守人工智能公平性人工智能伦理原则来减少算法偏见,开发人员可以创造出更可靠、更公平、更有益的人工智能应用。人工智能伙伴关系(Partnership on AI)和算法正义联盟(Algorithmic Justice League)等组织倡导负责任的人工智能开发。像Ultralytics HUB这样的平台和像 Ultralytics YOLO等平台和 Ultralytics YOLO 等模型提供了支持谨慎开发和评估模型的框架,考虑了数据隐私等因素,有助于创建更公平的系统。ACM 公平性、责任和透明度(FAccT)会议是该领域研究的主要场所。

阅读全部