算法偏见是指计算机系统中出现的系统性和可重复的错误,这些错误造成了不公平的结果,通常是一个群体优于另一个群体。偏见可能存在于用于训练机器学习模型的数据中,也可能反映并延续现有的偏见。当算法处理包含偏见信息的数据时,它可以学习甚至在预测中放大这些偏见。当算法应用于现实场景时,这可能会导致歧视性结果,影响招聘、贷款申请甚至刑事司法等领域。了解并减少算法偏见对于开发公平公正的人工智能系统至关重要。
算法偏差的来源
算法偏差可能来自机器学习(ML)管道的各个阶段。以下是一些常见的来源:
- 数据收集:如果为训练模型而收集的数据不具有人口代表性或包含历史偏差,那么模型就会继承这些偏差。例如,主要根据白人面孔图像训练的面部识别系统在识别有色人种面孔时可能表现不佳。
- 数据标签: 数据标注是为原始数据添加标签的过程,目的是为 ML 模型赋予数据意义。如果标注过程受到人为偏差的影响,这些偏差就会被编码到模型中。
- 特征选择:用于训练模型的特征选择可能会产生偏差。如果某些特征在一个群体中比在另一个群体中更普遍或更有预测性,那么模型在这些群体中的表现就可能不同。
- 算法设计:算法本身的设计也会产生偏差。例如,优化特定结果的算法可能会无意中不利于某些群体。
算法偏差的类型
人工智能系统中可能存在几种算法偏差。了解这些类型对于识别和解决偏见至关重要:
- 历史偏见:当用于训练模型的数据反映了现有的社会偏见时,就会出现这种情况。例如,根据偏向男性候选人的历史招聘数据训练的招聘算法可能会使性别歧视永久化。
- 表征偏差:这是指训练数据对某些群体的表征不足,导致模型对这些群体的表现不佳。例如,主要针对成人语音训练的语音识别系统可能无法准确转录儿童的语音。
- 测量偏差:当用于测量特定变量的数据对某些群体而言系统性地不准确或有偏差时,就会出现这种类型的偏差。例如,使用体重指数(BMI)作为主要健康指标的健康算法可能会对某些体型的人产生偏差。
- 聚合偏差:当一个 "放之四海而皆准 "的模型被应用于多样化的人群,而忽略了不同群体之间的差异时,就会出现这种情况。为普通人群设计的算法可能在特定的亚群体中表现不佳。
真实世界应用中的算法偏差实例
算法偏见会对现实世界产生重大影响。下面是两个具体的例子:
- 执法中的面部识别:事实证明,面部识别系统对于肤色较深的人,尤其是女性,准确度较低。这会导致更高的误报率和错误识别率,从而可能导致错误逮捕和定罪。美国国家标准与技术研究院 (NIST)开展了一项研究,强调了这些差异,并强调需要更多样化和更具代表性的训练数据集。
- 招聘工具:人工智能驱动的招聘工具越来越多地被用于筛选求职者。然而,如果这些工具是根据反映过去偏见的历史招聘数据(例如,技术职位偏爱男性求职者)进行训练的,那么它们可能会不公平地降低女性求职者的评级。亚马逊使用带有偏见的招聘工具的经历就是一个显著的例子,该公司不得不废弃一个显示出对男性求职者强烈偏爱的人工智能招聘系统。
减少算法偏差
解决算法偏差问题需要采取多方面的方法,包括仔细收集数据、开发模型和持续监测。以下是一些策略:
- 多样化和具有代表性的数据:确保培训数据具有多样性,并能准确代表人群。这可能需要从代表性不足的群体中收集更多数据,或使用数据扩增等技术来平衡数据集。
- 偏差检测技术:利用各种方法检测数据和模型中的偏差。交叉验证等技术可帮助识别不同组别的模型性能差异。
- 公平度量:使用公平性指标来评估和量化模型中的偏差。差异影响、机会均等差异和平均几率差异等指标有助于评估模型预测的公平性。
- 算法透明:提高算法设计和开发的透明度。可解释的人工智能(XAI)技术可帮助理解模型是如何做出决策的,从而更容易识别和纠正偏差。
- 定期审计和监控:持续审核和监控人工智能系统是否存在偏差。这包括定期评估不同数据集上的模型性能,并根据需要更新模型,以解决任何已发现的偏差。
- 人工智能伦理框架:制定并遵守人工智能开发的道德准则。电气和电子工程师学会(IEEE)和人工智能伙伴关系(Partnership on AI)等组织为负责任的人工智能开发提供了框架。
算法偏差与其他类型的偏差
虽然算法偏差是一个广义的术语,包含人工智能系统中各种形式的偏差,但它也与其他特定类型的偏差有关:
- 人工智能中的偏差:这是一个更笼统的术语,包括人工智能系统中任何系统性错误或偏离公平性的情况。算法偏差是这一广义范畴的一个子集,特别侧重于算法中的偏差。
- 数据集偏差:这是指用于训练机器学习模型的数据中存在的偏差。算法偏差往往是数据集偏差造成的,因为模型是根据给出的数据进行学习的。
通过了解算法偏见的细微差别及其与其他类型偏见的关系,开发人员和组织可以采取积极措施,建立更公平、更公正的人工智能系统。Ultralytics 致力于促进人工智能伦理,并提供工具和资源,帮助减轻人工智能应用中的偏见。