了解如何识别和减轻人工智能中的数据集偏差,以确保为现实世界的应用提供公平、准确和可靠的机器学习模型。
数据集偏差是机器学习(ML)中的一个关键问题,即用于训练模型的数据不能系统地代表模型将被部署的真实世界环境的多样性和复杂性。这种差异源于数据收集、采样或注释过程中的缺陷。因此,在有偏差的数据集上训练出来的模型可能在使用类似数据的评估指标上表现良好,但在应用于新的、未见过的数据或不同的人口群体时,就会表现出概括性差、不准确和不公平。正如围绕 "人工智能中的偏见"的讨论中所强调的那样,解决数据集的偏见对于构建可靠、有效和公平的人工智能系统至关重要。
有几种形式的偏差会渗入数据集,导致模型结果出现偏差。了解这些类型是减少偏差的第一步:
在各种应用中,数据集偏差会对现实世界产生重大影响:
检测数据集的偏差需要对数据源、收集方法以及特征和标签的分布进行仔细分析。相关技术包括探索性数据分析、比较子组性能的统计测试以及发现不平衡的数据可视化。
一旦确定,缓解战略包括
数据集偏差与人工智能中的其他几个重要概念密切相关:
正如 "理解人工智能偏见"(Understanding AI Bias)博客和Google"负责任的人工智能实践"(Responsible AI Practices)等资源中所讨论的那样,理解并主动解决数据集偏见对于创建值得信赖的人工智能系统至关重要。Microsoft 负责任的人工智能资源(Microsoft Responsible AI Resources )和 ACM 公平、负责和透明(Fairness, Accountability, and Transparency,FAccT)会议等实体的研究和资源将继续推进应对这一挑战的方法。