术语表

差异化隐私

了解差异化隐私如何保护人工智能/移动语言中的敏感数据,在确保隐私的同时进行准确分析并遵守相关法规。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

差分隐私是一种公开共享数据集信息的系统,它描述数据集中群体的模式,同时隐瞒数据集中个人的信息。它提供了强有力的数学保证,即数据集中存在或不存在任何单个个体的数据都不会对任何分析结果产生重大影响。这在人工智能(AI)机器学习(ML)领域至关重要,因为在这些领域,模型通常是在大量潜在敏感的训练数据上训练出来的。确保个人隐私可以建立信任,并有助于遵守《通用数据保护条例(GDPR)等法规。

差异化隐私如何发挥作用

差分隐私背后的核心理念是在数据分析过程中引入可控的随机性(通常称为 "噪声")。这种噪声经过仔细校准,既能掩盖个体贡献,又能提取有意义的总体统计数据或训练有用的 ML 模型。隐私程度通常由一个称为ε的参数控制,该参数代表 "隐私预算"。较小的ε意味着更多的噪声和更强的隐私保证,但可能会降低结果的实用性或准确性辛西娅-德沃克(Cynthia Dwork)等研究人员正式提出了这一概念。

人工智能和机器学习的重要性

在人工智能和人工智能领域,处理敏感数据集(如用户行为数据、个人通信或医疗保健人工智能等应用中使用的医疗记录)时,差异化隐私至关重要。它允许企业利用大型数据集来训练强大的模型,如用于物体检测图像分类的模型,而不会暴露个人用户信息。差异化隐私随机梯度下降(SGD)等技术可用于训练具有隐私保证的深度学习(DL)模型。实施此类技术是负责任的人工智能开发和维护人工智能伦理的一个关键方面。

实际应用

各大科技公司和组织都采用了差异化隐私技术:

  • 苹果:利用差异化隐私保护,从数百万iOS 和 macOS 设备中收集使用统计数据(如流行的表情符号或健康数据类型),而不了解单个用户的具体情况。进一步了解 Apple 的做法
  • Google:在各种产品中应用差分隐私,包括用于遥测数据收集的Google Chrome 浏览器,以及在TensorFlow Privacy 等框架内训练 ML 模型。它也是Federated Learning 的一个常用组件,用于在分布式模型训练过程中保护用户数据。

区别隐私与相关概念

重要的是要将差别隐私与其他数据保护技术区分开来:

  • 匿名化:传统的匿名技术涉及删除或更改个人身份信息 (PII)。然而,匿名数据有时会通过链接攻击被重新识别。差分隐私为防范此类风险提供了更有力的、数学上可证明的保证。
  • 数据安全:重点是利用加密和访问控制等措施,保护数据免遭未经授权的访问、泄露和网络威胁。差异隐私是对数据安全的补充,即使数据授权方访问分析,也能保护个人隐私。
  • 联合学习:一种在分散设备上训练模型而不集中原始数据的训练技术。在提高数据隐私性的同时,通常还会增加差分隐私性,以进一步保护从设备发送的模型更新。

挑战和考虑因素

差异化隐私的主要挑战在于管理隐私与效用之间的内在权衡。增加隐私(增加更多噪音)往往会降低分析或由此产生的 ML 模型的准确性或实用性。选择合适的噪声水平(ε)并正确实施机制需要专业知识。OpenDP 库等资源和工具旨在让差异隐私的实施变得更容易。美国国家标准与技术研究院 (NIST)等组织也提供了指导。

差异化隐私为实现数据分析和机器学习提供了一个强大的框架,同时严格保护个人隐私,使其成为值得信赖的人工智能系统的基石技术。Ultralytics HUB等平台优先考虑安全、合乎道德的人工智能开发,与重视用户数据保护的原则保持一致。

阅读全部