联合学习(Federated Learning)是一种机器学习(ML)技术,它允许在多个分散的设备或持有本地数据样本的服务器之间训练模型,而无需交换原始数据本身。这种方法解决了数据隐私、安全和访问权限方面的关键问题,利用无法或不应该集中收集的数据实现了模型训练方面的协作。与数据汇总的传统集中式培训不同,联邦学习将培训过程带到数据所在地,通常是边缘人工智能设备上。
联合学习的核心概念
联合学习通过一个由中央协调人(服务器)管理的协作、迭代过程来运行:
- 模型分发:中央服务器初始化全局模型(如用于对象检测的Ultralytics YOLO 模型),并将其分发到参与的客户端设备或数据仓库。
- 本地训练:每个客户端使用本地数据对接收到的模型进行多次迭代训练。由于数据从未离开客户端,因此隐私得以维护。这种本地训练通常使用标准的深度学习(DL)技术。
- 更新聚合:客户端只向中央服务器发送模型更新(如学习到的权重或梯度),而不是基础数据。这些更新通常使用差分隐私或安全聚合等技术进行保护。
- 全局模型更新:服务器汇总收到的更新(例如,通过平均),以改进全局模型。
- 迭代:如此循环往复,在不损害原始数据隐私的前提下,利用所有参与客户学到的知识逐步完善全局模型。Google 人工智能对其联合学习研究和应用进行了深入探讨。
虽然与分布式培训有关,但联合学习特别假定数据是非 IID 的(不是完全相同和独立分布的),在设计上是分散的,并强调以保护隐私为核心原则。
联合学习的应用
在涉及敏感数据或分布式数据的情况下,联合学习尤其有用:
- 智能键盘预测:手机键盘(如Google的 Gboard)使用联合学习功能,根据用户在多台设备上的键入模式改进预测文本建议,而无需将单个按键发送到中央服务器。这样既能增强用户体验,又能保护隐私。
- 医疗保健:医院可以利用分布在不同机构的病人数据,合作训练诊断模型,如医学影像分析模型。这样就能在不违反 HIPAA 等患者保密规定的情况下,针对不同人群训练出更强大的模型。了解更多有关医疗信息学联盟学习的信息。Ultralytics 在其人工智能医疗解决方案中也探索了类似的领域。
联合学习的好处
- 增强数据隐私:原始数据保留在本地设备上,大大降低了与数据泄露或滥用相关的隐私风险。
- 降低通信成本:只传输通常比原始数据集更小的模型更新,从而节省带宽。
- 访问多样化数据:可在分布于不同用户或组织的大型异构数据集上进行训练,从而建立更稳健、更通用、不易过度拟合的模型。
- 监管合规:帮助企业遵守严格的数据管理和隐私法规(如 GDPR、CCPA)。