术语表

联合学习

发现联合学习:一种注重隐私的人工智能方法,可在不共享原始数据的情况下,跨设备进行分散模型训练。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

联合学习Federated Learning)是一种机器学习(ML)技术,它允许在多个分散的设备或持有本地数据样本的服务器之间训练模型,而无需交换原始数据本身。这种方法解决了数据隐私、安全和访问权限方面的关键问题,利用无法或不应该集中收集的数据实现了模型训练方面的协作。与数据汇总的传统集中式培训不同,联邦学习将培训过程带到数据所在地,通常是边缘人工智能设备上。

联合学习的核心概念

联合学习通过一个由中央协调人(服务器)管理的协作、迭代过程来运行:

  1. 模型分发:中央服务器初始化全局模型(如用于对象检测的Ultralytics YOLO 模型),并将其分发到参与的客户端设备或数据仓库。
  2. 本地训练:每个客户端使用本地数据对接收到的模型进行多次迭代训练。由于数据从未离开客户端,因此隐私得以维护。这种本地训练通常使用标准的深度学习(DL)技术。
  3. 更新聚合:客户端只向中央服务器发送模型更新(如学习到的权重或梯度),而不是基础数据。这些更新通常使用差分隐私或安全聚合等技术进行保护。
  4. 全局模型更新:服务器汇总收到的更新(例如,通过平均),以改进全局模型。
  5. 迭代:如此循环往复,在不损害原始数据隐私的前提下,利用所有参与客户学到的知识逐步完善全局模型。Google 人工智能对其联合学习研究和应用进行了深入探讨。

虽然与分布式培训有关,但联合学习特别假定数据是非 IID 的(不是完全相同和独立分布的),在设计上是分散的,并强调以保护隐私为核心原则。

联合学习的应用

在涉及敏感数据或分布式数据的情况下,联合学习尤其有用:

  • 智能键盘预测:手机键盘(如Google的 Gboard)使用联合学习功能,根据用户在多台设备上的键入模式改进预测文本建议,而无需将单个按键发送到中央服务器。这样既能增强用户体验,又能保护隐私。
  • 医疗保健:医院可以利用分布在不同机构的病人数据,合作训练诊断模型,如医学影像分析模型。这样就能在不违反 HIPAA 等患者保密规定的情况下,针对不同人群训练出更强大的模型。了解更多有关医疗信息学联盟学习的信息。Ultralytics 人工智能医疗解决方案中也探索了类似的领域。

联合学习的好处

  • 增强数据隐私:原始数据保留在本地设备上,大大降低了与数据泄露或滥用相关的隐私风险。
  • 降低通信成本:只传输通常比原始数据集更小的模型更新,从而节省带宽。
  • 访问多样化数据:可在分布于不同用户或组织的大型异构数据集上进行训练,从而建立更稳健、更通用、不易过度拟合的模型。
  • 监管合规:帮助企业遵守严格的数据管理和隐私法规(如 GDPR、CCPA)。

联合学习的挑战

  • 通信瓶颈:服务器与众多客户端之间的频繁通信可能会很慢,而且成本很高,尤其是在网络不可靠的情况下。
  • 系统异构性:客户端通常具有不同的硬件能力、网络连接和电源可用性,这使得同步训练变得更加复杂。TensorFlow Federated等框架旨在解决这一问题。
  • 统计异质性:客户间的数据通常是非 IID 数据,即数据分布不一致,这可能会对模型的收敛性和性能造成挑战。
  • 安全问题:在增强隐私保护的同时,系统仍可能受到针对模型更新或聚合过程的特定对抗性攻击,这就需要采取强有力的数据安全措施。保护隐私的 ML 社区(如OpenMined)致力于解决这些问题。

尽管存在这些挑战,但联合学习代表着保护隐私的人工智能(AI)领域的重大进步。Ultralytics HUB等平台可以促进模型部署和模型管理,包括可能使用联合方法开发的模型。您可以在Ultralytics 文档中探索各种模型部署选项。关于将 FL 与其他技术相结合的进一步讨论,请参阅《主动学习加速计算机视觉开发》博文

阅读全部