用語集

フェデレーテッド・ラーニング

フェデレーテッド・ラーニング:生のデータを共有することなく、デバイス間で分散型のモデル学習を可能にするプライバシー重視のAIアプローチを発見する。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Federated Learning(フェデレーテッド・ラーニング)とは、機械学習(ML)の手法の一つで、生のデータそのものを交換することなく、ローカル・データ・サンプルを保持する複数の分散化されたデバイスやサーバーにまたがってモデルをトレーニングすることを可能にする。このアプローチは、データプライバシー、セキュリティ、アクセス権に関する重要な懸念に対処し、一元的に収集できない、または収集すべきではないデータを使用したモデルトレーニングのコラボレーションを可能にします。データが集約される従来の集中型トレーニングとは異なり、Federated Learningはトレーニング・プロセスをデータのある場所、多くの場合はエッジAIデバイスにもたらします。

フェデレーテッド・ラーニングの中核概念

Federated Learningは、中央のコーディネーター(サーバー)によって管理される、協調的で反復的なプロセスを通じて運営される:

  1. モデルの配布:中央サーバーはグローバルモデル(オブジェクト検出用のUltralytics YOLO モデルのような)を初期化し、参加しているクライアントデバイスやデータサイロに配布する。
  2. ローカルトレーニング:各クライアントは、受信したモデルをローカルデータを使って数回繰り返し学習する。データがクライアントの外に出ることはないため、プライバシーは維持される。このローカル学習には、通常、標準的なディープラーニング(DL)技術が使用される。
  3. 更新の集約:クライアントは、基礎データではなく、モデルの更新(例えば、学習された重みや勾配)のみを中央サーバーに送り返す。これらの更新は、差分プライバシーやセキュアアグリゲーションのような技術を用いて保護されることが多い。
  4. グローバルモデルの更新:サーバーは受信した更新を(例えば平均化によって)集約し、グローバルモデルを改善する。
  5. 反復:このサイクルが繰り返され、生データのプライバシーを損なうことなく、すべての参加クライアントで学習された知識でグローバルモデルを徐々に改善する。Google AIは、Federated Learningの研究とアプリケーションに関する洞察を提供しています。

分散トレーニングに関連しているが、Federated Learningは特に、データが非IID(同一かつ独立に分散していない)であり、設計上分散化されており、プライバシーの保護を中核的な信条として強調していることを前提としている。

フェデレーテッド・ラーニングの応用

Federated Learningは、機密データや分散データを含むシナリオで特に有用である:

  • スマートキーボードの予測:携帯電話のキーボード(GoogleGboardのような)は、個々のキー入力を中央サーバーに送信することなく、多くのデバイスにわたるユーザーの入力パターンに基づいて予測テキスト候補を改善するためにFederated Learningを使用しています。これにより、プライバシーを保護しながらユーザー体験を向上させることができます。
  • ヘルスケア病院は、医療機関に分散している患者データを使用して、医療画像解析のような診断モデルを共同でトレーニングすることができます。これにより、HIPAAのような患者の守秘義務規制に違反することなく、多様な集団を対象にトレーニングされた、よりロバストなモデルが可能になります。Federated Learning for Healthcare Informaticsの詳細を読む。Ultralytics 、ヘルスケアにおけるAIソリューションで同様の分野を探求しています。

フェデレーテッド・ラーニングの利点

  • データ・プライバシーの強化:生データはローカル・デバイスに保存されるため、データ漏洩や悪用に関連するプライバシー・リスクが大幅に軽減されます。
  • 通信コストの削減:通常、生のデータセットよりも小さいモデルの更新のみが送信されるため、帯域幅を節約できます。
  • 多様なデータへのアクセス:ユーザーや組織に分散した大規模な異種データセットでのトレーニングが可能になり、オーバーフィッティングを起こしにくい、よりロバストで一般化可能なモデルが得られる可能性がある。
  • 規制コンプライアンス:厳格なデータガバナンスおよびプライバシー規制(GDPR、CCPAなど)への準拠を支援します。

フェデレーテッド・ラーニングの課題

  • 通信のボトルネック:特に信頼性の低いネットワークでは、サーバーと多数のクライアント間の頻繁な通信は、時間とコストがかかる可能性があります。
  • システムの不均一性:クライアントのハードウェア能力、ネットワーク接続性、電源の可用性はさまざまであることが多く、同期トレーニングが複雑になる。TensorFlow Federatedのようなフレームワークは、これを管理することを目的としている。
  • 統計的不均一性:クライアント間のデータは非IIDであることが多く、同じ分布に従わないため、モデルの収束とパフォーマンスに問題が生じる可能性があります。
  • セキュリティ上の懸念:プライバシーを強化する一方で、システムはモデル更新や集計プロセスを標的とした特定の敵対的攻撃に対して脆弱である可能性があり、強固なデータセキュリティ対策が必要となる。OpenMinedのようなプライバシー保護MLコミュニティは、これらの問題への対処に取り組んでいる。

このような課題にもかかわらず、フェデレーテッドラーニングは、プライバシーを保護する人工知能(AI)において重要な進歩を意味します。Ultralytics HUBのようなプラットフォームは、フェデレーテッドアプローチを使用して開発された可能性のあるモデルを含む、モデルのデプロイメントと管理を容易にすることができます。Ultralytics ドキュメントで、さまざまなモデルデプロイメントオプションを調べることができます。FLと他のテクニックを組み合わせることについてのさらなる議論は、アクティブラーニングがコンピュータービジョンの開発をスピードアップするというブログポストで見ることができます。

すべて読む