フェデレーテッド・ラーニング
フェデレーテッド・ラーニング:生のデータを共有することなく、デバイス間で分散型のモデル学習を可能にするプライバシー重視のAIアプローチを発見する。
Federated Learning(FL)は機械学習(ML)手法の1つで、データそのものを交換することなく、ローカル・データ・サンプルを保持する複数の分散型デバイスまたはサーバーにまたがってモデルの学習を可能にする。このアプローチでは、生のデータをユーザーのデバイスに保持することで、データのプライバシーとセキュリティに関する重要な懸念に対処する。FLは、モデル学習のために中央サーバーにデータをプールする代わりに、グローバルモデルをローカルデバイスに送信することで機能する。各デバイスは独自のデータでモデルをトレーニングし、その結果得られたモデルの更新(小規模で集中的な改善)のみが中央サーバーに送り返されて集約される。この協調プロセスにより、ユーザー情報を損なうことなく、共有されたグローバルモデルを改善することができる。
フェデレーテッド・ラーニングの仕組み
連合学習プロセスは、通常、中央の調整サーバーによって編成されるステップの反復サイクルを含む:
- モデルの配布:中央サーバーは、ニューラルネットワークのようなグローバルAIモデルを初期化し、選択したクライアントデバイス(携帯電話や病院のコンピューターなど)に配布する。
- ローカルトレーニング:各クライアント・デバイスは、そのローカル・データセットでモデルを学習する。このデータはデバイスから離れることがないため、プライベートなままである。このローカル・トレーニングは、オンデバイス・インテリジェンスの重要な要素であり、しばしばエッジAIと関連付けられる。
- 更新の送信:数回の反復トレーニングの後、各クライアントは計算したモデルの更新(勾配やモデルの重みなど)を中央サーバーに送り返す。これは、生データそのものよりもはるかに小さく安全なペイロードである。
- 安全な集約:中央サーバーは、全クライアントからのアップデートを平均化するなどして集約し、グローバルモデルを改善する。セキュアなマルチパーティ計算のような技術を使用することで、サーバーが個々のアップデートをリバースエンジニアリングできないようにすることができる。
- モデルの改善:洗練されたグローバルモデルは、次のラウンドのトレーニングのためにクライアントに送り返されます。この反復プロセスは、モデルの性能が所望の精度レベルに達するまで続けられます。
実世界での応用
Federated Learningは単なる理論的な概念ではなく、いくつかの主流アプリケーションの原動力となり、データの機密性が最も重要な業界を変革している。
- スマートキーボードの予測:グーグルのような企業は、モバイルキーボードの予測テキストを改善するためにFLを使用しています。あなたの携帯電話は、あなたの入力履歴から次の単語を提案するために学習し、これらの学習は、あなたの実際のメッセージがあなたのデバイスを離れることなく、すべてのユーザーの予測エンジンを改善するために匿名化されたモデルの更新として共有されます。
- 共同医療研究:FLは、腫瘍を検出するための医療画像解析のようなタスクのための強力な診断モデルを構築するために、病院と研究機関が協力することを可能にする。各病院は、HIPAAのようなプライバシー法で保護された患者データで共有モデルをトレーニングすることができ、機密性の高い患者記録を他の機関や中央リポジトリに公開することはありません。これにより、多様なデータセットで訓練された、よりロバストなモデルの作成が可能になります。
フェデレーテッド・ラーニングと関連概念
FLを他の学習パラダイムと区別することは重要である:
- 集中トレーニング:トレーニングのためにすべてのデータを一箇所に集める従来のアプローチ。FLはその真逆で、特にデータの一元化を避けるように設計されている。
- 分散トレーニング:この手法も複数のマシンを使用してトレーニングを高速化するが、トレーニングデータは中央の場所に保存され、トレーニングノード間で自由に分散できることを前提としている。対照的に、FLは本質的に分散化され、移動できないデータを扱う。
- アクティブ・ラーニング:この方法は、アノテーションのコストを削減するために、最も情報量の多いデータポイントを効率的に選択してラベル付けすることに重点を置いている。FLがどこでトレーニングを行うかを扱うのに対し、アクティブ・ラーニングはどのデータを使うかを扱う。この2つを組み合わせることで、プライバシーと効率をさらに高めることができる。