用語集

データプライバシー

匿名化から連合学習に至るまで、AI/MLのための主要なデータプライバシー技術を発見し、信頼、コンプライアンス、倫理的なAIの実践を確保する。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能(AI)と機械学習(ML)の分野におけるデータプライバシーとは、AI/MLシステムで使用される個人情報や機密情報を保護するために採用される原則、規制、技術を指す。データの収集、処理、保存、共有、削除の方法を管理し、公正性、透明性、個人情報に対する個人のコントロールを確保することが含まれる。物体検出のようなAIモデルは、トレーニングのために大規模なデータセットを必要とすることが多いため、強力なデータプライバシー対策を実施することは、ユーザーの信頼を築き、法的義務を遵守し、倫理基準を遵守する上で極めて重要です。Ultralyticsアプローチはプライバシーポリシーでご確認いただけます。

AIと機械学習におけるデータ・プライバシーの重要性

データのプライバシーは、いくつかの理由からAIやMLにおいて基本的に重要である。第一に、ユーザーや利害関係者との信頼関係を築くことができる。自分のデータが安全かつ倫理的に取り扱われると信じられれば、人々はAIシステムに関与する可能性が高くなる。第二に、データプライバシーは多くの法域で法的要件となっている。欧州の一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシー法(CCPA)のような規制は、データの取り扱いに関する厳格な基準を定めており、違反した場合には多額の罰則が科される。これらの規制を遵守することは、AIソリューションをグローバルに展開する組織にとって不可欠である。第三に、データ・プライバシーの保護はAI倫理の中核をなす要素であり、AIシステムが個人の権利を尊重し、個人情報の誤用や漏洩による被害を防止することを保証する。責任あるAIへの取り組みは、開発者にとって重要な検討事項である。

データ・プライバシーを確保する技術

AIやMLアプリケーションにおけるデータプライバシーを強化するために、いくつかの技術が使用されている:

  • 匿名化と仮名化:これらの技術は、個人を容易に特定できないように個人データを修正する。匿名化では識別子を不可逆的に削除し、仮名化では識別子を人工的なものに置き換え、特定の条件下で再識別を可能にする。これらの技術に関するガイダンスは、英国の情報コミッショナー事務局などから入手できる。
  • 差分プライバシーこの方法は、データセットやクエリー結果に統計的ノイズを加える。これにより、データ分析者は集計されたデータから有用な洞察を引き出すことができ、同時に個人に関する情報が保護されたままであることを数学的に保証することができる。ハーバード・プライバシー・ツール・プロジェクト(Harvard Privacy Tools Project)のような研究機関がその応用を模索している。
  • 統合学習このアプローチでは、生のデータそのものを交換することなく、ローカル・データ・サンプルを保持する複数の分散化されたデバイスやサーバー間でMLモデルをトレーニングすることができる。その代わり、(勾配のような)モデルの更新のみが共有され、プライバシーリスクを大幅に軽減する。Federated Learningに関するGoogle AI Blogなどのリソースから詳細をご覧ください。
  • 同形暗号化:この高度な暗号技術は、暗号化されたデータに対して、最初に復号化することなく直接計算を実行することを可能にする。計算量は多いが、強力なプライバシー保証を提供する。Microsoft リサーチのSEALに関する研究などのリソースを通じて、その概念を探求してください。
  • セキュア・マルチパーティ・コンピューティング(SMPC):SMPCプロトコルは、複数のパーティが入力関数を非公開のまま共同で計算することを可能にする。概要はウィキペディアを参照。

AI/MLにおけるデータ・プライバシーの実世界応用

データ・プライバシー技術は、多くのAI/MLアプリケーションにおいて不可欠である:

  1. ヘルスケア ヘルスケアにおけるAIでは医療画像分析や病気の診断などのタスクのためにモデルをトレーニングする際に、プライバシー技術によって患者の機密情報を保護します。フェデレーテッド・ラーニングのような技術により、病院は患者データを直接共有することなく、ローカルの患者データを使ってモデルのトレーニングを共同で行うことができ、HIPAAなどの規制を遵守するのに役立つ。合成データ生成は、ここで使用されるもう一つのアプローチです。
  2. 金融銀行や金融機関は、不正検知、信用スコアリング、パーソナライズされたサービスのためにAIを使用しています。匿名化やディファレンシャル・プライバシーといったデータ・プライバシーの手法は、こうしたAI主導の金融ツールの開発を可能にする一方で、顧客の金融データの保護に役立ち、PCI DSS(Payment Card Industry Data Security Standard)などの基準への準拠を保証します。

関連概念

データ・プライバシーを、関連するデータ・セキュリティの概念と区別することは重要である。

  • データプライバシー:個人データの収集、使用、保存、共有に関する規則、方針、個人の権利に焦点を当てる。どのようなデータが収集されるのか、なぜ収集されるのか、誰がアクセスできるのか、どのように適切に使用されるのかといった問題を扱う。主な関心事には、同意、透明性、目的の限定などがある。
  • データ・セキュリティ:不正アクセス、侵害、破損、その他の脅威からデータを保護するために実施される技術的・組織的措置。例えば、暗号化、ファイアウォール、アクセス制御、侵入検知システムなどがある。

データ・プライバシーとデータ・セキュリティは別物ですが、相互に依存し合っています。データが侵害から適切に保護されていない場合、プライバシーポリシーは効果がないため、強力なデータセキュリティはデータプライバシーを確保するための前提条件である。どちらも信頼できるAIシステムを構築するために不可欠な要素であり、包括的な機械学習運用(MLOps)の実践を通じて管理されることが多い。電子プライバシー情報センター(EPIC)のような組織は、強力なプライバシー保護を提唱し、NISTプライバシーフレームワークのようなフレームワークは、実装のためのガイダンスを提供しています。

すべて読む