연합 학습은 원시 데이터 자체를 교환하지 않고도 로컬 데이터 샘플을 보유한 여러 분산 장치 또는 서버에서 모델을 학습할 수 있는 머신 러닝(ML) 기법입니다. 이 접근 방식은 데이터 프라이버시, 보안 및 액세스 권한과 관련된 중요한 문제를 해결하여 중앙에서 수집할 수 없거나 수집해서는 안 되는 데이터를 사용하여 모델 학습을 위한 협업을 가능하게 합니다. 데이터가 집계되는 기존의 중앙 집중식 학습과 달리 연합 학습은 데이터의 위치(주로 에지 AI 디바이스)로 학습 프로세스를 가져옵니다.
연합 학습의 핵심 개념
연합 학습은 중앙 코디네이터(서버)가 관리하는 협업적이고 반복적인 프로세스를 통해 운영됩니다:
- 모델 배포: 중앙 서버는 글로벌 모델(예: 개체 감지를 위한 Ultralytics YOLO 모델)을 초기화하여 참여하는 클라이언트 장치 또는 데이터 사일로에 배포합니다.
- 로컬 훈련: 각 클라이언트는 몇 번의 반복을 통해 로컬 데이터를 사용하여 수신된 모델을 학습시킵니다. 데이터가 클라이언트를 벗어나지 않으므로 개인정보가 유지됩니다. 이 로컬 트레이닝은 일반적으로 표준 딥러닝(DL) 기술을 사용합니다.
- 업데이트 집계: 클라이언트는 기본 데이터가 아닌 모델 업데이트 (예: 학습된 가중치 또는 그라데이션)만 중앙 서버로 다시 전송합니다. 이러한 업데이트는 차등 개인정보 보호 또는 보안 집계와 같은 기술을 사용하여 보호되는 경우가 많습니다.
- 글로벌 모델 업데이트: 서버가 수신된 업데이트를 집계(예: 평균화)하여 글로벌 모델을 개선합니다.
- 반복: 이 주기를 반복하여 모든 참여 클라이언트에서 학습한 지식으로 원시 데이터 개인 정보를 손상시키지 않으면서 글로벌 모델을 점진적으로 개선합니다. Google AI는 연합 학습 연구 및 애플리케이션에 대한 인사이트를 제공합니다.
연합 학습은 분산 교육과 관련이 있지만, 특히 데이터가 비아이디(동일하고 독립적으로 분산되지 않음)이고, 설계상 분산되어 있으며, 개인 정보 보호를 핵심 원칙으로 강조한다고 가정합니다.
연합 학습의 응용
연합 학습은 민감한 데이터나 분산된 데이터가 포함된 시나리오에서 특히 유용합니다:
- 스마트 키보드 예측: 휴대폰 키보드(예: Google Gboard)는 연합 학습을 사용하여 개별 키 입력을 중앙 서버로 전송하지 않고도 여러 디바이스에서 사용자의 입력 패턴을 기반으로 예측 텍스트 제안을 개선합니다. 이를 통해 사용자 경험을 개선하는 동시에 개인정보를 보호할 수 있습니다.
- 헬스케어: 병원은 여러 기관에 분산된 환자 데이터를 사용하여 의료 영상 분석과 같은 진단 모델을 훈련하기 위해 협업할 수 있습니다. 이를 통해 HIPAA와 같은 환자 기밀 규정을 위반하지 않고도 다양한 집단에 대해 더욱 강력한 모델을 학습시킬 수 있습니다. 의료 정보학을 위한 연합 학습에 대해 자세히 알아보세요. Ultralytics 의료 분야의 AI 솔루션에서도 유사한 영역을 탐구합니다.
연합 학습의 이점
- 강화된 데이터 개인정보 보호: 원시 데이터가 로컬 장치에 남아 있어 데이터 유출 또는 오용과 관련된 개인정보 보호 위험을 크게 줄입니다.
- 통신 비용 절감: 일반적으로 원시 데이터 세트보다 작은 모델 업데이트만 전송되므로 대역폭이 절약됩니다.
- 다양한 데이터에 대한 액세스: 사용자 또는 조직에 분산된 대규모의 이질적인 데이터 세트에 대한 학습을 지원하여 과적합이 덜 발생하고 보다 강력하고 일반화 가능한 모델을 만들 수 있습니다.
- 규정 준수: 조직이 엄격한 데이터 거버넌스 및 개인정보 보호 규정(예: GDPR, CCPA)을 준수할 수 있도록 지원합니다.
연합 학습의 과제
- 통신 병목 현상: 서버와 수많은 클라이언트 간의 잦은 통신은 특히 네트워크가 불안정한 경우 느리고 비용이 많이 들 수 있습니다.
- 시스템 이질성: 클라이언트의 하드웨어 성능, 네트워크 연결 및 전원 가용성이 다양하여 동기식 교육이 복잡해지는 경우가 많습니다. TensorFlow Federated와 같은 프레임워크는 이를 관리하는 것을 목표로 합니다.
- 통계적 이질성: 클라이언트 전반의 데이터는 종종 비아이디로, 동일한 분포를 따르지 않아 모델 통합 및 성능에 문제를 일으킬 수 있습니다.
- 보안 문제: 개인 정보 보호 기능을 강화하더라도, 시스템은 여전히 모델 업데이트나 집계 프로세스를 노리는 특정 공격에 취약할 수 있으므로 강력한 데이터 보안 조치가 필요합니다. OpenMined와 같은 개인정보 보호 ML 커뮤니티는 이러한 문제를 해결하기 위해 노력하고 있습니다.
이러한 어려움에도 불구하고 연합 학습은 개인 정보를 보호하는 인공 지능(AI)의 중요한 발전을 의미합니다. Ultralytics HUB와 같은 플랫폼은 연합된 접근 방식을 사용하여 잠재적으로 개발된 모델을 포함하여 모델의 배포 및 관리를 용이하게 할 수 있습니다. Ultralytics 설명서에서 다양한 모델 배포 옵션을 살펴볼 수 있습니다. FL과 다른 기술의 결합에 대한 자세한 논의는 능동 학습으로 컴퓨터 비전 개발 속도를 높이는 블로그 게시물에서 확인할 수 있습니다.