Thuật ngữ

Học tập liên bang

Khám phá phương pháp học liên bang: phương pháp AI tập trung vào quyền riêng tư, cho phép đào tạo mô hình phi tập trung trên nhiều thiết bị mà không cần chia sẻ dữ liệu thô.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Federated Learning là một kỹ thuật Machine Learning (ML) cho phép các mô hình được đào tạo trên nhiều thiết bị hoặc máy chủ phi tập trung lưu trữ các mẫu dữ liệu cục bộ, mà không cần trao đổi dữ liệu thô. Phương pháp này giải quyết các mối quan tâm quan trọng xung quanh Quyền riêng tư dữ liệu , bảo mật và quyền truy cập, cho phép cộng tác đào tạo mô hình bằng dữ liệu không thể hoặc không nên được thu thập tập trung. Không giống như đào tạo tập trung truyền thống, nơi dữ liệu được tổng hợp, Federated Learning đưa quy trình đào tạo đến vị trí của dữ liệu, thường là trên các thiết bị Edge AI .

Các khái niệm cốt lõi của học tập liên bang

Học tập liên bang hoạt động thông qua một quá trình lặp đi lặp lại, hợp tác được quản lý bởi một điều phối viên trung tâm (máy chủ):

  1. Phân phối mô hình: Máy chủ trung tâm khởi tạo một mô hình toàn cầu (giống như Ultralytics YOLO mô hình Phát hiện Đối tượng ) và phân phối tới các thiết bị khách hàng tham gia hoặc các kho dữ liệu.
  2. Đào tạo cục bộ: Mỗi máy khách đào tạo mô hình đã nhận bằng cách sử dụng dữ liệu cục bộ của mình trong một vài lần lặp lại. Vì dữ liệu không bao giờ rời khỏi máy khách nên quyền riêng tư được duy trì. Đào tạo cục bộ này thường sử dụng các kỹ thuật Học sâu (DL) tiêu chuẩn.
  3. Tổng hợp cập nhật: Khách hàng chỉ gửi các bản cập nhật mô hình (ví dụ: trọng số hoặc độ dốc đã học) trở lại máy chủ trung tâm, không phải dữ liệu cơ bản. Các bản cập nhật này thường được bảo mật bằng các kỹ thuật như quyền riêng tư khác biệt hoặc tổng hợp an toàn.
  4. Cập nhật mô hình toàn cầu: Máy chủ tổng hợp các bản cập nhật đã nhận (ví dụ, bằng cách tính trung bình) để cải thiện mô hình toàn cầu.
  5. Lặp lại: Chu kỳ này lặp lại, dần dần cải thiện mô hình toàn cầu bằng kiến thức thu được từ tất cả khách hàng tham gia mà không làm ảnh hưởng đến quyền riêng tư dữ liệu thô. Google AI cung cấp thông tin chi tiết về nghiên cứu và ứng dụng Học tập liên bang của họ.

Mặc dù liên quan đến Đào tạo phân tán , Học tập liên bang đặc biệt giả định rằng dữ liệu không phải là IID (không được phân phối độc lập và giống hệt nhau), được thiết kế phi tập trung và nhấn mạnh việc bảo vệ quyền riêng tư là nguyên tắc cốt lõi.

Ứng dụng của Học tập liên bang

Học tập liên bang đặc biệt hữu ích trong các tình huống liên quan đến dữ liệu nhạy cảm hoặc phân tán:

  • Dự đoán bàn phím thông minh: Bàn phím điện thoại di động (như Google 'Gboard) sử dụng Federated Learning để cải thiện các đề xuất văn bản dự đoán dựa trên mẫu nhập của người dùng trên nhiều thiết bị, mà không cần gửi từng lần nhấn phím đến máy chủ trung tâm. Điều này nâng cao trải nghiệm của người dùng đồng thời bảo vệ quyền riêng tư.
  • Chăm sóc sức khỏe: Bệnh viện có thể hợp tác để đào tạo các mô hình chẩn đoán, chẳng hạn như mô hình cho Phân tích hình ảnh y tế , sử dụng dữ liệu bệnh nhân được phân phối trên khắp các tổ chức. Điều này cho phép các mô hình mạnh mẽ hơn được đào tạo trên nhiều nhóm dân số khác nhau mà không vi phạm các quy định về bảo mật bệnh nhân như HIPAA. Đọc thêm về Học tập liên bang cho Tin học chăm sóc sức khỏe . Ultralytics khám phá những lĩnh vực tương tự trong các giải pháp AI trong chăm sóc sức khỏe .

Lợi ích của việc học liên bang

  • Nâng cao quyền riêng tư dữ liệu: Dữ liệu thô được lưu trên các thiết bị cục bộ, giúp giảm đáng kể rủi ro về quyền riêng tư liên quan đến vi phạm dữ liệu hoặc sử dụng sai mục đích.
  • Giảm chi phí truyền thông: Chỉ truyền các bản cập nhật mô hình, thường nhỏ hơn tập dữ liệu thô, giúp tiết kiệm băng thông.
  • Truy cập vào dữ liệu đa dạng: Cho phép đào tạo trên các tập dữ liệu lớn, không đồng nhất được phân bổ trên nhiều người dùng hoặc tổ chức, có khả năng tạo ra các mô hình mạnh mẽ và tổng quát hơn, ít có khả năng bị quá mức .
  • Tuân thủ quy định: Giúp các tổ chức tuân thủ các quy định nghiêm ngặt về quản lý dữ liệu và quyền riêng tư (ví dụ: GDPR, CCPA).

Những thách thức của việc học liên bang

  • Nút thắt giao tiếp: Giao tiếp thường xuyên giữa máy chủ và nhiều máy khách có thể chậm và tốn kém, đặc biệt là với mạng không đáng tin cậy.
  • Tính không đồng nhất của hệ thống: Khách hàng thường có khả năng phần cứng, kết nối mạng và khả năng cung cấp điện khác nhau, làm phức tạp quá trình đào tạo đồng bộ. Các khuôn khổ như TensorFlow Federated hướng đến mục tiêu quản lý điều này.
  • Tính không đồng nhất về mặt thống kê: Dữ liệu giữa các máy khách thường không phải là IID, nghĩa là dữ liệu không tuân theo cùng một phân phối, điều này có thể gây khó khăn cho sự hội tụ và hiệu suất của mô hình.
  • Mối quan ngại về bảo mật: Mặc dù tăng cường quyền riêng tư, hệ thống vẫn có thể dễ bị tấn công bởi các cuộc tấn công đối nghịch cụ thể nhắm vào các bản cập nhật mô hình hoặc quy trình tổng hợp, đòi hỏi các biện pháp Bảo mật dữ liệu mạnh mẽ. Các cộng đồng ML bảo vệ quyền riêng tư như OpenMined đang nỗ lực giải quyết các vấn đề này.

Bất chấp những thách thức này, Federated Learning đại diện cho một bước tiến đáng kể trong Trí tuệ nhân tạo (AI) bảo vệ quyền riêng tư. Các nền tảng như Ultralytics HUB có thể tạo điều kiện cho việc triển khai mô hình và quản lý các mô hình, bao gồm cả những mô hình có khả năng được phát triển bằng cách sử dụng các phương pháp liên kết. Bạn có thể khám phá các tùy chọn triển khai mô hình khác nhau trong Ultralytics tài liệu. Có thể tìm hiểu thêm về việc kết hợp FL với các kỹ thuật khác trong bài đăng trên blog Active Learning faster up computer vision development .

Đọc tất cả