Глоссарий

Федеративное обучение

Открой для себя федеративное обучение: подход к ИИ, ориентированный на конфиденциальность, позволяющий децентрализованно обучать модели на разных устройствах без обмена исходными данными.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Федеративное обучение - это техника машинного обучения (ML), которая позволяет обучать модели на нескольких децентрализованных устройствах или серверах, хранящих локальные образцы данных, не обмениваясь при этом самими исходными данными. Такой подход решает важнейшие проблемы, связанные с конфиденциальностью данных, безопасностью и правами доступа, позволяя совместно обучать модели, используя данные, которые не могут или не должны быть собраны централизованно. В отличие от традиционного централизованного обучения, где данные агрегируются, Federated Learning переносит процесс обучения в местоположение данных, часто на устройства Edge AI.

Основные концепции федеративного обучения

Federated Learning работает через совместный, итеративный процесс, управляемый центральным координатором (сервером):

  1. Распределение моделей: Центральный сервер инициализирует глобальную модель (например, модель Ultralytics YOLO для обнаружения объектов) и распространяет ее среди участвующих клиентских устройств или хранилищ данных.
  2. Локальное обучение: Каждый клиент обучает полученную модель, используя свои локальные данные, в течение нескольких итераций. Поскольку данные никогда не покидают клиента, конфиденциальность сохраняется. Для локального обучения обычно используются стандартные методы глубокого обучения (Deep Learning, DL).
  3. Агрегация обновлений: Клиенты отправляют на центральный сервер только обновления модели (например, выученные веса или градиенты), а не базовые данные. Эти обновления часто защищены с помощью таких техник, как дифференциальная конфиденциальность или безопасное агрегирование.
  4. Обновление глобальной модели: сервер агрегирует полученные обновления (например, путем усреднения), чтобы улучшить глобальную модель.
  5. Итерация: Этот цикл повторяется, постепенно улучшая глобальную модель с помощью знаний, полученных от всех участвующих клиентов, без ущерба для конфиденциальности исходных данных. Google AI рассказывает о своих исследованиях и приложениях Federated Learning.

Хотя оно и связано с распределенным обучением, Federated Learning предполагает, что данные не являются ИД (не идентично и независимо распределены), децентрализованы по дизайну и подчеркивают сохранение конфиденциальности в качестве основного постулата.

Области применения федеративного обучения

Federated Learning особенно полезно в сценариях, связанных с конфиденциальными или распределенными данными:

  • Умная клавиатура предсказаний: Клавиатуры для мобильных телефонов (например, Gboard от Google) используют Federated Learning для улучшения прогнозируемых текстовых предложений на основе моделей набора текста пользователем на многих устройствах, не отправляя отдельные нажатия клавиш на центральные серверы. Это повышает удобство работы пользователя и одновременно защищает конфиденциальность.
  • Здравоохранение: Больницы могут совместно обучать диагностические модели, например для анализа медицинских изображений, используя данные пациентов, распределенные по учреждениям. Это позволит создавать более надежные модели, обученные на разных группах населения, не нарушая при этом правила конфиденциальности пациентов, такие как HIPAA. Подробнее о федеративном обучении для медицинской информатики. Ultralytics исследует аналогичные области в своих решениях AI in Healthcare.

Преимущества федеративного обучения

  • Повышенная конфиденциальность данных: Необработанные данные остаются на локальных устройствах, что значительно снижает риски конфиденциальности, связанные с утечкой или неправильным использованием данных.
  • Сокращение расходов на связь: Передаются только обновления модели, которые обычно меньше, чем исходные наборы данных, что позволяет экономить полосу пропускания.
  • Доступ к разнообразным данным: Позволяет проводить обучение на больших разнородных наборах данных, распределенных между пользователями или организациями, что потенциально может привести к созданию более надежных и обобщающих моделей, менее склонных к оверфиттингу.
  • Соответствие нормативным требованиям: Помогает организациям соблюдать строгие правила управления данными и конфиденциальности (например, GDPR, CCPA).

Проблемы федеративного обучения

  • Коммуникационные узкие места: Частая связь между сервером и многочисленными клиентами может быть медленной и дорогостоящей, особенно в ненадежных сетях.
  • Гетерогенность системы: Клиенты часто имеют разные аппаратные возможности, сетевое подключение и доступность питания, что усложняет синхронное обучение. Такие фреймворки, как TensorFlow Federated, призваны справиться с этой проблемой.
  • Статистическая неоднородность: Данные, поступающие от клиентов, часто не являются однородными, то есть не имеют одинакового распределения, что может помешать сходимости и производительности модели.
  • Проблемы безопасности: Несмотря на повышение уровня конфиденциальности, система все еще может быть уязвима к специфическим атакам противника, направленным на обновление моделей или процесс агрегирования, что требует надежных мер по защите данных. Над решением этих проблем работают сообщества ML, сохраняющие приватность, например OpenMined.

Несмотря на эти проблемы, федеративное обучение представляет собой значительное достижение в области искусственного интеллекта (ИИ), сохраняющего конфиденциальность. Платформы вроде Ultralytics HUB могут облегчить развертывание моделей и управление ими, включая те, которые потенциально могут быть разработаны с использованием федеративных подходов. Ты можешь изучить различные варианты развертывания моделей в документации Ultralytics . Дальнейшее обсуждение сочетания FL с другими техниками можно найти в блоге Active Learning speeds up computer vision development post.

Читать полностью