Глоссарий

Дифференциальная конфиденциальность

Узнай, как дифференциальная конфиденциальность защищает конфиденциальные данные в AI/ML, обеспечивая конфиденциальность, но при этом позволяя проводить точный анализ и соответствовать нормативным требованиям.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Дифференциальная конфиденциальность - это система, позволяющая публично делиться информацией о наборе данных, описывая закономерности групп в этом наборе и одновременно скрывая информацию об отдельных людях в этом наборе. Она дает сильные математические гарантии того, что наличие или отсутствие данных об отдельном человеке в наборе данных не окажет существенного влияния на результат любого анализа. Это крайне важно в областях искусственного интеллекта (ИИ) и машинного обучения (МЛ), где модели часто обучаются на больших объемах потенциально конфиденциальных обучающих данных. Обеспечение индивидуальной конфиденциальности укрепляет доверие и облегчает соблюдение таких нормативных актов, как General Data Protection Regulation (GDPR).

Как работает дифференциальная конфиденциальность

Основная идея дифференциальной конфиденциальности заключается в том, чтобы внести в процесс анализа данных контролируемое количество случайности, часто называемое "шумом". Этот шум тщательно выверяется, чтобы замаскировать индивидуальный вклад и при этом позволить извлечь значимую совокупную статистику или обучить полезные ML-модели. Уровень конфиденциальности часто контролируется параметром под названием эпсилон (ε), представляющим собой "бюджет конфиденциальности". Меньший эпсилон означает больше шума и более сильные гарантии приватности, но потенциально меньшую полезность или точность результатов. Эта концепция была формализована такими исследователями, как Синтия Дворк.

Важность в искусственном интеллекте и машинном обучении

В AI и ML дифференциальная конфиденциальность очень важна при работе с конфиденциальными наборами данных, такими как данные о поведении пользователей, личные сообщения или медицинские карты, используемые в таких приложениях, как AI в здравоохранении. Она позволяет организациям использовать большие наборы данных для обучения мощных моделей, например, тех, что используются для обнаружения объектов или классификации изображений, не раскрывая индивидуальную информацию о пользователе. Такие техники, как дифференциально приватный стохастический градиентный спуск (SGD), могут быть использованы для обучения моделей глубокого обучения (DL) с гарантиями конфиденциальности. Реализация таких методов - ключевой аспект ответственной разработки ИИ и соблюдения этики ИИ.

Применение в реальном мире

Дифференциальная конфиденциальность используется крупнейшими технологическими компаниями и организациями:

  • Apple: Использует дифференцированную конфиденциальность, чтобы собирать статистику использования (например, популярные эмодзи или типы данных о здоровье) с миллионов устройств iOS и macOS, не узнавая конкретные данные об отдельных пользователях. Узнай больше о подходе Apple.
  • Google: Применяет дифференциальную конфиденциальность в различных продуктах, включая Google Chrome для сбора телеметрических данных и при обучении ML-моделей в таких фреймворках, как TensorFlow Privacy. Этот компонент также часто используется вместе с Federated Learning для защиты пользовательских данных во время распределенного обучения моделей.

Дифференциальная конфиденциальность в сравнении со смежными понятиями

Важно отличать дифференциальную конфиденциальность от других методов защиты данных:

  • Анонимизация: Традиционные методы анонимизации подразумевают удаление или изменение персонально идентифицируемой информации (PII). Однако анонимизированные данные иногда могут быть повторно идентифицированы с помощью атак на установление связей. Дифференциальная конфиденциальность обеспечивает более надежную, математически доказуемую гарантию от подобных рисков.
  • Безопасность данных: Сосредоточена на защите данных от несанкционированного доступа, утечек и киберугроз с помощью таких мер, как шифрование и контроль доступа. Дифференциальная конфиденциальность дополняет безопасность данных, защищая частную жизнь человека, даже когда к данным получают доступ для анализа уполномоченные стороны.
  • Федеративное обучение: Техника обучения, при которой модели обучаются на децентрализованных устройствах без централизации исходных данных. Хотя это повышает конфиденциальность данных, часто добавляется дифференциальная конфиденциальность, чтобы дополнительно защитить обновления модели, отправляемые с устройств.

Проблемы и соображения

Основная проблема дифференциальной приватности заключается в управлении присущим ей компромиссом между приватностью и полезностью. Увеличение приватности (добавление большего количества шума) часто снижает точность или полезность анализа или результирующей ML-модели. Выбор правильного уровня шума (эпсилон) и правильная реализация механизмов требуют опыта. Ресурсы и инструменты вроде библиотеки OpenDP призваны упростить реализацию дифференциальной конфиденциальности. Такие организации, как Национальный институт стандартов и технологий США (NIST), также предоставляют рекомендации.

Дифференциальная конфиденциальность предлагает надежную основу для анализа данных и машинного обучения при строгой защите частной жизни, что делает ее краеугольной технологией для надежных систем ИИ. Такие платформы, как Ultralytics HUB, ставят во главу угла безопасную и этичную разработку ИИ, согласуясь с принципами, которые ценят защиту пользовательских данных.

Читать полностью