Глоссарий

Атаки противника

Узнай о влиянии атак противника на системы ИИ, их типах, реальных примерах и стратегиях защиты, позволяющих повысить безопасность ИИ.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Атаки противника представляют собой серьезную проблему в области искусственного интеллекта (ИИ) и машинного обучения (МЛО), представляя собой преднамеренные попытки обмануть или ввести в заблуждение системы ИИ. Эти атаки заключаются в создании специфических входных данных, часто называемых "враждебными примерами", которые могут заставить хорошо обученную модель делать неверные предсказания или классификации. Несмотря на то, что для наблюдателей-людей эти враждебные примеры могут казаться нормальными или лишь слегка измененными, они предназначены для использования уязвимостей в процессе принятия решений моделью. Понимание и защита от таких атак крайне важны для развертывания надежных и прочных систем ИИ, особенно в таких критически важных для безопасности приложениях, как автономные транспортные средства, здравоохранение и системы безопасности.

Типы атак противника

Атаки противника можно в целом разделить на две основные категории:

  • Атаки уклонения: Это наиболее распространенный тип атак противника. Они возникают на этапе тестирования, когда злоумышленник пытается манипулировать входными данными, чтобы обойти обнаружение или получить неверную классификацию модели. Например, добавление специфического шума в изображение может привести к тому, что модель обнаружения объектов не сможет идентифицировать объект.
  • Отравляющие атаки: Эти атаки происходят на этапе обучения. Злоумышленники вводят вредоносные данные в обучающий набор данных, стремясь нарушить целостность модели. Цель состоит в том, чтобы заставить модель плохо работать на определенных входных данных или создать бэкдор, который можно будет использовать позже.

Реальные примеры атак противника

Атаки противника - это не просто теоретические концепции, они имеют практическое значение в различных сценариях реального мира. Вот несколько примеров:

  • Автономные транспортные средства: В контексте самоуправляемых автомобилей состязательные атаки могут иметь серьезные последствия. Исследователи продемонстрировали, что, размещая небольшие наклейки на знаках остановки, они могут обмануть систему обнаружения объектов автомобиля, заставив ее неправильно классифицировать знак как знак ограничения скорости. Потенциально это может привести к опасным ситуациям на дороге. Узнай больше об искусственном интеллекте в самодвижущихся автомобилях.
  • Системы распознавания лиц: Атаки злоумышленников также могут быть направлены на системы распознавания лиц, используемые в системах безопасности и наблюдения. Надев специально разработанные очки или нанеся определенный макияж, человек может уклониться от обнаружения или быть неправильно идентифицирован этими системами. Это представляет собой значительную угрозу безопасности и конфиденциальности.

Техники, используемые в адверсионных атаках

Для создания неблагоприятных примеров используется несколько техник. Среди наиболее известных можно назвать следующие:

  • Быстрый метод градиентного знака (FGSM): Это один из самых ранних и популярных методов атаки. Он предполагает вычисление градиента функции потерь относительно входного изображения, а затем добавление возмущений в направлении градиента, чтобы максимизировать потери. Узнай больше о градиентном спуске.
  • Проективный градиентный спуск (PGD): Итеративная версия FGSM, PGD применяет несколько небольших шагов градиентного восхождения, проецируя результат обратно в допустимое пространство входных данных. Этот метод часто приводит к более мощным атакам.
  • Атаки Карлини и Вагнера (C&W): Эти атаки основаны на оптимизации и направлены на поиск минимального возмущения, которое приводит к неправильной классификации. Они известны тем, что очень эффективны, но требуют больших вычислительных затрат.

Защита от атак противников

Исследователи и практики разработали различные стратегии защиты от атак противника. Среди них можно выделить следующие защитные механизмы:

  • Обучение с использованием недоброжелательных примеров: Это предполагает пополнение обучающего набора данных примерами с неблагоприятными условиями. Обучая модель как на чистых, так и на неблагоприятных исходных данных, она учится быть более устойчивой к таким атакам. Узнай больше о тренировочных данных.
  • Защитная дистилляция: Эта техника предполагает обучение модели предсказывать смягченные вероятности, выводимые другой моделью, обученной на чистых данных. Она направлена на то, чтобы сделать модель менее чувствительной к небольшим возмущениям.
  • Предварительная обработка входных данных: Применение преобразований к входным данным, таких как сжатие, шумоподавление или рандомизация, может помочь смягчить последствия враждебных возмущений. Узнай больше о предварительной обработке данных.
  • Маскировка градиентов: Этот подход направлен на то, чтобы скрыть градиенты модели от злоумышленника, что усложняет создание враждебных примеров. Однако было показано, что этот метод менее эффективен против более сложных атак.

Адверсионные атаки по сравнению с другими угрозами безопасности ИИ

Хотя атаки противника представляют собой серьезную проблему, важно отличать их от других угроз безопасности ИИ:

  • Отравление данных: Как уже говорилось, отравление данных - это один из видов атаки противника, которая происходит на этапе обучения. Другие угрозы безопасности, такие как утечка данных или несанкционированный доступ, могут не включать в себя враждебные манипуляции, но все равно нарушать целостность системы.
  • Инверсия модели: Эта атака направлена на восстановление конфиденциальных данных из обучающего набора путем запроса к модели. Несмотря на то, что в ней нет состязательных примеров, она представляет собой риск для конфиденциальности, особенно при работе с такими конфиденциальными данными, как медицинские карты. Узнай больше об анализе медицинских изображений.
  • Атаки через черный ход: Эти атаки подразумевают введение скрытого триггера в модель во время обучения, что заставляет ее вести себя злонамеренно, когда триггер присутствует. Хотя они и связаны с атаками отравления, у атак с черным ходом есть конкретная цель - создать скрытую уязвимость.

Будущее атак и защиты от адверсарных атак

Область состязательных атак постоянно развивается, в ней ведутся исследования более сложных методов атак и надежных механизмов защиты. По мере того как системы искусственного интеллекта будут все больше интегрироваться в критически важные приложения, обеспечение их безопасности от атак противника будет иметь первостепенное значение.

Будущие направления исследований включают разработку более обобщающих средств защиты, понимание фундаментальных пределов робастности и создание адаптивных моделей, которые могут динамически подстраиваться под новые типы атак. Кроме того, изучение взаимодействия между объяснимым ИИ (XAI) и робастностью противника может привести к созданию более прозрачных и безопасных систем ИИ. Узнай больше об этике ИИ.

Чтобы узнать больше о состязательных атаках, изучи эти ресурсы:

Оставаясь в курсе последних разработок в области атак противника и защиты от них, практики могут внести свой вклад в создание более безопасных и надежных Ultralytics YOLO систем ИИ.

Читать полностью