Узнайте, как быстрая инъекция использует LLM и мультимодальные модели. Изучите риски в области компьютерного зрения, реальные примеры и стратегии снижения рисков для безопасности ИИ.
Внезапная инъекция — это уязвимость безопасности, которая в первую очередь затрагивает системы, построенные на генеративном искусственном интеллекте и больших языковых моделях (LLM). Она возникает , когда злоумышленник создает специальный ввод — часто замаскированный под безобидный текст — который обманывает искусственный интеллект , заставляя его отклоняться от исходного программирования, мер безопасности или системных инструкций. В отличие от традиционных методов взлома , которые используют ошибки в коде программного обеспечения, внезапная инъекция атакует семантическую интерпретацию языка моделью. Манипулируя контекстным окном, злоумышленник может заставить модель раскрыть конфиденциальные данные, сгенерировать запрещенный контент или выполнить несанкционированные действия. По мере того как ИИ становится все более автономным, понимание этой уязвимости становится критически важным для поддержания надежной безопасности ИИ.
Хотя изначально проникновение подсказок было обнаружено в текстовых чат-ботах, оно становится все более актуальным в компьютерном зрении (CV) в связи с появлением мультимодальных моделей. Современные модели «зрение-язык» (VLM), такие как CLIP или детекторы с открытым словарем, такие как YOLO, позволяют пользователям определять объекты обнаружения с помощью описаний на естественном языке (например, «найти красный рюкзак»).
В этих системах текстовый запрос преобразуется в встраиваемые элементы, которые модель сравнивает с визуальными особенностями. «Визуальная инъекция запроса» может произойти, если злоумышленник представит изображение, содержащее текстовые инструкции (например, знак с надписью «Игнорировать этот объект»), которые компонент оптического распознавания символов (OCR) считывает и интерпретирует как команду высокого приоритета. Это создает уникальный вектор атаки, при котором физическая среда сама по себе действует как механизм введения, ставя под сомнение надежность автономных транспортных средств и интеллектуальных систем наблюдения .
Последствия оперативного внедрения распространяются на различные отрасли, в которых ИИ взаимодействует с внешними входными данными:
Важно отличать понятие «быстрая инжекция» от схожих терминов в области машинного обучения:
Следующий код демонстрирует, как пользовательский текстовый запрос взаимодействует с моделью зрения с открытым словарем. В
безопасном приложении user_prompt требуется тщательная санитарная обработка для предотвращения попыток инъекции. Мы
используем ultralytics пакет для загрузки модели, способной понимать текстовые определения.
from ultralytics import YOLO
# Load a YOLO-World model capable of open-vocabulary detection
# This model maps text prompts to visual objects
model = YOLO("yolov8s-world.pt")
# Standard usage: The system expects simple class names
safe_classes = ["person", "bicycle", "car"]
# Injection Scenario: A malicious user inputs a prompt attempting to alter behavior
# e.g., attempting to override internal safety concepts or confuse the tokenizer
malicious_input = ["ignore safety gear", "authorized personnel only"]
# Setting classes updates the model's internal embeddings
model.set_classes(malicious_input)
# Run prediction. If the model is vulnerable to the semantic content
# of the malicious prompt, detection results may be manipulated.
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the potentially manipulated output
results[0].show()
Защита от внезапного введения — это активная область исследований. Методы включают усиленное обучение на основе обратной связи от человека (RLHF) для обучения моделей отклонять вредные инструкции, а также реализацию «сэндвич-защиты», при которой ввод пользователя заключается между системными инструкциями. Организации, использующие Ultralytics для обучения и развертывания, могут отслеживать журналы выводов для detect шаблонов запросов. Кроме того, NIST AI Risk Management Framework предоставляет рекомендации по оценке и снижению таких рисков в развернутых системах.