تعرف على كيفية استغلال الحقن الفوري لنماذج اللغة الكبيرة (LLM) والنماذج متعددة الوسائط. اكتشف المخاطر في الرؤية الحاسوبية، والأمثلة الواقعية، واستراتيجيات التخفيف من أجل سلامة الذكاء الاصطناعي.
الحقن السريع هو ثغرة أمنية تؤثر بشكل أساسي على الأنظمة المبنية على الذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة (LLMs). تحدث هذه الثغرة عندما يصمم مستخدم ضار إدخالًا معينًا — غالبًا ما يكون مقنعًا على أنه نص حميد — يخدع الذكاء الاصطناعي ليتجاوز برمجته الأصلية أو حواجز الأمان أو تعليمات النظام. على عكس طرق القرصنة التقليدية التي تستغل أخطاء البرامج في الكود، يهاجم الحقن السريع التفسير الدلالي للغة في النموذج. من خلال التلاعب بنافذة السياق، يمكن للمهاجم إجبار النموذج على الكشف عن البيانات الحساسة أو إنشاء محتوى محظور أو تنفيذ إجراءات غير مصرح بها. مع ازدياد استقلالية الذكاء الاصطناعي ، يصبح فهم هذه الثغرة الأمنية أمرًا بالغ الأهمية للحفاظ على سلامة الذكاء الاصطناعي.
على الرغم من اكتشافه في البداية في روبوتات الدردشة النصية فقط، إلا أن حقن المطالبات أصبح أكثر أهمية في الرؤية الحاسوبية (CV) بسبب ظهور النماذج متعددة الوسائط. تسمح نماذج الرؤية واللغة الحديثة (VLMs)، مثل CLIP أو أجهزة الكشف ذات المفردات المفتوحة مثل YOLO للمستخدمين بتحديد أهداف الكشف باستخدام أوصاف اللغة الطبيعية (على سبيل المثال، "ابحث عن الحقيبة الحمراء").
في هذه الأنظمة، يتم تحويل الموجه النصي إلى تضمينات يقارنها النموذج بالسمات البصرية . يمكن أن يحدث "حقن موجه بصري" إذا قدم المهاجم صورة تحتوي على تعليمات نصية (مثل لافتة تقول "تجاهل هذا الكائن") يقرأها مكون التعرف الضوئي على الحروف (OCR) كأمر ذي أولوية عالية. وهذا يخلق ناقل هجوم فريدًا حيث تعمل البيئة المادية نفسها كآلية حقن، مما يشكل تحديًا لموثوقية المركبات ذاتية القيادة وأنظمة المراقبة الذكية .
تمتد آثار الحقن الفوري عبر مختلف الصناعات التي تتفاعل فيها الذكاء الاصطناعي مع المدخلات الخارجية:
من المهم التمييز بين الحقن الفوري والمصطلحات المماثلة في مجال التعلم الآلي:
يوضح الكود التالي كيفية تفاعل موجه نصي محدد من قبل المستخدم مع نموذج رؤية ذي مفردات مفتوحة. في
تطبيق آمن، فإن user_prompt سيحتاج إلى تعقيم صارم لمنع محاولات الحقن. نحن
نستخدم ultralytics حزمة لتحميل نموذج قادر على فهم تعريفات النصوص.
from ultralytics import YOLO
# Load a YOLO-World model capable of open-vocabulary detection
# This model maps text prompts to visual objects
model = YOLO("yolov8s-world.pt")
# Standard usage: The system expects simple class names
safe_classes = ["person", "bicycle", "car"]
# Injection Scenario: A malicious user inputs a prompt attempting to alter behavior
# e.g., attempting to override internal safety concepts or confuse the tokenizer
malicious_input = ["ignore safety gear", "authorized personnel only"]
# Setting classes updates the model's internal embeddings
model.set_classes(malicious_input)
# Run prediction. If the model is vulnerable to the semantic content
# of the malicious prompt, detection results may be manipulated.
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the potentially manipulated output
results[0].show()
يعد الدفاع ضد الحقن الفوري مجالًا نشطًا للبحث. وتشمل التقنيات التعلم المعزز من ردود فعل البشر (RLHF) لتدريب النماذج على رفض التعليمات الضارة، وتنفيذ دفاعات "ساندويتش" حيث يتم إحاطة مدخلات المستخدم بين تعليمات النظام. يمكن للمؤسسات التي تستخدم Ultralytics للتدريب والنشر مراقبة سجلات الاستدلال detect أنماط المطالبات detect . بالإضافة إلى ذلك، يوفر إطار عمل إدارة مخاطر الذكاء الاصطناعي التابع للمعهد الوطني للمعايير والت كنولوجيا ( NIST) إرشادات لتقييم وتخفيف هذه الأنواع من المخاطر في الأنظمة المنشورة.