اكتشف كيف يستغل الحقن الفوري ثغرات الذكاء الاصطناعي ويؤثر على الأمان، وتعلم استراتيجيات لحماية أنظمة الذكاء الاصطناعي من الهجمات الخبيثة.
حقن الموجه هو ثغرة أمنية كبيرة تؤثر على التطبيقات التي تعمل بواسطة نماذج اللغات الكبيرة (LLMs). ويحدث ذلك عندما تتلاعب مدخلات المستخدم الخبيثة بتعليمات نموذج اللغة الكبيرة، مما يجعلها تتصرف بطرق غير مقصودة، مما قد يؤدي إلى تجاوز ميزات الأمان أو تنفيذ أوامر ضارة. وعلى عكس الثغرات البرمجية التقليدية التي تستهدف الثغرات البرمجية في البرمجيات التقليدية، يستهدف الحقن الفوري تفسير النموذج لتعليمات اللغة الطبيعية، مما يجعله تحدياً فريداً من نوعه في أمن الذكاء الاصطناعي. وتكتسب هذه المشكلة أهمية بالغة نظراً لتزايد دمج النماذج اللغوية الطبيعية في تطبيقات مختلفة، بدءاً من روبوتات الدردشة الآلية وصولاً إلى أنظمة اتخاذ القرار المعقدة.
تعمل الآلات القابلة للتشغيل على أساس المطالبات، وهي تعليمات يقدمها المستخدمون أو المطورون. تتكون المطالبة عادةً من التعليمات الأساسية (ما يجب أن يفعله الذكاء الاصطناعي) وأي بيانات يقدمها المستخدم. تعمل هجمات حقن الموجهات عن طريق صياغة مدخلات المستخدم التي تخدع الآلة LLM للتعامل مع جزء من المدخلات كتعليمات جديدة متجاوزة. على سبيل المثال، قد يقوم أحد المهاجمين بتضمين تعليمات ضمن ما يبدو أنه بيانات مستخدم عادية، مما يجعل LLM يتجاهل غرضه الأصلي ويتبع أمر المهاجم بدلاً من ذلك. يسلط هذا الضوء على تحدٍ أساسي في التمييز بين التعليمات الموثوقة ومدخلات المستخدم غير الموثوق بها داخل نافذة سياق النموذج. تدرج قائمة OWASP لأفضل 10 تطبيقات LLM في قائمة الثغرات الأمنية في تطبيقات LLM الحقن الفوري كثغرة أساسية.
يمكن أن يتجلى الحقن الفوري بطرق مختلفة، مما يؤدي إلى اختراقات أمنية خطيرة:
من المهم التفريق بين الحقن الفوري والمصطلحات ذات الصلة:
الدفاع ضد الحقن الفوري هو مجال مستمر للبحث والتطوير. وتشمل الاستراتيجيات الشائعة ما يلي:
في حين أن نماذج مثل Ultralytics YOLO تركز في المقام الأول على مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، فإن ظهور نماذج متعددة الوسائط وأنظمة الرؤية القابلة للمطالبات مثل YOLO و YOLOE يعني أن فهم الثغرات القائمة على المطالبات أصبح ذا أهمية متزايدة في مجال الذكاء الاصطناعي. إن ضمان وجود دفاعات قوية أمر بالغ الأهمية للحفاظ على أخلاقيات الذكاء الاصطناعي وأمنه، خاصةً عند نشر النماذج عبر منصات مثل Ultralytics HUB.