Scopri come la prompt injection sfrutta le vulnerabilità dell'intelligenza artificiale, ha un impatto sulla sicurezza e impara le strategie per salvaguardare i sistemi di intelligenza artificiale da attacchi dannosi.
L'iniezione di prompt è una vulnerabilità di sicurezza significativa che colpisce le applicazioni basate su Large Language Models (LLM). Si verifica quando l'input di un utente malintenzionato manipola le istruzioni dell'LLM, inducendolo a comportarsi in modi non previsti, potenzialmente aggirando le funzioni di sicurezza o eseguendo comandi dannosi. A differenza degli exploit software tradizionali che mirano alle vulnerabilità del codice, la prompt injection si rivolge all'interpretazione delle istruzioni del linguaggio naturale da parte del modello, rappresentando una sfida unica per la sicurezza dell'intelligenza artificiale (AI). Questo problema è critico in quanto gli LLM sono sempre più integrati in varie applicazioni, dai chatbot ai sistemi decisionali complessi.
I LLM operano sulla base di richieste, che sono istruzioni fornite dagli utenti o dagli sviluppatori. Un prompt consiste tipicamente nell'istruzione principale (ciò che l'intelligenza artificiale deve fare) e in qualsiasi dato fornito dall'utente. Gli attacchi di tipo Prompt-Injection funzionano creando un input dell'utente che inganna l'LLM e lo induce a trattare una parte dell'input come una nuova istruzione da sovrascrivere. Ad esempio, un aggressore potrebbe inserire delle istruzioni all'interno di quelli che sembrano essere normali dati dell'utente, inducendo l'LLM a ignorare il suo scopo originale e a seguire invece il comando dell'aggressore. Ciò evidenzia una sfida fondamentale nel distinguere tra istruzioni fidate e input dell'utente non fidati all'interno della finestra contestuale del modello. La OWASP Top 10 per le applicazioni LLM elenca l'iniezione di prompt come vulnerabilità principale.
L'iniezione di prompt può manifestarsi in vari modi, portando a gravi violazioni della sicurezza:
È importante distinguere l'iniezione rapida dai termini correlati:
La difesa contro l'iniezione rapida è un'area di ricerca e sviluppo in continua evoluzione. Le strategie più comuni includono:
Mentre i modelli come Ultralytics YOLO si concentrano principalmente su compiti di computer vision come il rilevamento di oggetti, l'ascesa di modelli multi-modali e di sistemi di visione con prompt come YOLO e YOLOE significa che la comprensione delle vulnerabilità basate sui prompt è sempre più importante nel panorama dell'IA. Garantire difese solide è fondamentale per mantenere l'etica e la sicurezza dell'IA, soprattutto quando si distribuiscono modelli tramite piattaforme come Ultralytics HUB.