Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Attacchi Adversariali

Scopri come gli attacchi avversari manipolano i modelli di apprendimento automatico. Scopri le strategie white-box e black-box, i rischi per la sicurezza dell'IA e la difesa con Ultralytics .

Gli attacchi avversari sono una sofisticata categoria di tecniche di manipolazione progettate per ingannare i modelli di apprendimento automatico (ML) e indurli a formulare previsioni errate con un elevato grado di confidenza. Questi attacchi operano introducendo perturbazioni sottili, spesso impercettibili, nei dati di input, quali immagini, audio o testo. Sebbene questi cambiamenti appaiano innocui o casuali a un osservatore umano , essi sfruttano specifiche vulnerabilità matematiche nei confini decisionali delle reti neurali ad alta dimensionalità. Poiché i sistemi di intelligenza artificiale (AI) stanno diventando parte integrante delle infrastrutture critiche per la sicurezza, comprendere come funzionano queste vulnerabilità è essenziale per sviluppare protocolli di sicurezza AI robusti e meccanismi di difesa .

Come funzionano gli attacchi avversari

In un tipico processo di addestramento con deep learning (DL), un modello ottimizza i propri pesi per ridurre al minimo l'errore su un set di dati di addestramento. Tuttavia, questi modelli creano essenzialmente mappe complesse in uno spazio multidimensionale. Un attacco avversario calcola la "direzione" precisa in questo spazio necessaria per spingere un input oltre un confine, capovolgendo la classificazione del modello. Ad esempio, nella visione artificiale (CV), la modifica dei valori dei pixel di un'immagine di un panda con una quantità calcolata di "rumore" potrebbe indurre il sistema a classificarla erroneamente come un gibbone, anche se l'immagine appare ancora esattamente come un panda all'occhio umano.

Le strategie di attacco sono generalmente classificate in base al livello di accesso che l'autore dell'attacco ha al sistema bersaglio:

  • Attacchi white-box: l'autore dell'attacco ha piena trasparenza sull'architettura, i gradienti e i pesi del modello. Ciò gli consente di calcolare matematicamente la perturbazione più efficace, spesso utilizzando tecniche come il Fast Gradient Sign Method (FGSM).
  • Attacchi black-box: L'autore dell'attacco non ha alcuna conoscenza dei parametri interni del modello e può solo osservare gli input e gli output. Gli autori degli attacchi utilizzano spesso un "modello sostitutivo" per generare esempi avversari che si trasferiscono efficacemente al sistema di destinazione , una proprietà nota come trasferibilità.

Applicazioni e rischi del mondo reale

Sebbene siano spesso oggetto di discussione nella ricerca teorica, gli attacchi avversari comportano rischi tangibili per le implementazioni nel mondo reale, in particolare nei sistemi autonomi e nella sicurezza.

  • Veicoli autonomi: Le auto a guida autonoma si affidano in larga misura al rilevamento degli oggetti per interpretare i segnali stradali. La ricerca ha dimostrato che applicando adesivi o nastro adesivo appositamente realizzati su un segnale di stop è possibile ingannare il sistema di visione del veicolo facendogli percepire il segnale come un limite di velocità. Questo tipo di attacco nel mondo fisico potrebbe causare pericolosi malfunzionamenti dell'IA nelle applicazioni automobilistiche.
  • Evasoridel riconoscimento facciale: I sistemi di sicurezza che controllano l'accesso sulla base di dati biometrici possono essere compromessi da "patch" ostili. Si tratta di motivi stampati che possono essere indossati sugli occhiali o sui vestiti e che interferiscono con il processo di estrazione delle caratteristiche. Ciò consente a un individuo non autorizzato di eludere completamente il rilevamento o di impersonare un utente specifico, aggirando i sistemi di allarme di sicurezza.

Generazione di esempi contraddittori in Python

Per comprendere quanto possano essere fragili alcuni modelli, è utile vedere con quanta facilità un'immagine possa essere perturbata. Sebbene l'inferenza standard con modelli come YOLO26 sia robusta per un uso generale, i ricercatori spesso simulano attacchi per migliorare il monitoraggio e la difesa dei modelli. Il seguente esempio concettuale utilizza PyTorch mostrare come i gradienti vengono utilizzati per calcolare una perturbazione avversaria (rumore) per un' immagine.

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

Concetti correlati

È importante distinguere gli attacchi avversari da altre forme di errore o manipolazione del modello:

  • Avvelenamento dei dati: A differenza degli attacchi avversari che manipolano l'input durante l'inferenza (fase di test), l'avvelenamento dei dati comporta la corruzione dei dati di addestramento stessi prima della costruzione del modello, incorporando backdoor nascoste o distorsioni.
  • Iniezione di prompt: si tratta di una tecnica specifica dei modelli linguistici di grandi dimensioni (LLM) e delle interfacce testuali . Sebbene concettualmente simile (ingannare il modello), si basa sulla manipolazione semantica del linguaggio piuttosto che sulla perturbazione matematica dei dati pixel o dei segnali.
  • Overfitting: si tratta di un errore di addestramento in cui un modello apprende il rumore nei dati di addestramento anziché il modello sottostante. I modelli overfitted sono spesso più suscettibili agli attacchi avversari perché i loro confini decisionali sono eccessivamente complessi e fragili.

Lo sviluppo di difese contro questi attacchi è una componente fondamentale dei moderni MLOps. Tecniche come l' addestramento avversario, in cui gli esempi attaccati vengono aggiunti al set di addestramento, aiutano i modelli a diventare più resilienti. Piattaforme come Ultralytics facilitano pipeline di addestramento e convalida rigorose, consentendo ai team di valutare la robustezza dei modelli prima di distribuirli sui dispositivi edge.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora