Allucinazione (negli LLM)
Esplora le cause e i rischi delle allucinazioni dell'IA nei modelli di linguaggio grande (LLM). Scopri come mitigare gli errori fattuali utilizzando RAG, RLHF e grounding con Ultralytics .
Nel campo dell'intelligenza artificiale (IA), per allucinazione si intende un fenomeno in cui un
modello linguistico di grandi dimensioni (LLM) genera
contenuti che sono sicuri e sintatticamente corretti, ma di fatto inaccurati, privi di senso o non fedeli all'input di origine
. A differenza degli errori software standard che possono causare un crash o un malfunzionamento visibile, un modello che produce allucinazioni si comporta
come un fabbricatore convincente, presentando informazioni false con la stessa autorevolezza dei fatti validi. Ciò pone
sfide significative per le organizzazioni che implementano
l'IA generativa in settori sensibili come la sanità, il
diritto e la finanza, dove l'integrità dei dati è fondamentale.
Perché si verificano le allucinazioni?
Per comprendere perché i modelli hanno allucinazioni, è utile osservare come sono costruiti. Gli LLM si basano in genere sull'
architettura Transformer, che funziona come un
sofisticato motore di previsione. Invece di interrogare un database strutturato di fatti verificati, il modello prevede il
token successivo in una sequenza sulla base delle probabilità statistiche
derivate dai suoi dati di addestramento.
Diversi fattori determinano questo comportamento:
-
Indovinare in modo probabilistico: il modello dà la priorità alla fluidità e alla coerenza rispetto alla verità fattuale. Se una
sequenza specifica di parole è statisticamente probabile, anche se di fatto errata, il modello potrebbe generarla. Questo concetto
è spesso discusso nella ricerca riguardante i
pappagalli stocastici, dove i modelli imitano i modelli linguistici
senza comprenderne il significato.
-
Problemi relativi alla qualità dei dati: se il corpus di testi utilizzato per l'addestramento contiene contraddizioni,
informazioni obsolete o finzione, il modello potrebbe riprodurre queste imprecisioni.
-
Fonte Amnesia: gli LLM comprimono grandi quantità di informazioni in
pesi del modello. In questo processo, spesso perdono il
collegamento a fonti specifiche, portando alla "confabulazione" in cui concetti o eventi distinti vengono fusi
in modo errato.
Esempi reali di allucinazioni
Le allucinazioni possono manifestarsi in vari modi, da innocui abbellimenti creativi a gravi errori fattuali:
-
Falsificazione legale: sono stati documentati casi in cui professionisti legali hanno utilizzato l'IA per redigere
memorie, solo per scoprire che il modello aveva inventato
casi giudiziari inesistenti e
citazioni a sostegno di un'argomentazione.
-
Generazione di codice: gli sviluppatori che utilizzano assistenti AI potrebbero incorrere in "allucinazioni di pacchetti",
ovvero casi in cui il modello suggerisce di importare una libreria software o richiamare una funzione che in realtà non esiste, semplicemente
perché il nome segue le convenzioni di denominazione standard.
-
Errori biografici: quando vengono interrogati su personaggi meno famosi, i modelli possono attribuire con sicurezza
risultati, luoghi di nascita o carriere errati, mescolando efficacemente dettagli relativi a più persone.
Strategie di mitigazione
Ridurre la frequenza delle allucinazioni è uno degli obiettivi principali della
sicurezza dell'IA. Ingegneri e ricercatori utilizzano diverse
tecniche per radicare i modelli nella realtà:
-
Generazione potenziata dal recupero (RAG): questo metodo collega l'LLM a una base di conoscenza esterna e affidabile,
spesso indicizzata in un
database vettoriale. Recuperando i documenti pertinenti
prima di generare una risposta, il modello è vincolato dai dati effettivi.
-
Prompting della catena di pensiero: questa
tecnica di ingegneria dei prompt incoraggia il
modello a "mostrare il proprio lavoro" scomponendo il ragionamento complesso in passaggi intermedi, il che spesso riduce gli
errori logici.
-
Apprendimento rinforzato dal feedback umano (RLHF): durante la fase di messa a punto, i valutatori umani
classificano le risposte del modello. Penalizzando le allucinazioni e premiando la veridicità, il modello impara ad allinearsi
meglio alle aspettative umane.
Messa a terra dei LLM con la visione artificiale
Nei sistemi di IA multimodale, la generazione di testo può essere
basata su dati visivi. Se a un LLM viene chiesto di descrivere una scena, potrebbe allucinare oggetti che non sono presenti. Integrando
un rilevatore di oggetti ad alta precisione come YOLO26,
gli sviluppatori possono fornire un elenco oggettivo degli oggetti presenti al LLM, limitando rigorosamente la sua produzione a rilevamenti verificati
.
Il seguente Python mostra come utilizzare il ultralytics pacchetto per estrarre un elenco verificato di
oggetti, che può quindi fungere da vincolo fattuale per un prompt del modello linguistico.
from ultralytics import YOLO
# Load the YOLO26n model (latest generation, efficient and accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to get ground-truth detections
results = model("https://ultralytics.com/images/bus.jpg")
# Extract the class names of actually detected objects
detected_objects = [model.names[int(c)] for c in results[0].boxes.cls]
# This factual list prevents the LLM from hallucinating items
print(f"Verified Objects for Prompt Context: {detected_objects}")
# Output example: ['bus', 'person', 'person', 'person', 'person']
Differenziare i concetti correlati
È importante distinguere le allucinazioni da altri errori comuni dell'IA:
-
Vs. Pregiudizio nell'IA: il pregiudizio si riferisce a
un pregiudizio sistematico nei risultati (ad esempio, favorire un gruppo demografico rispetto a un altro), mentre l'allucinazione è un errore di
accuratezza fattuale. Una risposta può essere imparziale ma allucinata (ad esempio, "La luna è fatta di formaggio").
-
Vs. Overfitting: l'overfitting si verifica
quando un modello memorizza i dati di addestramento in modo troppo accurato e non è in grado di generalizzare nuovi input. Le allucinazioni si verificano spesso
quando un modello cerca di generalizzare eccessivamente in aree in cui mancano dati.
-
Vs. Classificazione errata: nel
rilevamento di oggetti, etichettare un'auto come un camion è un
errore di classificazione (problema di accuratezza), non un'allucinazione. L'allucinazione è specifica della creazione generativa di
contenuti falsi.
Per chi desidera gestire set di dati e addestrare modelli con un'elevata integrità dei dati al fine di prevenire errori a valle, Ultralytics offre strumenti completi per l'annotazione e la
gestione dei set di dati. Inoltre, le linee guida del
NIST AI Risk Management Framework forniscono
standard per la valutazione e la mitigazione di tali rischi negli ambienti di produzione.