Migliora l'accuratezza e la robustezza dei modelli di intelligenza artificiale con lo smoothing delle etichette, una tecnica comprovata per migliorare la generalizzazione e ridurre l'eccesso di fiducia.
Lo smoothing delle etichette è una tecnica di regolarizzazione utilizzata durante l'addestramento dei modelli di classificazione nell'apprendimento automatico (ML) e nel deep learning (DL). Il suo obiettivo principale è quello di evitare che il modello diventi troppo sicuro di sé nelle sue previsioni. Invece di addestrare il modello utilizzando etichette "dure" (in cui alla classe corretta viene assegnata una probabilità di 1 e a tutte le altre classi 0), il label smoothing utilizza etichette "morbide". Ciò significa che alla classe corretta viene assegnata una probabilità leggermente inferiore (ad esempio, 0,9) e la piccola probabilità rimanente viene distribuita uniformemente tra le classi non corrette. Questa tecnica incoraggia il modello a essere meno sicuro delle sue previsioni, il che può portare a una migliore generalizzazione e a migliori prestazioni su dati non visti. Questa tecnica è stata discussa in particolare nel documento Rethinking the Inception Architecture.
Nei compiti di classificazione standard, i modelli vengono spesso addestrati utilizzando una funzione di perdita come l'entropia incrociata, che penalizza il modello in base a quanto la sua distribuzione di probabilità prevista si allontana dalla distribuzione target (etichette rigide). Con le etichette rigide, il modello è spinto a rendere la probabilità di uscita per la classe corretta estremamente vicina a 1 e le altre vicine a 0. Questo può portare a un overfitting, in cui il modello impara troppo bene i dati di addestramento, compreso il rumore, e non ha un buon rendimento sui nuovi dati. Lo smussamento delle etichette modifica le etichette target assegnando un piccolo valore di probabilità (epsilon) alle classi errate e riducendo la probabilità della classe corretta della quantità totale distribuita. In questo modo si evita che il modello produca valori logit eccessivamente grandi per la classe corretta, favorendo un modello meno sicuro e potenzialmente più robusto.
Lo smoothing delle etichette è ampiamente applicabile, in particolare nei compiti di classificazione in diversi domini:
Sebbene sia generalmente vantaggioso, lo smoothing delle etichette potrebbe rallentare leggermente la convergenza del modello durante l'addestramento. L'entità del beneficio può dipendere anche dal set di dati e dall'architettura del modello. Il fattore di lisciatura (epsilon) è un iperparametro che può richiedere una regolazione per ottenere risultati ottimali. Viene spesso integrato nelle pipeline di addestramento dei moderni framework e piattaforme come Ultralytics HUB.