Glossario

Lisciatura dell'etichetta

Migliora l'accuratezza e la robustezza dei modelli di intelligenza artificiale con lo smoothing delle etichette, una tecnica comprovata per migliorare la generalizzazione e ridurre l'eccesso di fiducia.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Lo smoothing delle etichette è una tecnica di regolarizzazione utilizzata principalmente nei compiti di classificazione nell'ambito dell'apprendimento automatico (ML) e dell'apprendimento profondo (DL). Il suo scopo principale è quello di evitare che i modelli diventino troppo sicuri delle loro previsioni sulla base dei dati di addestramento. Nell'addestramento di classificazione standard che utilizza l'apprendimento supervisionato, i modelli vengono spesso addestrati utilizzando etichette "dure", tipicamente rappresentate in un formato codificato a un punto in cui alla classe corretta viene assegnata una probabilità di 1 e a tutte le altre classi viene assegnato 0. Lo smoothing delle etichette modifica questi obiettivi duri in obiettivi "morbidi", riducendo leggermente la fiducia assegnata alla classe corretta e distribuendo una piccola quantità di massa di probabilità tra le classi errate. Questo incoraggia il modello a essere meno sicuro e potenzialmente a generalizzare meglio i dati non visti.

Come funziona la levigatura delle etichette

Invece di utilizzare un rigido 1 per la classe corretta e 0 per le altre (codifica one-hot), il label smoothing aggiusta queste probabilità di destinazione. Ad esempio, se abbiamo K e un fattore di lisciatura alpha, la probabilità di destinazione per la classe corretta diventa 1 - alphae la probabilità per ogni classe errata diventa alpha / (K-1). Questo piccolo aggiustamento significa che il modello viene penalizzato se assegna una probabilità estremamente alta (vicina a 1) a una singola classe durante l'addestramento, in quanto l'etichetta target non esprime una certezza assoluta. Questa tecnica è stata discussa in particolare nel contesto dell'addestramento di modelli avanzati di classificazione delle immagini nel libro "Ripensare l'architettura di Inception per la visione artificiale". carta.

Vantaggi della levigatura delle etichette

L'implementazione dello smoothing delle etichette può offrire diversi vantaggi:

  • Miglioramento della generalizzazione: Impedendo al modello di specializzarsi troppo sui modelli esatti dei dati di addestramento (riducendo l'overfitting), spesso si ottiene un risultato migliore su dati nuovi e non visti. La generalizzazione è un obiettivo fondamentale nel ML.
  • Migliore calibrazione del modello: I modelli addestrati con lo smoothing delle etichette tendono a produrre punteggi di probabilità che riflettono meglio la reale probabilità che la previsione sia corretta. Ciò significa che un'affidabilità prevista dell'80% ha maggiori probabilità di corrispondere a un'accuratezza effettiva dell'80%. La comprensione della calibrazione dei modelli è fondamentale per ottenere sistemi di intelligenza artificiale affidabili.
  • Riduzione della fiducia eccessiva: Affronta direttamente il problema dei modelli che assegnano una certezza quasi assoluta alle previsioni, che può essere problematica nelle applicazioni reali in cui esiste l'incertezza. L 'eccesso di fiducia può portare a decisioni sbagliate.
  • Effetto di regolarizzazione: agisce come una forma di regolarizzazione, simile a tecniche come il dropout o il decadimento del peso, aggiungendo rumore alle etichette e limitando così la complessità dei pesi del modello appreso.

Applicazioni ed esempi

Lo smoothing delle etichette è ampiamente applicabile in scenari di classificazione in vari ambiti:

  1. Classificazione delle immagini: Nei compiti di classificazione delle immagini su larga scala, come l'addestramento sul set di dati ImageNet, l'attenuazione delle etichette aiuta i modelli a generalizzarsi meglio e a raggiungere una maggiore precisione sui set di validazione. Modelli come Vision Transformers (ViT) spesso beneficiano di questa tecnica durante l'addestramento. Puoi addestrare i modelli di classificazione utilizzando strumenti come Ultralytics HUB.
  2. Elaborazione del linguaggio naturale (NLP): in compiti come la traduzione automatica o la classificazione del testo, in cui si utilizzano modelli come Transformers, l'attenuazione delle etichette può migliorare le prestazioni impedendo al modello di diventare eccessivamente sicuro sulle previsioni o sulle classificazioni di parole specifiche, soprattutto data l'ambiguità intrinseca del linguaggio.
  3. Riconoscimento vocale: Come nel caso dell'NLP, i modelli di riconoscimento vocale possono trarre vantaggio dal label smoothing per gestire le variazioni di pronuncia e le potenziali imprecisioni nelle trascrizioni all'interno dei dati di addestramento.

Sebbene non siano sempre esplicitamente descritte per ogni architettura, tecniche come lo smoothing delle etichette fanno spesso parte delle ricette di addestramento standard per i modelli più avanzati, inclusi potenzialmente i modelli di rilevamento degli oggetti come Ultralytics YOLO durante le fasi di classificazione, anche se il suo impatto può variare a seconda del compito specifico e del set di dati.

Concetti correlati

  • Codifica One-Hot: Il metodo standard di rappresentazione delle etichette categoriche in cui lo smoothing delle etichette introduce una modifica. La codifica one-hot assegna 1 alla classe vera e 0 alle altre.
  • Distillazione della conoscenza: Anche questa tecnica utilizza obiettivi morbidi, ma l'obiettivo è diverso. La Distillazione della Conoscenza utilizza i risultati di probabilità di un modello "insegnante" più grande e pre-addestrato come etichette morbide per addestrare un modello "studente" più piccolo, trasferendo le conoscenze apprese. Lo smoothing delle etichette è una tecnica di regolarizzazione autonoma applicata durante l'addestramento standard.
  • Funzioni di perdita: L'attenuazione delle etichette viene solitamente utilizzata insieme a funzioni di perdita come l'entropia incrociata, modificando la distribuzione target rispetto alla quale viene calcolata la perdita.
  • Regolarizzazione: Rientra nella più ampia categoria delle tecniche di regolarizzazione volte a migliorare la generalizzazione del modello e a prevenire l'overfitting. Altri esempi sono il Dropout e la regolarizzazione L1/L2.

Considerazioni

Sebbene sia vantaggioso, lo smoothing delle etichette richiede un'applicazione attenta. Il fattore di lisciatura (alfa) è un iperparametro che deve essere regolato; un valore troppo piccolo potrebbe avere un effetto limitato, mentre un valore troppo alto potrebbe ostacolare l'apprendimento rendendo le etichette troppo poco informative. Il suo impatto sulla calibrazione del modello, sebbene spesso positivo, deve essere valutato per l'applicazione specifica, richiedendo potenzialmente metodi di calibrazione post-hoc in alcuni casi. Si tratta di uno strumento semplice ma efficace, spesso utilizzato nei moderni framework di deep learning come PyTorch e TensorFlow.

Leggi tutto