Glossario

Validazione incrociata

Scopri il potere della convalida incrociata nell'apprendimento automatico per migliorare l'accuratezza dei modelli, evitare l'overfitting e garantire prestazioni solide.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La convalida incrociata è un metodo statistico utilizzato per valutare le prestazioni e la capacità di generalizzazione dei modelli di apprendimento automatico (ML). Invece di dividere i dati una sola volta in set di formazione e test, la convalida incrociata suddivide sistematicamente i dati in più sottoinsiemi, o "pieghe". Il modello viene addestrato su alcune pieghe e testato sulle pieghe rimanenti; questo processo viene ripetuto più volte, con una piega diversa da testare ogni volta. Questo approccio fornisce una stima più robusta delle prestazioni del modello su dati non visti rispetto a una singola suddivisione tra addestramento e test, aiutando a prevenire problemi come l'overfitting.

Come funziona la convalida incrociata

Il tipo più comune di convalida incrociata è la convalida incrociata K-Fold. Ecco una descrizione semplificata del processo:

  1. Mescolare il set di dati: Mescola in modo casuale il set di dati per garantire che i punti di dati siano distribuiti senza pregiudizi di ordine intrinseco.
  2. Dividere in pieghe: Dividi il set di dati in "K" pieghe di dimensioni uguali (o quasi uguali). Una scelta comune per K è 5 o 10.
  3. Formazione e convalida iterativa:
    • Seleziona una piega come dati di convalida.
    • Addestra il modello sulle restanti K-1 pieghe(dati di allenamento).
    • Valutare le prestazioni del modello (ad esempio, l'accuratezza) sulla piega di convalida trattenuta.
    • Ripeti questo processo per K volte, utilizzando ogni piega esattamente una volta come set di validazione.
  4. Prestazioni medie: Calcola la media dei punteggi di prestazione ottenuti da ogni iterazione. Questo punteggio medio fornisce una stima più affidabile delle prestazioni di generalizzazione del modello.

Librerie popolari come Scikit-learn forniscono implementazioni efficienti di varie tecniche di validazione incrociata.

Perché usare la convalida incrociata?

La convalida incrociata è una tecnica fondamentale nella valutazione dei modelli per diversi motivi:

  • Stima affidabile delle prestazioni: Facendo una media dei risultati su più split, si ottiene una stima meno distorta delle prestazioni del modello sui nuovi dati rispetto a un singolo split di addestramento/validazione.
  • Utilizzo efficiente dei dati: Permette di utilizzare quasi tutti i dati sia per la formazione che per la convalida in diverse iterazioni, il che è particolarmente utile per i set di dati più piccoli.
  • Selezione e messa a punto del modello: È fondamentale per confrontare diversi modelli o per regolare gli iperparametri, aiutando a selezionare la configurazione che generalizza meglio.
  • Rilevamento di Overfitting/Underfitting: Aiuta a identificare se un modello è troppo complesso (overfitting) o troppo semplice(underfitting) osservando le variazioni di performance tra le diverse pieghe.

Validazione incrociata vs. semplice divisione treno/validazione

Mentre una semplice divisione treno/validazione prevede che una parte dei dati sia destinata esclusivamente alla convalida, la convalida incrociata utilizza i dati in modo più efficace. In una suddivisione semplice, la metrica delle prestazioni dipende fortemente da quali punti di dati specifici finiscono nell'insieme di convalida. La convalida incrociata attenua questa dipendenza assicurando che ogni punto di dati venga utilizzato per la convalida esattamente una volta, il che porta a una valutazione più stabile e affidabile. Ultralytics offre una guida all'implementazione della convalida incrociata K-Fold con Ultralytics YOLO.

Applicazioni del mondo reale

La validazione incrociata è ampiamente utilizzata in diversi ambiti dell'intelligenza artificiale e del ML:

  1. Analisi delle immagini mediche: Quando si sviluppa un modello di intelligenza artificiale per rilevare i tumori nelle scansioni utilizzando tecniche come la segmentazione delle immagini, la convalida incrociata aiuta a garantire che il modello funzioni in modo affidabile su scansioni di pazienti e apparecchiature diverse, fornendo fiducia prima dell'implementazione clinica. Ciò comporta l'addestramento e il test su diversi sottoinsiemi di dati di imaging medico dei pazienti.
  2. Rilevamento di oggetti in sistemi autonomi: Per un Ultralytics YOLO Per un modello addestrato per il rilevamento di oggetti (ad esempio, l'identificazione di pedoni per i veicoli autonomi), la convalida incrociata K-Fold può valutare la capacità del modello di generalizzarsi alle diverse condizioni ambientali (illuminazione, meteo) presenti nel set di dati prima dell'implementazione del modello. Piattaforme come Ultralytics HUB possono facilitare la gestione di questi processi di formazione.

Fornendo una solida valutazione della generalizzazione del modello, la convalida incrociata è uno strumento indispensabile per costruire sistemi di intelligenza artificiale affidabili ed efficaci.

Leggi tutto