Glossario

Dati del test

Scopri l'importanza dei dati di prova nell'IA, il loro ruolo nella valutazione delle prestazioni dei modelli, nel rilevare l'overfitting e nel garantire l'affidabilità nel mondo reale.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I dati di test sono una componente cruciale nel ciclo di vita dello sviluppo del Machine Learning (ML). Si tratta di un set di dati indipendente, separato dai set di addestramento e di validazione, utilizzato esclusivamente per la valutazione finale delle prestazioni di un modello al termine delle fasi di addestramento e di messa a punto. Questo set di dati contiene punti di dati che il modello non ha mai incontrato prima, fornendo una valutazione imparziale delle prestazioni del modello su dati nuovi e reali. L'obiettivo principale dell'utilizzo dei dati di prova è quello di stimare la capacità di generalizzazione del modello, ossia la sua capacità di funzionare in modo accurato su input sconosciuti.

Importanza dei dati di test

La vera misura del successo di un modello di ML sta nella sua capacità di gestire dati su cui non è stato esplicitamente addestrato. I dati di prova servono come punto di controllo finale, offrendo una valutazione oggettiva delle prestazioni del modello. Senza un set di test dedicato, c'è un alto rischio di overfitting, in cui un modello impara troppo bene i dati di addestramento, compreso il rumore e i modelli specifici, ma non riesce a generalizzarsi ai nuovi dati. L'utilizzo di dati di prova aiuta a garantire che le metriche di performance riportate riflettano le capacità previste dal mondo reale del modello, creando fiducia prima dell'implementazione del modello. Questa fase di valutazione finale è fondamentale per confrontare in modo affidabile modelli o approcci diversi, come ad esempio il confronto tra YOLOv8 e YOLOv9.

Caratteristiche principali

Per essere efficaci, i dati dei test devono possedere determinate caratteristiche:

  • Indipendenza: Deve essere rigorosamente separato dai dati utilizzati per la formazione e la validazione. Il modello non deve mai vedere i dati di prova in nessuna parte del processo di addestramento o di regolazione degli iperparametri.
  • Rappresentatività: Deve riflettere accuratamente le caratteristiche e la distribuzione dei dati reali che il modello incontrerà in produzione. Questo include tipi di input simili, variazioni e potenziali casi limite. Le migliori pratiche di raccolta e annotazione dei dati sono fondamentali in questo caso.
  • Dimensioni sufficienti: Anche se spesso è più piccolo dell'insieme di formazione, l'insieme di test deve essere sufficientemente grande per fornire risultati di valutazione statisticamente significativi. Una dimensione insufficiente potrebbe portare a stime inaffidabili delle prestazioni, come evidenziato nelle Regole diGoogle per il ML.

Dati di test vs. dati di formazione e convalida

È fondamentale distinguere i dati di prova dalle altre suddivisioni di dati utilizzate nel ML:

  • Dati di addestramento: Si tratta della porzione più grande del dataset, utilizzata direttamente per addestrare il modello regolandone i parametri interni o i pesi.
  • Dati di convalida: Questo sottoinsieme separato viene utilizzato durante il processo di formazione per mettere a punto gli iperparametri del modello (come il tasso di apprendimento o le scelte dell'architettura di rete) e prendere decisioni sul processo di formazione stesso (ad esempio, l'arresto anticipato). Sebbene non sia visibile durante gli aggiornamenti dei parametri, influenza indirettamente il modello finale attraverso la selezione degli iperparametri. Maggiori dettagli sono disponibili nella nostra guida sulla valutazione e la messa a punto del modello.
  • Dati di prova: Questo set di dati viene utilizzato solo una volta dopo che il modello è stato completamente addestrato e messo a punto, fornendo una valutazione finale e imparziale delle prestazioni. Non deve influenzare alcuna decisione di formazione o messa a punto. I dataset di benchmark standard come COCO sono spesso dotati di suddivisioni di test predefinite per una valutazione standardizzata.

Esempi del mondo reale

  1. Guida autonoma: Un Ultralytics YOLO Il modello addestrato per il rilevamento di oggetti (rilevamento di auto, pedoni, semafori) verrebbe valutato utilizzando un set di prova di filmati stradali registrati in condizioni (meteo, ora del giorno, località) non incluse nei set di addestramento o di validazione. Questo garantisce l'affidabilità del modello in diversi scenari di guida reali, fondamentali per l'intelligenza artificiale delle auto a guida autonoma.
  2. Diagnosi medica: Un modello sviluppato per l'analisi di immagini mediche, come il rilevamento di tumori nelle radiografie utilizzando set di dati come il Brain Tumor Detection Dataset, verrebbe testato su un set di immagini di pazienti completamente nuovo, proveniente da ospedali o scanner diversi da quelli utilizzati per l'addestramento e la convalida. Questo conferma la sua accuratezza diagnostica prima di un potenziale uso clinico, come discusso in Il ruolo dell'IA nella ricerca clinica.

Valutazione delle prestazioni sui dati di test

Le prestazioni sul set di test sono in genere misurate utilizzando parametri rilevanti per il compito, come l'accuratezza, la precisione, il richiamo, il punteggio F1 o la precisione media (mAP) per il rilevamento degli oggetti. Queste metriche, calcolate sui dati di prova non visti, forniscono la stima più realistica delle prestazioni del modello in produzione. Puoi trovare maggiori informazioni su queste metriche nella nostra guida alle metriche delle prestazioni diYOLO . Piattaforme come Ultralytics HUB facilitano il monitoraggio di queste metriche durante la fase di valutazione. Le migliori pratiche di testing dei modelli sottolineano l'importanza di questa fase finale di valutazione.

Leggi tutto