Glossario

Dati del test

Scopri l'importanza dei dati di prova nell'IA, il loro ruolo nella valutazione delle prestazioni dei modelli, nel rilevare l'overfitting e nel garantire l'affidabilità nel mondo reale.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I dati di test sono una componente cruciale nel ciclo di vita dello sviluppo del Machine Learning (ML). Si tratta di un set di dati indipendente, separato dai set di addestramento e di validazione, utilizzato esclusivamente per la valutazione finale delle prestazioni di un modello al termine delle fasi di addestramento e di messa a punto. Questo set di dati contiene punti di dati che il modello non ha mai incontrato prima, fornendo una valutazione imparziale delle prestazioni del modello su dati nuovi e reali. L'obiettivo principale dell'utilizzo dei dati di prova è quello di stimare la capacità di generalizzazione del modello, ossia la sua capacità di funzionare in modo accurato su input sconosciuti.

Importanza dei dati di test

La vera misura del successo di un modello di ML sta nella sua capacità di gestire dati su cui non è stato esplicitamente addestrato. I dati di prova servono come punto di controllo finale, offrendo una valutazione oggettiva delle prestazioni del modello. Senza un set di test dedicato, c'è un alto rischio di overfitting, in cui un modello impara troppo bene i dati di addestramento, compreso il rumore e i modelli specifici, ma non riesce a generalizzarsi ai nuovi dati. L'utilizzo di dati di prova aiuta a garantire che le metriche di performance riportate riflettano le capacità previste del modello nel mondo reale, creando fiducia prima dell'implementazione del modello. Questa fase di valutazione finale è fondamentale per confrontare in modo affidabile modelli o approcci diversi, come ad esempio il confronto tra YOLOv8 e YOLOv9, ed è in linea con le migliori pratiche come quelle descritte nelle Regole diGoogle per il ML.

Caratteristiche principali

Per essere efficaci, i dati dei test devono possedere determinate caratteristiche:

  • Rappresentatività: Deve riflettere accuratamente le caratteristiche dei dati del mondo reale che il modello incontrerà dopo la distribuzione. Ciò include distribuzioni simili di caratteristiche, classi e potenziali variazioni. Sono essenziali buone pratiche di raccolta e annotazione dei dati.
  • Indipendenza: I dati di prova devono essere rigorosamente separati dagli insiemi di formazione e di validazione. Non devono mai essere utilizzati per l'addestramento del modello o per la regolazione dei suoi iperparametri. Qualsiasi sovrapposizione o perdita può portare a stime di performance troppo ottimistiche.
  • Dimensioni sufficienti: L'insieme di test deve essere abbastanza grande da fornire risultati statisticamente significativi e stimare in modo affidabile le prestazioni del modello.

Dati di test vs. dati di formazione e convalida

È fondamentale distinguere i dati di prova dalle altre suddivisioni di dati utilizzate nel ML:

  • Dati di addestramento: Si tratta della porzione più grande del dataset, utilizzata direttamente per addestrare il modello. Il modello apprende modelli e relazioni da questi dati attraverso algoritmi come l'apprendimento supervisionato.
  • Dati di convalida: Questo set di dati separato viene utilizzato durante la fase di formazione per mettere a punto gli iperparametri del modello (come le scelte dell'architettura o le impostazioni di ottimizzazione) e prendere decisioni sul processo di formazione (ad esempio, l'interruzione anticipata). Fornisce un feedback sul livello di generalizzazione del modello durante l'addestramento, guidando la valutazione del modello e il processo di messa a punto senza utilizzare il set di test finale.
  • Dati di prova: Vengono utilizzati solo una volta dopo aver completato l'addestramento e la convalida per fornire una valutazione finale e imparziale delle prestazioni del modello su dati non visti.

Separare adeguatamente questi set di dati utilizzando strategie come un'accurata suddivisione dei dati è fondamentale per sviluppare modelli affidabili e valutare con precisione le loro capacità nel mondo reale.

Esempi del mondo reale

  1. Guida autonoma: Un Ultralytics YOLO Il modello addestrato per il rilevamento degli oggetti nelle auto a guida autonoma verrebbe valutato su un set di test contenente diversi scenari di guida inediti (ad esempio, guida notturna, pioggia battente, incroci sconosciuti). In questo modo si garantisce che il modello rilevi in modo affidabile pedoni, ciclisti e altri veicoli(la tecnologia di Waymo si basa molto su questi test) prima di essere impiegato nei veicoli reali.
  2. Diagnosi medica: nell'analisi delle immagini mediche, un modello addestrato per rilevare i tumori utilizzando dati come il Brain Tumor Detection Dataset deve essere valutato su un set di scansioni di prova provenienti da ospedali, macchine e popolazioni di pazienti diversi che non facevano parte della formazione o della convalida. Questo conferma l'accuratezza diagnostica e la robustezza del modello in contesti clinici reali.

Valutazione e gestione

Le prestazioni sul set di test sono in genere misurate utilizzando parametri rilevanti per l'attività, come l'accuratezza, la precisione media (mAP) o altri dettagliati in guide come la documentazione sulle metriche delle prestazioni diYOLO . Spesso i modelli vengono valutati rispetto a set di dati di riferimento consolidati come COCO per garantire confronti equi e promuovere la riproducibilità. La gestione di questi set di dati distinti durante il ciclo di vita del progetto è facilitata da piattaforme come Ultralytics HUB, che aiuta a organizzare le suddivisioni dei dati e a tenere traccia degli esperimenti in modo efficace.

Leggi tutto