Glossario

Dati di formazione

Scoprite l'importanza dei dati di addestramento nell'IA. Scoprite come i set di dati di qualità permettono di creare modelli di apprendimento automatico accurati e robusti per le attività del mondo reale.

I dati di addestramento sono il set di dati fondamentali utilizzati per insegnare a un modello di apprendimento automatico (ML) a fare previsioni o decisioni accurate. Nell'apprendimento supervisionato, questi dati sono costituiti da campioni di input abbinati alle corrispondenti uscite corrette, spesso chiamate etichette o annotazioni. Il modello impara iterativamente da questi esempi, regolando i pesi interni del modello per minimizzare la differenza tra le sue previsioni e le etichette reali. La qualità, la quantità e la diversità dei dati di addestramento sono i fattori più critici che influenzano le prestazioni di un modello e la sua capacità di generalizzare a nuovi dati non visti.

L'importanza di dati di formazione di alta qualità

Il principio "garbage in, garbage out" è particolarmente vero per l'addestramento dei modelli ML. I dati di alta qualità sono essenziali per costruire sistemi robusti e affidabili. Le caratteristiche principali includono:

  • Rilevanza: I dati devono riflettere accuratamente il problema che il modello intende risolvere.
  • Diversità: Deve coprire un'ampia gamma di scenari, casi limite e variazioni che il modello incontrerà nel mondo reale per evitare l 'overfitting.
  • Etichettatura accurata: Le annotazioni devono essere corrette e coerenti. Il processo di etichettatura dei dati è spesso la parte più lunga di un progetto di computer vision.
  • Volume sufficiente: In genere è necessaria una grande quantità di dati perché il modello possa apprendere modelli significativi. Tecniche come l'aumento dei dati possono aiutare a espandere artificialmente il set di dati.
  • Bassa polarizzazione: i dati devono essere equilibrati e rappresentativi per evitare la polarizzazione del set di dati, che può portare a un comportamento scorretto o errato del modello. La comprensione dei bias algoritmici è un aspetto chiave dello sviluppo responsabile dell'IA.

Piattaforme come Ultralytics HUB forniscono strumenti per gestire i set di dati durante l'intero ciclo di vita del modello, mentre strumenti open-source come CVAT sono popolari per le attività di annotazione.

Esempi del mondo reale

  1. Veicoli autonomi: Per addestrare un modello di rilevamento degli oggetti per i veicoli autonomi, gli sviluppatori utilizzano grandi quantità di dati di addestramento provenienti da telecamere e sensori. Questi dati consistono in immagini e video in cui ogni fotogramma è meticolosamente etichettato. Pedoni, ciclisti, altre auto e segnali stradali sono racchiusi in caselle di delimitazione. Allenandosi su set di dati come Argoverse o nuScenes, l'intelligenza artificiale del veicolo impara a percepire e a navigare nell'ambiente in modo sicuro.
  2. Analisi di immagini mediche: Nel settore sanitario, i dati di addestramento per l'analisi delle immagini mediche possono essere costituiti da migliaia di scansioni MRI o CT. I radiologi annotano queste immagini per evidenziare tumori, fratture o altre patologie. Un modello ML, come quello costruito con Ultralytics YOLO, può essere addestrato su un set di dati di tumori cerebrali per imparare a identificare queste anomalie, fungendo da potente strumento per aiutare i medici a fare diagnosi più rapide e accurate. Risorse come The Cancer Imaging Archive (TCIA) forniscono accesso pubblico a tali dati per la ricerca.

Dati di formazione vs. dati di convalida e test

In un tipico progetto di ML, i dati vengono suddivisi in tre gruppi distinti:

Mantenere una rigida separazione tra questi set di dati è essenziale per sviluppare modelli affidabili. I modelli più avanzati sono spesso pre-addestrati su grandi dataset di riferimento come COCO o ImageNet, che servono come dati di addestramento estesi. È possibile trovare altri dataset su piattaforme come Google Dataset Search e Kaggle Datasets.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti