Glossario

Dati di formazione

Scopri l'importanza dei dati di addestramento nell'IA. Scopri come i dataset di qualità permettono di creare modelli di apprendimento automatico accurati e robusti per le attività del mondo reale.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Nel campo dell'Intelligenza Artificiale (IA) e dell'Apprendimento Automatico, i dati di addestramento sono l'ingrediente essenziale utilizzato per insegnare ai modelli come eseguire i compiti. Si tratta di un set di dati contenente numerosi esempi, in cui ogni esempio abbina un input all'output o all'etichetta desiderata. Elaborando questi dati, in genere attraverso algoritmi di apprendimento supervisionato, il modello impara a identificare schemi, relazioni e caratteristiche, consentendogli di fare previsioni o prendere decisioni su nuovi dati non visti.

Cosa sono i dati di allenamento?

I dati di addestramento costituiscono il materiale didattico per un modello di intelligenza artificiale. Si tratta di una raccolta curata di informazioni formattate in modo specifico per servire da esempi per il processo di apprendimento. Ad esempio, nelle attività di computer vision come il rilevamento di oggetti, i dati di addestramento comprendono immagini o fotogrammi video(caratteristiche di input) insieme ad annotazioni che indicano la posizione e la classe degli oggetti al loro interno (etichette). Il processo di creazione di queste etichette è noto come Data Labeling. Il modello regola iterativamente i suoi parametri interni sulla base di questi dati per minimizzare la differenza tra le sue previsioni e le etichette fornite.

Importanza dei dati di formazione

La qualità, la quantità e la diversità dei dati di addestramento determinano direttamente le prestazioni di un modello e la sua capacità di generalizzare a scenari reali(Generalizzazione nel ML). Dati rappresentativi e di alta qualità aiutano a costruire modelli robusti e ad ottenere un'elevata accuratezza. Dati insufficienti o distorti possono portare a prestazioni scarse, overfitting (in cui il modello apprende troppo bene i dati di addestramento ma fallisce con i nuovi dati) o risultati non corretti a causa del Dataset Bias. Per questo motivo, la raccolta e la preparazione dei dati di addestramento sono fasi cruciali di ogni progetto di IA.

Esempi di dati di formazione in applicazioni reali

I dati di formazione alimentano innumerevoli applicazioni di IA. Ecco due esempi:

  1. Veicoli autonomi: Modelli come Ultralytics YOLO utilizzati nell'intelligenza artificiale delle auto a guida autonoma vengono addestrati su vasti set di dati contenenti immagini e dati di sensori provenienti da varie condizioni di guida. Questi dati vengono etichettati meticolosamente con caselle di delimitazione o maschere di segmentazione per oggetti come veicoli, pedoni, ciclisti e segnali stradali, spesso utilizzando grandi set di dati pubblici come il COCO Dataset.
  2. Elaborazione del linguaggio naturale: Per compiti come la Sentiment Analysis (Wikipedia), i dati di addestramento consistono in campioni di testo (ad esempio, recensioni di prodotti, post sui social media) etichettati con sentimenti come "positivo", "negativo" o "neutro". Il modello impara ad associare i modelli linguistici a queste etichette di sentimento.

Qualità e preparazione dei dati

Garantire dati di formazione di alta qualità comporta diversi processi chiave:

  • Raccolta dei dati: Raccogliere dati rilevanti che riflettano accuratamente l'ambito del problema.
  • Pulizia dei dati (Wikipedia): Identificazione e correzione di errori, incongruenze o valori mancanti nel set di dati.
  • Etichettatura dei dati: Annotazione accurata dei dati con gli output o gli obiettivi corretti.
  • Aumento dei dati: Espansione artificiale del set di dati creando copie modificate dei dati esistenti (ad esempio ruotando le immagini, cambiando la luminosità) per migliorare la robustezza del modello.

Dati di formazione vs. dati di convalida e test

Anche se spesso vengono discussi insieme, questi set di dati hanno scopi distinti:

  • Dati di addestramento: Vengono utilizzati per addestrare il modello regolandone i parametri (pesi).
  • Dati di convalida: Utilizzati periodicamente durante l'addestramento per valutare le prestazioni del modello su dati non visti e per mettere a punto gli iperparametri(ottimizzazione degli iperparametri (Wikipedia)) senza introdurre pregiudizi dal set di test.
  • Dati di prova: Utilizzati solo al termine dell'addestramento del modello per fornire una valutazione finale e imparziale delle prestazioni del modello su dati completamente nuovi.

Separare correttamente questi set di dati è fondamentale per sviluppare modelli affidabili e valutare con precisione le loro capacità nel mondo reale. Piattaforme come Ultralytics HUB aiutano a gestire efficacemente questi set di dati durante il ciclo di vita dello sviluppo del modello.

Leggi tutto