Glossario

Dati di formazione

Scopri l'importanza dei dati di addestramento nell'IA. Scopri come i dataset di qualità permettono di creare modelli di apprendimento automatico accurati e robusti per le attività del mondo reale.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Nel campo dell'Intelligenza Artificiale (AI) e dell'Apprendimento Automatico (ML), i dati di addestramento sono il set di dati fondamentale utilizzato per insegnare ai modelli come eseguire compiti specifici, come la classificazione o la predizione. Si tratta di un'ampia raccolta di esempi, in cui ogni esempio abbina un input a un output o a un'etichetta desiderata. Attraverso processi come l'apprendimento supervisionato, il modello analizza questi dati, identifica gli schemi e le relazioni sottostanti e regola i suoi parametri interni(pesi del modello) per imparare la mappatura dagli input agli output. Questo apprendimento permette al modello di fare previsioni o decisioni accurate quando gli vengono presentati nuovi dati inediti.

Cosa sono i dati di allenamento?

Pensa ai dati di addestramento come al libro di testo e agli esercizi di pratica di un modello di intelligenza artificiale. Si tratta di un insieme di informazioni attentamente curate e formattate appositamente per servire da esempi durante la fase di apprendimento. Ad esempio, nei compiti di Computer Vision (CV) come l'Object Detection, i dati di addestramento sono costituiti da immagini o fotogrammi video (le caratteristiche di input) abbinati ad annotazioni (etichette) che specificano la posizione(bounding box) e la classe degli oggetti all'interno di quelle immagini. La creazione di queste etichette è una fase cruciale nota come Etichettatura dei dati. Il modello elabora iterativamente questi dati, confrontando le sue previsioni con le etichette reali e regolando i suoi parametri con tecniche come la retropropagazione e la discesa del gradiente per minimizzare l'errore o la funzione di perdita.

Importanza dei dati di formazione

Le prestazioni e l'affidabilità di un modello di intelligenza artificiale sono direttamente legate alla qualità, alla quantità e alla diversità dei dati di addestramento. Dati rappresentativi e di alta qualità sono essenziali per costruire modelli che raggiungano un'elevata accuratezza e che generalizzino bene agli scenari del mondo reale(Generalizzazione nel ML). Al contrario, dati di addestramento insufficienti, rumorosi o distorti possono portare a problemi significativi come prestazioni scarse, Overfitting (quando il modello si comporta bene con i dati di addestramento ma male con i nuovi dati) o risultati ingiusti e discriminatori dovuti a bias intrinseci del dataset. Affrontare i bias è un aspetto fondamentale dell'etica dell'IA. Pertanto, la raccolta e l'annotazione meticolosa dei dati e la loro preparazione sono fasi cruciali per lo sviluppo di sistemi di IA di successo.

Esempi di dati di formazione in applicazioni reali

I dati di addestramento sono il carburante per innumerevoli applicazioni di IA in vari settori. Ecco due esempi:

  1. Veicoli autonomi: Le auto a guida autonoma si basano molto sui dati di addestramento per i sistemi di percezione. Questi dati includono grandi quantità di filmati provenienti da telecamere, sensori LiDAR e radar, meticolosamente etichettati con oggetti come altri veicoli, pedoni, ciclisti, semafori e segnaletica stradale. Modelli come quelli utilizzati nella tecnologia di Waymo vengono addestrati su set di dati come Argoverse per imparare a navigare in modo sicuro in ambienti complessi. Per maggiori dettagli, esplora le soluzioni AI nel settore automobilistico.
  2. Analisi del sentimento: Nell'elaborazione del linguaggio naturale (NLP), i modelli di sentiment analysis determinano il tono emotivo del testo. I dati di addestramento sono costituiti da campioni di testo (ad esempio, recensioni di clienti, post sui social media) etichettati con sentimenti come "positivo", "negativo" o "neutro"(Sentiment Analysis - Wikipedia). In questo modo le aziende possono valutare automaticamente l'opinione pubblica o la soddisfazione dei clienti.

Qualità e preparazione dei dati

Garantire l'alta qualità dei dati di formazione è fondamentale e comporta diversi passaggi chiave. La pulizia dei dati (Wikipedia) risolve errori, incongruenze e valori mancanti. La pre-elaborazione dei dati trasforma i dati grezzi in un formato adatto al modello. Tecniche come l'incremento dei dati espandono artificialmente il set di dati creando copie modificate dei dati esistenti (ad esempio ruotando o ritagliando le immagini), il che aiuta a migliorare la robustezza del modello e a ridurre l'overfitting. Anche la comprensione dei dati attraverso l'esplorazione, facilitata da strumenti come Ultralytics Datasets Explorer, è fondamentale prima di iniziare il processo di formazione.

Dati di formazione vs. dati di convalida e test

In un tipico progetto di ML, i dati vengono suddivisi in tre gruppi distinti:

Mantenere una rigida separazione tra questi set di dati è essenziale per sviluppare modelli affidabili e valutarne accuratamente le capacità. Piattaforme come Ultralytics HUB offrono strumenti per gestire efficacemente questi set di dati durante il ciclo di vita del modello. Modelli all'avanguardia come Ultralytics YOLO sono spesso pre-addestrati su grandi dataset di riferimento come COCO o ImageNet, che servono come dati di addestramento estesi.

Leggi tutto