Glossario

Dati di formazione

Scopri l'importanza dei dati di formazione nell'apprendimento automatico, i suoi fattori chiave e come Ultralytics YOLO li sfrutta per creare modelli di IA all'avanguardia.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I dati di addestramento sono la pietra miliare dell'apprendimento automatico supervisionato e costituiscono la base su cui i modelli imparano a fare previsioni accurate. Sono costituiti da un insieme di esempi di input, in cui ogni esempio è abbinato al corrispondente output desiderato, noto come "verità di base" o "etichetta". Analizzando questi dati etichettati, gli algoritmi di apprendimento automatico identificano schemi e relazioni che permettono loro di generalizzare e fare previsioni su nuovi dati non visti. La qualità, la dimensione e la rappresentatività dei dati di addestramento hanno un impatto significativo sulle prestazioni e sull'affidabilità del modello addestrato.

Importanza dei dati di formazione

Dati di addestramento di alta qualità sono essenziali per costruire modelli di apprendimento automatico robusti e accurati. I dati devono essere rappresentativi degli scenari reali che il modello incontrerà, coprendo un'ampia gamma di variazioni e casi limite. Un set di dati vario e completo aiuta il modello ad apprendere gli schemi e le relazioni sottostanti nei dati, portando a una migliore generalizzazione e a prestazioni migliori su dati non visti. Dati di addestramento insufficienti o distorti possono dare origine a modelli che hanno scarse prestazioni nelle applicazioni reali o che presentano un comportamento scorretto o discriminatorio.

Considerazioni chiave per i dati di formazione

Diversi fattori contribuiscono all'efficacia dei dati di formazione:

  • Qualità dei dati: I dati accurati, coerenti e ben etichettati sono fondamentali. Errori o incongruenze nei dati possono portare un modello ad apprendere modelli errati.
  • Quantità di dati: In genere, un maggior numero di dati porta a migliori prestazioni del modello, in quanto consente al modello di apprendere modelli più complessi. Tuttavia, la qualità dei dati non deve essere sacrificata per la quantità.
  • Pertinenza dei dati: I dati di addestramento devono essere rilevanti per l'attività specifica per cui il modello viene addestrato. L'inclusione di dati irrilevanti può introdurre rumore e ostacolare la capacità del modello di apprendere i modelli desiderati.
  • Diversità dei dati: Un set di dati diversificato che copra un'ampia gamma di scenari, variazioni e casi limite aiuta il modello a generalizzarsi meglio a nuovi dati non visti.
  • Equilibrio dei dati: Nei compiti di classificazione, è importante avere una rappresentazione equilibrata di ogni classe nei dati di formazione. I dati sbilanciati possono portare a modelli distorti che hanno scarse prestazioni sulle classi sottorappresentate. Per saperne di più sulla gestione dello sbilanciamento dei dati, visita il blogUltralytics .

Dati di formazione e termini correlati

È importante distinguere i dati di formazione dagli altri tipi di dati utilizzati nell'apprendimento automatico:

  • Dati di convalida: I dati di convalida vengono utilizzati per mettere a punto gli iperparametri del modello e valutarne le prestazioni durante l'addestramento. Aiutano a prevenire l'overfitting fornendo una stima imparziale delle prestazioni del modello su dati non visti.
  • Dati di prova: I dati di prova vengono utilizzati per valutare le prestazioni finali del modello addestrato. Sono completamente indipendenti dai dati di addestramento e di validazione e forniscono una stima imparziale delle prestazioni del modello su dati nuovi e non visti.

Applicazioni reali dei dati di formazione

I dati di formazione vengono utilizzati in un'ampia gamma di applicazioni reali in diversi settori. Ecco due esempi concreti:

Veicoli autonomi

Le auto a guida autonoma si basano molto sui dati di addestramento per imparare a navigare e prendere decisioni in ambienti complessi del mondo reale. I dati di addestramento per questi sistemi includono in genere immagini e dati di sensori provenienti da telecamere, lidar e radar, insieme a etichette corrispondenti che indicano la presenza e la posizione di oggetti come pedoni, veicoli e segnali stradali. Grazie all'addestramento su grandi quantità di dati diversi e rappresentativi, i modelli di guida autonoma possono imparare a percepire accuratamente l'ambiente circostante e a prendere decisioni di guida sicure. Scopri il ruolo dell'intelligenza artificiale nelle auto a guida autonoma per saperne di più.

Diagnosi medica

I dati di addestramento giocano un ruolo fondamentale nello sviluppo di modelli di intelligenza artificiale per la diagnosi medica. Ad esempio, nel campo dell'imaging medico, i modelli possono essere addestrati per rilevare malattie come il cancro da radiografie, TAC o risonanze magnetiche. I dati di addestramento per questi modelli sono costituiti da immagini mediche etichettate da radiologi esperti, che indicano la presenza e la posizione di tumori o altre anomalie. Apprendendo da ampi set di immagini mediche etichettate, i modelli di IA possono aiutare i medici a fare diagnosi più rapide e precise. Scopri di più sulle applicazioni dell'IA nel settore sanitario.

Dati di formazione in Ultralytics YOLO

Ultralytics YOLO (You Only Look Once) sono modelli di rilevamento degli oggetti all'avanguardia che si basano su dati di formazione di alta qualità per ottenere prestazioni eccezionali. Questi modelli vengono addestrati su ampi set di immagini con le relative annotazioni dei riquadri di delimitazione, che indicano la posizione e la classe degli oggetti all'interno di ogni immagine. Esplora la varietà di modelli supportati da Ultralytics, tra cui YOLOv3 e YOLOv10, NAS, SAM e RT-DETR per il rilevamento, la segmentazione e molto altro.

Ultralytics fornisce una piattaforma di facile utilizzo, Ultralytics HUB, per la gestione dei dataset e l'addestramento di modelli personalizzati. Gli utenti possono caricare i propri set di dati o scegliere tra una serie di set di dati preesistenti, come COCO, per addestrare i propri modelli. Per saperne di più sull'addestramento di set di dati personalizzati Ultralytics YOLO in Google Colab. La piattaforma offre anche strumenti per la visualizzazione dei dati, la valutazione dei modelli e l'implementazione, rendendo più semplice la creazione e l'implementazione di modelli di rilevamento di oggetti ad alte prestazioni.

La documentazione di Ultralytics fornisce ampie risorse sui formati dei set di dati, sulla formazione dei modelli e sulle metriche delle prestazioni, consentendo agli utenti di sfruttare efficacemente i dati di formazione per le loro applicazioni specifiche.

Leggi tutto