Glossario

Preelaborazione dei dati

Pre-elaborazione dei dati per l'apprendimento automatico. Impara tecniche come la pulizia, il ridimensionamento e la codifica per aumentare l'accuratezza e le prestazioni del modello.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La preelaborazione dei dati si riferisce ai passi cruciali compiuti per pulire, trasformare e organizzare i dati grezzi in un formato adeguato prima di inserirli in un modello di Machine Learning (ML). I dati grezzi raccolti nel mondo reale sono spesso incompleti, incoerenti e contengono errori o rumore. La pre-elaborazione mira a risolvere questi problemi, migliorando in modo significativo la qualità dei dati e, di conseguenza, le prestazioni, l'accuratezza e l'affidabilità dei modelli di ML addestrati su di essi. Si tratta di una fase fondamentale di qualsiasi progetto basato sui dati, compresi quelli di Intelligenza Artificiale (AI) e Computer Vision (CV).

Perché la pre-elaborazione dei dati è importante?

I modelli di apprendimento automatico apprendono modelli dai dati. Se i dati non sono corretti, il modello apprenderà modelli errati, portando a previsioni e decisioni sbagliate. Dati di alta qualità e ben preparati sono essenziali per costruire modelli robusti come quelli di Ultralytics YOLO per attività come il rilevamento di oggetti. Un'efficace pre-elaborazione dei dati aiuta a:

  • Migliora l'accuratezza del modello: Dati puliti portano a modelli più precisi.
  • Ridurre i tempi di formazione: La rimozione dei dati irrilevanti o ridondanti può accelerare il processo di formazione.
  • Evita gli errori: La gestione delle incongruenze impedisce ai modelli di apprendere correlazioni spurie.
  • Migliorare la generalizzazione: Un'adeguata pre-elaborazione dei dati aiuta i modelli a funzionare meglio sui dati non visti, riducendo l 'overfitting.

Tecniche comuni di pre-elaborazione dei dati

Durante la pre-elaborazione dei dati vengono comunemente impiegate diverse tecniche:

  • Pulizia dei dati: Si tratta di identificare e gestire gli errori, le incongruenze, i valori mancanti (imputazione) e i valori anomali nel set di dati. Assicura che i dati siano accurati e coerenti.
  • Trasformazione dei dati: Questo include tecniche come:
    • Normalizzazione / Scalatura: Regolazione della gamma o della distribuzione delle caratteristiche numeriche (ad esempio, scalando i valori dei pixel nelle immagini da 0-255 a 0-1). In questo modo si garantisce che le caratteristiche con valori più grandi non influenzino in modo sproporzionato il modello.
    • Codifica di variabili categoriche: Convertire i dati non numerici (come le categorie o le etichette) in un formato numerico comprensibile ai modelli, utilizzando metodi come la codifica a un solo punto.
  • Ingegneria delle funzioni: Creare nuove caratteristiche potenzialmente più informative da quelle esistenti per migliorare le prestazioni del modello.
  • Estrazione delle caratteristiche: Deriva automaticamente nuove caratteristiche a bassa dimensione dai dati originali, spesso utilizzata nell'elaborazione delle immagini.
  • Riduzione della dimensionalità: Riduzione del numero di caratteristiche in ingresso preservando le informazioni importanti, che può semplificare i modelli e ridurre i costi computazionali. Tecniche come l'analisi delle componenti principali (PCA) sono comuni.
  • Preelaborazione delle immagini: Specifica per la computer vision, comprende il ridimensionamento delle immagini in dimensioni uniformi, la conversione degli spazi di colore (ad esempio, da RGB a scala di grigi) e l'applicazione di filtri per la riduzione del rumore. Puoi trovare maggiori dettagli nella guida diUltralytics sulla pre-elaborazione dei dati annotati.

Applicazioni del mondo reale

  1. Computer Vision per veicoli autonomi: I dati delle immagini provenienti dalle telecamere necessitano di un'ampia pre-elaborazione. Questo include il ridimensionamento delle immagini, la normalizzazione dell'intensità dei pixel, la correzione della distorsione dell'obiettivo e l'applicazione di tecniche di incremento dei dati come rotazioni casuali o regolazioni della luminosità per rendere i modelli di rilevamento degli oggetti robusti in condizioni diverse. Piattaforme come Ultralytics HUB possono aiutare a gestire questi set di dati.
  2. Manutenzione predittiva nel settore manifatturiero: I dati dei sensori (temperatura, vibrazioni, pressione) provenienti dai macchinari sono spesso rumorosi e possono contenere letture mancanti. La pre-elaborazione prevede la pulizia di questi dati filtrando il rumore, imputando i valori mancanti con metodi statistici e normalizzando le letture dei sensori prima di inserirli in un modello ML per prevedere i guasti delle apparecchiature, come discusso in AI in Manufacturing.

Preelaborazione dei dati e concetti correlati

  • Pulizia dei dati vs. Preelaborazione dei dati: La pulizia dei dati è un sottoinsieme della preelaborazione dei dati, incentrata in particolare sulla gestione di errori, valori mancanti e incongruenze. La preelaborazione dei dati è più ampia e comprende la pulizia, la trasformazione e la manipolazione delle caratteristiche.
  • Etichettatura dei dati vs. pre-elaborazione dei dati: L'etichettatura dei dati consiste nell'aggiunta di etichette o annotazioni informative (come i riquadri di delimitazione per il rilevamento degli oggetti) ai dati grezzi, fornendo la verità di base per l'apprendimento supervisionato. In genere questo avviene prima della pre-elaborazione dei dati, che prepara i dati etichettati per l'addestramento del modello. Per maggiori informazioni, consulta la guida Raccolta e annotazione dei dati.
  • Aumento dei dati vs. pre-elaborazione dei dati: L'incremento dei dati aumenta artificialmente le dimensioni e la diversità del set di dati di addestramento creando copie modificate dei dati esistenti (ad esempio, capovolgendo le immagini, aggiungendo rumore). Sebbene sia strettamente correlata e spesso applicata insieme alle fasi di preelaborazione, il suo obiettivo principale è quello di migliorare la generalizzazione del modello piuttosto che la semplice pulizia o formattazione dei dati. Esplora i suggerimenti per l'addestramento dei modelli che spesso prevedono l'aumento.

Strumenti e risorse

Diverse librerie e strumenti facilitano la pre-elaborazione dei dati:

  • Pandas: Una popolare libreria Python per la manipolazione e l'analisi dei dati, eccellente per la pulizia e la trasformazione dei dati tabellari.
  • Scikit-learn: Offre un'ampia gamma di strumenti di pre-elaborazione, tra cui scaler, codificatori e metodi di imputazione all'interno del suo sito. preprocessing modulo.
  • OpenCV: una libreria fondamentale per le attività di computer vision, che fornisce ampie funzioni per la preelaborazione delle immagini.
  • NumPy: Pacchetto fondamentale per il calcolo numerico in Python, spesso utilizzato per la manipolazione degli array durante la preelaborazione.
  • Documentazione diUltralytics : Fornisce guide ed esempi relativi alla gestione dei dati per i modelli YOLO .

In sintesi, la pre-elaborazione dei dati è una fase indispensabile del flusso di lavoro dell'apprendimento automatico, che garantisce che i dati siano nel miglior stato possibile per l'addestramento dei modelli, portando a sistemi di intelligenza artificiale più affidabili e precisi.

Leggi tutto