Glossario

Deriva dei dati

Scopri i tipi, le cause e le soluzioni della deriva dei dati nell'apprendimento automatico. Scopri come individuare e mitigare la deriva dei dati per ottenere modelli di intelligenza artificiale robusti.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La deriva dei dati è una sfida significativa nel Machine Learning (ML), dove le proprietà statistiche dei dati utilizzati per addestrare un modello cambiano nel tempo rispetto ai dati che il modello incontra in produzione. Questa divergenza significa che i modelli appresi dal modello durante l'addestramento potrebbero non rispecchiare più fedelmente l'ambiente reale, causando un calo delle prestazioni. Comprendere e gestire la deriva dei dati è essenziale per mantenere l'accuratezza e l'affidabilità dei sistemi di intelligenza artificiale, in particolare quelli che operano in condizioni dinamiche.

Perché la deriva dei dati è importante

Quando si verifica una deriva dei dati, i modelli addestrati sui dati storici diventano meno efficaci nel fare previsioni su dati nuovi e sconosciuti. Questo degrado delle prestazioni può portare a un processo decisionale errato, a una riduzione del valore aziendale o a guasti critici in applicazioni sensibili come l'IA nelle auto a guida autonoma o la diagnosi medica. Il monitoraggio continuo del modello è fondamentale per individuare tempestivamente la deriva e implementare azioni correttive, come la riqualificazione o gli aggiornamenti del modello, per preservare le prestazioni. Ignorare la deriva dei dati può rendere obsoleti anche i modelli più sofisticati.

Cause della deriva dei dati

Diversi fattori possono causare la deriva dei dati, tra cui:

  • Cambiamenti nel mondo reale: Eventi esterni, evoluzione del comportamento degli utenti, stagionalità o cambiamenti nelle tendenze di mercato possono alterare la distribuzione dei dati.
  • Problemi di raccolta dati: Modifiche nella calibrazione dei sensori, cambiamenti nelle fonti di dati o errori nella pipeline dei dati possono introdurre una deriva. Ad esempio, una telecamera utilizzata per il rilevamento degli oggetti potrebbe essere sostituita o spostata.
  • Modifiche nell'elaborazione dei dati a monte: Le alterazioni nel modo in cui i dati vengono raccolti, aggregati o pre-elaborati prima di raggiungere il modello possono causare una deriva.
  • Cambiamenti delle caratteristiche: La rilevanza o la definizione delle caratteristiche in ingresso potrebbe cambiare nel tempo (deriva delle caratteristiche).
  • Cambiamenti di concetto: La relazione tra le caratteristiche in ingresso e la variabile target potrebbe cambiare (deriva concettuale), il che significa che i modelli sottostanti appresi dal modello non sono più validi.

Deriva dei dati e concetti correlati

La deriva dei dati riguarda principalmente i cambiamenti nella distribuzione dei dati in ingresso. Si distingue da:

  • Deriva del concetto: Si riferisce in particolare ai cambiamenti nella relazione tra le caratteristiche di input e la variabile target. Sebbene si verifichi spesso insieme alla deriva dei dati, si tratta di un cambiamento nel concetto sottostante che viene modellato.
  • Rilevamento delle anomalie: Si concentra sull'identificazione di singoli punti di dati che sono rari o insoliti rispetto alla norma. La deriva dei dati, al contrario, descrive un cambiamento nella distribuzione complessiva dei dati, non solo i valori anomali isolati.

Applicazioni del mondo reale

La deriva dei dati ha un impatto su diversi ambiti in cui vengono impiegati i modelli di ML:

  • Vendita al dettaglio: Le preferenze e i modelli di acquisto dei clienti cambiano, soprattutto in base alle stagioni. I sistemi di raccomandazione e i modelli di gestione delle scorte devono adattarsi a questi cambiamenti per rimanere efficaci. Ad esempio, la domanda di abbigliamento invernale diminuisce con l'avvicinarsi dell'estate, causando una deriva nei dati di vendita.
  • Sanità: Nell'analisi delle immagini mediche, i cambiamenti nelle apparecchiature di imaging, nei protocolli di scansione o nei dati demografici dei pazienti possono causare una deriva. Un modello addestrato a rilevare i tumori utilizzando le immagini di un tipo di scanner potrebbe avere scarse prestazioni sulle immagini di una macchina più recente. I modelli Ultralytics YOLO possono essere utilizzati per compiti come il rilevamento dei tumori, rendendo fondamentale il monitoraggio della deriva.
  • Finanza: I modelli di rilevamento delle frodi devono affrontare una costante deriva, poiché i truffatori sviluppano nuove tattiche. Anche i cambiamenti economici possono avere un impatto sui modelli di previsione dell'insolvenza dei prestiti, poiché il comportamento dei mutuatari cambia. I modelli di computer vision in ambito finanziario necessitano di aggiornamenti regolari.

Rilevare e mitigare la deriva dei dati

Rilevare e affrontare la deriva dei dati comporta diverse tecniche:

  • Rilevamento:
    • Monitoraggio delle metriche chiave: Tracciare le metriche di performance del modello(precisione, richiamo, punteggio F1) e le metriche dei dati (come le distribuzioni delle caratteristiche) nel tempo. Per la visualizzazione si possono usare strumenti come Prometheus e Grafana.
    • Test statistici: Utilizzando metodi come il test di Kolmogorov-Smirnov o l'indice di stabilità della popolazione (PSI) per confrontare le distribuzioni tra i dati di formazione e i dati di produzione attuali.
    • Strumenti di rilevamento della deriva: Utilizzare librerie come Evidently AI o NannyML, progettate appositamente per il rilevamento delle derive. Piattaforme come Ultralytics HUB possono aiutare a gestire i dataset e a monitorare le prestazioni dei modelli nel tempo.
  • Mitigazione:
    • Riqualificazione del modello: Riqualificazione periodica del modello su dati recenti. Questo può comportare una riqualificazione completa o aggiornamenti incrementali. I suggerimenti per la formazione del modello possono aiutare a ottimizzare questo processo.
    • Apprendimento adattivo: Utilizzo di modelli progettati per adattarsi alla distribuzione dei dati in continuo mutamento.
    • Aumento dei dati: Applicare tecniche per rendere il modello più robusto alle variazioni durante l'addestramento. Esplora le strategie di incremento dei dati.

Gestire efficacemente la deriva dei dati è un processo continuo, fondamentale per garantire che i sistemi di IA rimangano affidabili e forniscano valore nel corso della loro vita operativa.

Leggi tutto