Glossario

Mining dei dati

Scopri come il data mining trasforma i dati grezzi in informazioni utili, alimentando l'IA, il ML e le applicazioni reali nel settore sanitario, della vendita al dettaglio e altro ancora!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Il data mining è il processo di scoperta di schemi, correlazioni, anomalie e altre preziose intuizioni nascoste in grandi insiemi di dati. Combina tecniche di apprendimento automatico (ML), statistiche e sistemi di database per trasformare i dati grezzi in informazioni e conoscenze utili. Nel regno dell'intelligenza artificiale (AI), il data mining è un passo fondamentale per comprendere le caratteristiche dei dati, preparare i dati per l'addestramento dei modelli e scoprire le strutture sottostanti che guidano il processo decisionale intelligente. L'idea di base viene spesso definita Knowledge Discovery in Databases (KDD).

Tecniche chiave di Data Mining

Il data mining comprende una serie di tecniche utilizzate per esplorare e analizzare i dati da diverse prospettive. Alcuni metodi comuni includono:

  • Classificazione: Assegnazione di punti dati a categorie o classi predefinite. Viene utilizzata in attività come il rilevamento delle e-mail di spam o la classificazione delle immagini.
  • Clustering: Raggruppare punti di dati simili senza una conoscenza preliminare dei gruppi. È utile per la segmentazione dei clienti o per identificare modelli distinti nei dati biologici. Vedi algoritmi come K-Means o DBSCAN.
  • Regressione: Previsione di valori numerici continui, come la previsione delle vendite o la stima dei prezzi delle case. Gli esempi includono Regressione lineare.
  • Association Rule Mining: Scoperta di relazioni o associazioni tra elementi in grandi insiemi di dati, notoriamente utilizzata nell'analisi dei panieri di mercato per comprendere le abitudini di acquisto.
  • Rilevamento delle anomalie: Identificare i punti di dati o gli eventi che si discostano in modo significativo dalla norma, fondamentale per il rilevamento delle frodi o l'identificazione di anomalie nei dati dei sensori.
  • Riduzione della dimensionalità: Ridurre il numero di variabili (caratteristiche) in esame preservando le informazioni importanti, spesso utilizzando tecniche come l'analisi delle componenti principali (PCA).

Il processo di Data Mining

L'estrazione dei dati è in genere un processo iterativo che prevede diverse fasi:

  1. Comprensione del business: Definizione degli obiettivi e dei requisiti del progetto.
  2. Comprensione dei dati: Raccolta ed esplorazione iniziale dei dati per familiarizzare con i dati stessi.
  3. Preparazione dei dati: Comprende la pulizia dei dati (gestione dei valori mancanti e del rumore), l'integrazione dei dati (combinazione delle fonti), la selezione dei dati (scelta dei dati rilevanti) e la preelaborazione dei dati (formattazione dei dati). Anche l 'incremento dei dati può essere applicato in questo caso.
  4. Modellazione: Selezione e applicazione di varie tecniche di estrazione (come classificazione, clustering) per identificare i modelli. Questo spesso comporta l'utilizzo di algoritmi di ML.
  5. Valutazione: Valutare i modelli scoperti per verificarne la validità, la novità, l'utilità e la comprensibilità. Spesso vengono utilizzate metriche come l'accuratezza o il mAP.
  6. Distribuzione: Utilizzare le conoscenze scoperte per prendere decisioni, spesso integrandole nei sistemi operativi o riportando i risultati. Questo potrebbe comportare la distribuzione di modelli.

Data Mining e concetti correlati

Pur essendo correlato, il data mining si differenzia da altri campi incentrati sui dati:

  • Analisi dei dati: L'analisi dei dati è un termine più ampio che comprende l'intero processo di ispezione, pulizia, trasformazione e modellazione dei dati per supportare il processo decisionale. Il data mining è una fase specifica dell'analisi dei dati che si concentra sulla scoperta di modelli nuovi e nascosti. L'analisi si concentra spesso sulle statistiche descrittive e sulle relazioni note, mentre il data mining cerca l'ignoto.
  • Apprendimento automatico (ML): Il ML è un campo dell'IA incentrato sullo sviluppo di algoritmi che consentono ai sistemi di apprendere dai dati. Il data mining utilizza gli algoritmi di ML come strumenti per scoprire modelli, ma il ML stesso è più ampio e comprende la creazione e l'applicazione di algoritmi di apprendimento per vari compiti (predizione, classificazione, ecc.). L'obiettivo del data mining è principalmente la scoperta di conoscenza dai dati.
  • Big Data: I Big Data si riferiscono a insiemi di dati caratterizzati da un grande volume, un'elevata velocità e un'ampia varietà. Le tecniche di data mining sono essenziali per estrarre valore dai Big Data, ma i Big Data stessi descrivono la natura dei dati, non il processo di analisi. Strumenti come Apache Spark sono spesso utilizzati per l'estrazione dei Big Data.

Applicazioni AI/ML del mondo reale

Il data mining guida l'innovazione in molti settori:

  1. Commercio al dettaglio ed e-commerce: I rivenditori utilizzano l'estrazione di regole di associazione (analisi del paniere di mercato) sui dati delle transazioni per scoprire quali prodotti vengono acquistati frequentemente insieme. Questa conoscenza è alla base della progettazione del layout del negozio, delle promozioni mirate e dei sistemi di raccomandazione online ("I clienti che hanno acquistato X hanno acquistato anche Y"). Questo aiuta a ottimizzare la gestione dell'inventario guidata dall'intelligenza artificiale e a personalizzare l'esperienza dei clienti, come avviene in piattaforme come Amazon.
  2. Assistenza sanitaria: Le tecniche di data mining, come la classificazione e il clustering, analizzano le cartelle cliniche dei pazienti (EHR) e le immagini mediche per identificare modelli associati alle malattie, prevedere i fattori di rischio dei pazienti o valutare l'efficacia dei trattamenti. Ad esempio, l'estrazione di dati diagnostici può aiutare a individuare precocemente patologie come il cancro (ad esempio utilizzando dataset come quello dei tumori cerebrali) o a prevedere le riammissioni ospedaliere, contribuendo a migliorare l'assistenza ai pazienti e l'allocazione delle risorse all'interno di istituzioni come il NIH. Esplora l'IA nelle soluzioni sanitarie per ulteriori esempi.

Data Mining e Ultralytics

In Ultralytics, i principi del data mining sono alla base di molti aspetti dello sviluppo e dell'implementazione di modelli di computer vision (CV) all'avanguardia, come ad esempio Ultralytics YOLO. L'addestramento di modelli robusti per attività come il rilevamento di oggetti o la segmentazione di immagini richiede dati di alta qualità e ben compresi. Le tecniche di data mining sono essenziali durante la preelaborazione, la raccolta e l'annotazione dei dati per pulire i dati, identificare le distorsioni(biasdel set di dati) e selezionare le caratteristiche rilevanti, migliorando così l'accuratezza del modello.

Inoltre, Ultralytics HUB fornisce una piattaforma in cui gli utenti possono gestire i dataset e addestrare i modelli. Gli strumenti dell'ecosistema HUB facilitano l'esplorazione e la comprensione dei set di dati, consentendo agli utenti di applicare i concetti di data mining per ottimizzare i propri flussi di lavoro di ML e sfruttare efficacemente tecniche come l'aumento dei dati. La comprensione dei dati attraverso l'estrazione è fondamentale prima di intraprendere azioni come la regolazione degli iperparametri. Per saperne di più sul ruolo dell'apprendimento automatico e del data mining nella computer vision, consulta il nostro blog. Framework come PyTorch e librerie come OpenCV sono strumenti fondamentali utilizzati in questi processi.

Leggi tutto