Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Data Mining

Entdecken Sie Data-Mining-Techniken und -Anwendungen. Erfahren Sie, wie Sie mit Ultralytics Erkenntnisse gewinnen, Muster identifizieren und KI-Workflows optimieren können.

Data Mining ist der Prozess der Untersuchung und Analyse großer Informationsmengen, um aussagekräftige Muster und Trends zu erkennen. Es befindet sich an der Schnittstelle zwischen Statistik, maschinellem Lernen (ML) und Datenbanksystemen und ist ein wichtiger Schritt in der Pipeline der „Wissensgewinnung aus Datenbanken“ (KDD). Durch das Durchsuchen riesiger Mengen an Rohdaten verwandelt Data Mining unstrukturierte Daten in strukturierte, verwertbare Erkenntnisse, die Unternehmen und Forscher nutzen, um fundierte Entscheidungen zu treffen.

Im Zusammenhang mit moderner künstlicher Intelligenz (KI) ist Data Mining oft der Vorläufer der prädiktiven Modellierung. Bevor ein Algorithmus die Zukunft vorhersagen kann, muss er die Vergangenheit verstehen. In der Computervision (CV) beispielsweise können Mining-Techniken Tausende von Bildern analysieren, um gemeinsame Merkmale wie Kanten, Texturen oder Formen zu identifizieren, die eine bestimmte Objektklasse definieren, und so die Grundlage für das Training robuster Datensätze schaffen.

Wichtige Techniken im Data Mining

Data Mining stützt sich auf mehrere ausgefeilte Methoden, um verborgene Zusammenhänge in Daten aufzudecken. Diese Techniken ermöglichen es Analysten, über die einfache Datenzusammenfassung hinaus zu tiefgreifenden Erkenntnissen zu gelangen.

  • Klassifizierung: Hierbei werden Datenelemente in vordefinierte Gruppen oder Klassen eingeteilt. In der Bildverarbeitungs-KI entspricht dies dem Prozess des Trainings eines Modells, um anhand historischer, beschrifteter Beispiele zwischen einem „Auto” und einem „Fußgänger” zu unterscheiden .
  • Clusteranalyse: Im Gegensatz zur Klassifizierung gruppiert die Clusteranalyse Datenpunkte anhand von Ähnlichkeiten ohne vordefinierte Bezeichnungen. Dies ist für das unüberwachte Lernen unerlässlich, bei dem ein Algorithmus das Kaufverhalten von Kunden oder ähnliche Bildtexturen automatisch gruppieren kann. Weitere Informationen zu Clustering-Methoden finden Sie in der Dokumentation von Scikit-learn.
  • Anomalieerkennung: Diese Technik identifiziert Datenpunkte, die erheblich von der Norm abweichen. Sie ist entscheidend für die Betrugserkennung im Finanzwesen oder das Auffinden von Fertigungsfehlern in einer Produktionslinie.
  • Association Rule Learning: Diese Methode entdeckt Beziehungen zwischen Variablen in einer Datenbank. Ein klassisches Beispiel ist die Warenkorbanalyse, mit der Einzelhändler feststellen, dass Kunden, die Brot kaufen, wahrscheinlich auch Butter kaufen.
  • Regressionsanalyse:Die Regression wird verwendet, um einen kontinuierlichen numerischen Wert auf der Grundlage anderer Variablen vorherzusagen, und ist für die Prognose von Verkaufstrends oder die Schätzung der Entfernung eines Objekts bei Tiefenschätzungsaufgaben von entscheidender Bedeutung.

Anwendungsfälle in der Praxis

Der Nutzen von Data Mining erstreckt sich auf nahezu alle Branchen und fördert Effizienz und Innovation, indem Muster aufgedeckt werden , die mit bloßem Auge nicht erkennbar sind.

Fertigung und Qualitätskontrolle

In der intelligenten Fertigung wird Data Mining eingesetzt, um Sensordaten von Maschinen zu analysieren. Durch die Anwendung von vorausschauenden Wartungsalgorithmen können Fabriken Ausfälle von Anlagen vorhersagen, bevor sie auftreten. Darüber hinaus können Computer-Vision-Modelle wie YOLO26 Inferenzprotokolle generieren, die ausgewertet werden, um wiederkehrende Fehlertypen zu identifizieren, was Ingenieuren hilft, Produktionsprozesse anzupassen, um Ausschuss zu reduzieren.

Diagnostik im Gesundheitswesen

Data Mining verändert das Gesundheitswesen durch die Analyse von elektronischen Gesundheitsakten und medizinischen Bilddaten. Forscher werten Genomdaten aus, um Zusammenhänge zwischen bestimmten Gensequenzen und Krankheiten zu finden. In der Radiologie hilft die Auswertung großer Datensätze von Röntgenbildern dabei, Frühindikatoren für Erkrankungen wie Lungenentzündung oder Tumore zu identifizieren, was die medizinische Bildanalyse unterstützt.

Unterscheidung verwandter Begriffe

Um Data Mining vollständig zu verstehen, ist es hilfreich, es von eng verwandten Konzepten in der Datenwissenschaft zu unterscheiden .

  • Data Mining vs. Machine Learning: Obwohl es Überschneidungen gibt, konzentriert sich Data Mining auf die Entdeckung bestehender Muster, während Machine Learning sich darauf konzentriert, diese Muster zu nutzen, um zu lernen und zukünftige Ergebnisse vorherzusagen. Mining ist oft die explorative Phase, die das Feature Engineering für ML-Modelle beeinflusst.
  • Data Mining vs. Datenvisualisierung: Visualisierung ist die grafische Darstellung von Daten (Diagramme, Grafiken). Mining ist der analytische Prozess, der die zu visualisierenden Erkenntnisse generiert. Tools wie Tableau visualisieren häufig die Ergebnisse des Data Mining.
  • Data Mining vs. Data Warehousing: Warehousing umfasst die zentralisierte Speicherung und Verwaltung großer Datenmengen aus verschiedenen Quellen. Mining ist der Prozess, der auf diese gespeicherten Daten angewendet wird, um Werte zu extrahieren.

Datenauswertung in der Praxis mit Ultralytics

In einem Computer-Vision-Workflow kommt es häufig zum „Mining“, wenn Inferenz-Ergebnisse analysiert werden, um hochwertige Erkennungen oder schwierige Grenzfälle zu finden. Dieser Prozess wird mithilfe der Ultralytics optimiert, die bei der Verwaltung und Analyse von Datensätzen hilft.

Das folgende Beispiel zeigt, wie man eine Bildersammlung „durchforstet“, um mithilfe eines YOLO26-Modells bestimmte hochgradig zuverlässige Erkennungen zu finden. Dies ahmt den Prozess der Filterung umfangreicher Datenströme nach relevanten Ereignissen nach.

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]

# Run inference on the batch
results = model(image_files)

# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
    # Filter boxes where class is 0 (person) and confidence > 0.8
    detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
    if len(detections) > 0:
        high_conf_people.append(result.path)

print(f"Found high-confidence people in: {high_conf_people}")

Dieser Ausschnitt veranschaulicht einen grundlegenden Mining-Vorgang: das Filtern von Rohvorhersagen, um eine Teilmenge von Interesse zu extrahieren – Bilder mit Personen, die mit hoher Sicherheit identifiziert wurden –, die dann für das aktive Lernen verwendet werden könnte, um die Modellleistung weiter zu verbessern .

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten