Entdecken Sie Data-Mining-Techniken und -Anwendungen. Erfahren Sie, wie Sie mit Ultralytics Erkenntnisse gewinnen, Muster identifizieren und KI-Workflows optimieren können.
Data Mining ist der Prozess der Untersuchung und Analyse großer Informationsmengen, um aussagekräftige Muster und Trends zu erkennen. Es befindet sich an der Schnittstelle zwischen Statistik, maschinellem Lernen (ML) und Datenbanksystemen und ist ein wichtiger Schritt in der Pipeline der „Wissensgewinnung aus Datenbanken“ (KDD). Durch das Durchsuchen riesiger Mengen an Rohdaten verwandelt Data Mining unstrukturierte Daten in strukturierte, verwertbare Erkenntnisse, die Unternehmen und Forscher nutzen, um fundierte Entscheidungen zu treffen.
Im Zusammenhang mit moderner künstlicher Intelligenz (KI) ist Data Mining oft der Vorläufer der prädiktiven Modellierung. Bevor ein Algorithmus die Zukunft vorhersagen kann, muss er die Vergangenheit verstehen. In der Computervision (CV) beispielsweise können Mining-Techniken Tausende von Bildern analysieren, um gemeinsame Merkmale wie Kanten, Texturen oder Formen zu identifizieren, die eine bestimmte Objektklasse definieren, und so die Grundlage für das Training robuster Datensätze schaffen.
Data Mining stützt sich auf mehrere ausgefeilte Methoden, um verborgene Zusammenhänge in Daten aufzudecken. Diese Techniken ermöglichen es Analysten, über die einfache Datenzusammenfassung hinaus zu tiefgreifenden Erkenntnissen zu gelangen.
Der Nutzen von Data Mining erstreckt sich auf nahezu alle Branchen und fördert Effizienz und Innovation, indem Muster aufgedeckt werden , die mit bloßem Auge nicht erkennbar sind.
In der intelligenten Fertigung wird Data Mining eingesetzt, um Sensordaten von Maschinen zu analysieren. Durch die Anwendung von vorausschauenden Wartungsalgorithmen können Fabriken Ausfälle von Anlagen vorhersagen, bevor sie auftreten. Darüber hinaus können Computer-Vision-Modelle wie YOLO26 Inferenzprotokolle generieren, die ausgewertet werden, um wiederkehrende Fehlertypen zu identifizieren, was Ingenieuren hilft, Produktionsprozesse anzupassen, um Ausschuss zu reduzieren.
Data Mining verändert das Gesundheitswesen durch die Analyse von elektronischen Gesundheitsakten und medizinischen Bilddaten. Forscher werten Genomdaten aus, um Zusammenhänge zwischen bestimmten Gensequenzen und Krankheiten zu finden. In der Radiologie hilft die Auswertung großer Datensätze von Röntgenbildern dabei, Frühindikatoren für Erkrankungen wie Lungenentzündung oder Tumore zu identifizieren, was die medizinische Bildanalyse unterstützt.
Um Data Mining vollständig zu verstehen, ist es hilfreich, es von eng verwandten Konzepten in der Datenwissenschaft zu unterscheiden .
In einem Computer-Vision-Workflow kommt es häufig zum „Mining“, wenn Inferenz-Ergebnisse analysiert werden, um hochwertige Erkennungen oder schwierige Grenzfälle zu finden. Dieser Prozess wird mithilfe der Ultralytics optimiert, die bei der Verwaltung und Analyse von Datensätzen hilft.
Das folgende Beispiel zeigt, wie man eine Bildersammlung „durchforstet“, um mithilfe eines YOLO26-Modells bestimmte hochgradig zuverlässige Erkennungen zu finden. Dies ahmt den Prozess der Filterung umfangreicher Datenströme nach relevanten Ereignissen nach.
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]
# Run inference on the batch
results = model(image_files)
# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
# Filter boxes where class is 0 (person) and confidence > 0.8
detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
if len(detections) > 0:
high_conf_people.append(result.path)
print(f"Found high-confidence people in: {high_conf_people}")
Dieser Ausschnitt veranschaulicht einen grundlegenden Mining-Vorgang: das Filtern von Rohvorhersagen, um eine Teilmenge von Interesse zu extrahieren – Bilder mit Personen, die mit hoher Sicherheit identifiziert wurden –, die dann für das aktive Lernen verwendet werden könnte, um die Modellleistung weiter zu verbessern .