Beherrschen Sie die Stammdatenbereinigung, um die Genauigkeit von KI-Modellen zu verbessern. Lernen Sie Techniken zum Entfernen von Fehlern, zum Umgang mit fehlenden Werten und zur Vorbereitung sauberer Datensätze für Ultralytics .
Datenbereinigung ist der wichtige Prozess der Erkennung und Korrektur (oder Entfernung) von beschädigten, ungenauen oder irrelevanten Datensätzen aus einem Datensatz, einer Tabelle oder einer Datenbank. Im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) wird dieser Schritt oft als der zeitaufwändigste, aber auch als der wichtigste Teil des Arbeitsablaufs angesehen. Bevor ein Modell wie YOLO26 effektiv lernen kann, Objekte zu erkennen, müssen die Trainingsdaten von Fehlern bereinigt werden, um das Phänomen „Garbage In, Garbage Out” zu vermeiden, bei dem eine schlechte Eingabequalität zu unzuverlässigen Ergebnissen führt.
Leistungsstarke Computer-Vision-Modelle sind in hohem Maße von der Qualität der verwendeten Datensätze abhängig. Wenn ein Datensatz falsch beschriftete Bilder, Duplikate oder beschädigte Dateien enthält , hat das Modell Schwierigkeiten, Muster zu verallgemeinern, was zu Überanpassung oder schlechter Inferenzgenauigkeit führt. Eine effektive Datenbereinigung verbessert die Zuverlässigkeit von Vorhersagemodellen und stellt sicher , dass der Algorithmus aus gültigen Signalen statt aus Rauschen lernt.
Praktiker wenden verschiedene Strategien an, um ihre Datensätze mithilfe von Tools wie Pandas für tabellarische Daten oder spezielle Bildbearbeitungswerkzeuge.
Die Datenbereinigung ist in verschiedenen Branchen, in denen KI eingesetzt wird, von entscheidender Bedeutung.
Obwohl die Begriffe oft synonym verwendet werden, unterscheidet sich die Datenbereinigung von der Datenvorverarbeitung. Bei der Datenbereinigung geht es darum, Fehler zu beheben und „schlechte” Daten zu entfernen. Im Gegensatz dazu umfasst die Vorverarbeitung die Umwandlung bereinigter Daten in ein für das Modell geeignetes Format, z. B. Bildgrößenanpassung, Normalisierung oder Datenvergrößerung zur Erhöhung der Vielfalt.
Moderne Workflows, wie sie beispielsweise auf der Ultralytics verfügbar sind, integrieren automatisierte Prüfungen, um beschädigte Bilder oder Beschriftungsinkonsistenzen vor Beginn des Trainings zu identifizieren. Nachstehend finden Sie ein einfaches Python zeigt, wie Sie mit der Standardbibliothek Pillow nach beschädigten Bilddateien suchen und diese identifizieren können – ein üblicher Schritt, bevor Daten in ein Modell wie YOLO26 eingespeist werden.
from pathlib import Path
from PIL import Image
def verify_images(dataset_path):
"""Iterates through a directory to identify corrupt images."""
for img_path in Path(dataset_path).glob("*.jpg"):
try:
with Image.open(img_path) as img:
img.verify() # Checks file integrity
except (OSError, SyntaxError):
print(f"Corrupt file found: {img_path}")
# Run verification on your dataset
verify_images("./coco8/images/train")