Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Datenbereinigung

Beherrschen Sie die Stammdatenbereinigung, um die Genauigkeit von KI-Modellen zu verbessern. Lernen Sie Techniken zum Entfernen von Fehlern, zum Umgang mit fehlenden Werten und zur Vorbereitung sauberer Datensätze für Ultralytics .

Datenbereinigung ist der wichtige Prozess der Erkennung und Korrektur (oder Entfernung) von beschädigten, ungenauen oder irrelevanten Datensätzen aus einem Datensatz, einer Tabelle oder einer Datenbank. Im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) wird dieser Schritt oft als der zeitaufwändigste, aber auch als der wichtigste Teil des Arbeitsablaufs angesehen. Bevor ein Modell wie YOLO26 effektiv lernen kann, Objekte zu erkennen, müssen die Trainingsdaten von Fehlern bereinigt werden, um das Phänomen „Garbage In, Garbage Out” zu vermeiden, bei dem eine schlechte Eingabequalität zu unzuverlässigen Ergebnissen führt.

Die Bedeutung der Datenintegrität in der KI

Leistungsstarke Computer-Vision-Modelle sind in hohem Maße von der Qualität der verwendeten Datensätze abhängig. Wenn ein Datensatz falsch beschriftete Bilder, Duplikate oder beschädigte Dateien enthält , hat das Modell Schwierigkeiten, Muster zu verallgemeinern, was zu Überanpassung oder schlechter Inferenzgenauigkeit führt. Eine effektive Datenbereinigung verbessert die Zuverlässigkeit von Vorhersagemodellen und stellt sicher , dass der Algorithmus aus gültigen Signalen statt aus Rauschen lernt.

Gängige Techniken zur Datenbereinigung

Praktiker wenden verschiedene Strategien an, um ihre Datensätze mithilfe von Tools wie Pandas für tabellarische Daten oder spezielle Bildbearbeitungswerkzeuge.

  • Umgang mit fehlenden Werten: Dazu müssen entweder Datensätze mit fehlenden Daten entfernt oder Imputationstechniken verwendet werden, um Lücken auf der Grundlage von statistischen Durchschnittswerten oder nächsten Nachbarn zu füllen.
  • Entfernen von Duplikaten: Doppelte Bilder in einem Trainingssatz können das Modell unbeabsichtigt verzerren. Durch das Entfernen dieser Bilder wird sichergestellt, dass das Modell sich keine bestimmten Beispiele einprägt, was dazu beiträgt, die Verzerrung des Datensatzes zu verringern.
  • Ausreißererkennung: Das Erkennen und Behandeln von Anomalien oder Ausreißern, die erheblich von der Norm abweichen, ist von entscheidender Bedeutung, da diese die statistische Analyse und die Modellgewichtungen verzerren können.
  • Strukturelle Reparatur: Dazu gehört die Korrektur von Tippfehlern in Klassenbezeichnungen (z. B. Korrektur von „Car” vs. „car”), um die Konsistenz der Klassen zu gewährleisten.

Anwendungsfälle in der Praxis

Die Datenbereinigung ist in verschiedenen Branchen, in denen KI eingesetzt wird, von entscheidender Bedeutung.

  • Medizinische Bildanalyse: In KI-Anwendungen im Gesundheitswesen enthalten Datensätze häufig Scans mit Artefakten, falschen Patientenmetadaten oder irrelevanten Hintergrundgeräuschen. Durch die Bereinigung dieser Daten wird sichergestellt, dass sich medizinische Bildanalysemodelle ausschließlich auf die für die Diagnose relevanten biologischen Marker konzentrieren.
  • Bestandsmanagement im Einzelhandel: Für die KI im Einzelhandel können Produktdatensätze veraltete Artikel oder Bilder mit falschen Seitenverhältnissen enthalten. Durch die Bereinigung dieser Datensätze wird sichergestellt, dass Objekterkennungsmodelle die Lagerbestände genau identifizieren und Fehlalarme in einer Live-Umgebung reduzieren können.

Unterscheidung zwischen Datenbereinigung und Vorverarbeitung

Obwohl die Begriffe oft synonym verwendet werden, unterscheidet sich die Datenbereinigung von der Datenvorverarbeitung. Bei der Datenbereinigung geht es darum, Fehler zu beheben und „schlechte” Daten zu entfernen. Im Gegensatz dazu umfasst die Vorverarbeitung die Umwandlung bereinigter Daten in ein für das Modell geeignetes Format, z. B. Bildgrößenanpassung, Normalisierung oder Datenvergrößerung zur Erhöhung der Vielfalt.

Automatisierung von Qualitätsprüfungen

Moderne Workflows, wie sie beispielsweise auf der Ultralytics verfügbar sind, integrieren automatisierte Prüfungen, um beschädigte Bilder oder Beschriftungsinkonsistenzen vor Beginn des Trainings zu identifizieren. Nachstehend finden Sie ein einfaches Python zeigt, wie Sie mit der Standardbibliothek Pillow nach beschädigten Bilddateien suchen und diese identifizieren können – ein üblicher Schritt, bevor Daten in ein Modell wie YOLO26 eingespeist werden.

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten