Glossar

Datendrift

Entdecke die Arten, Ursachen und Lösungen für Datendrift beim maschinellen Lernen. Erfahre, wie du die Datendrift für robuste KI-Modelle erkennst und einschränkst.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Datendrift ist eine häufige Herausforderung beim maschinellen Lernen (ML), bei der sich die statistischen Eigenschaften der Eingabedaten, die zum Trainieren eines Modells verwendet werden, im Laufe der Zeit im Vergleich zu den Daten ändern, auf die das Modell während der Produktion oder Inferenz trifft. Diese Divergenz bedeutet, dass die Muster, die das Modell während des Trainings gelernt hat, die reale Umgebung möglicherweise nicht mehr genau abbilden, was zu einem Rückgang der Leistung und Genauigkeit führt. Um die Zuverlässigkeit von Systemen der Künstlichen Intelligenz (KI) aufrechtzuerhalten, insbesondere von solchen, die unter dynamischen Bedingungen arbeiten, wie autonome Fahrzeuge oder Finanzprognosen, ist es wichtig, die Datendrift zu verstehen und zu bewältigen.

Warum Datenabweichung wichtig ist

Wenn es zu einem Datendrift kommt, werden Modelle, die auf historischen Daten trainiert wurden, weniger effektiv bei der Vorhersage neuer, ungesehener Daten. Diese Leistungsverschlechterung kann zu fehlerhaften Entscheidungen, geringerem Geschäftswert oder kritischen Ausfällen in sensiblen Anwendungen führen. Ein Modell, das für die Erkennung von Objekten trainiert wurde, könnte beispielsweise beginnen, Objekte zu übersehen, wenn sich die Lichtverhältnisse oder der Kamerawinkel im Vergleich zu den Trainingsdaten erheblich ändern. Eine kontinuierliche Überwachung des Modells ist wichtig, um eine Abweichung frühzeitig zu erkennen und Korrekturmaßnahmen zu ergreifen, wie z. B. eine Umschulung des Modells oder Updates mit Plattformen wie Ultralytics HUB, um die Leistung zu erhalten. Wenn du die Datenabweichung ignorierst, können selbst hochentwickelte Modelle wie Ultralytics YOLO veralten lassen.

Ursachen für Datendrift

Mehrere Faktoren können zur Datenabweichung beitragen, darunter:

  • Veränderungen in der realen Welt: Externe Ereignisse, saisonale Schwankungen (z. B. Weihnachtseinkäufe) oder ein verändertes Nutzerverhalten können die Datenverteilung verändern.
  • Änderungen der Datenquelle: Änderungen der Datenerfassungsmethoden, Sensorkalibrierungen oder vorgelagerte Datenverarbeitungspipelines können zu einer Drift führen. Zum Beispiel eine Änderung der Kamerahardware für ein Computer Vision System.
  • Merkmalsänderungen: Die Relevanz oder Definition der Eingangsmerkmale kann sich im Laufe der Zeit ändern.
  • Probleme mit der Datenqualität: Probleme wie fehlende Werte, Ausreißer oder Fehler, die bei der Datenerfassung oder -verarbeitung auftreten, können sich häufen und zu einer Abweichung führen. Die Aufrechterhaltung der Datenqualität ist von größter Bedeutung.
  • Vorgelagerte Modelländerungen: Wenn ein Modell auf den Output eines anderen Modells angewiesen ist, können Änderungen im vorgelagerten Modell zu einer Datenabweichung im nachgelagerten Modell führen.

Datendrift vs. verwandte Konzepte

Bei der Datendrift geht es in erster Linie um Veränderungen in der Verteilung der Eingabedaten (die X Variablen in der Modellierung). Es unterscheidet sich von verwandten Konzepten:

  • Konzept Drift: Dies bezieht sich auf Veränderungen in der Beziehung zwischen die Eingangsdaten und die Zielvariable (die Y Variable). So kann sich zum Beispiel die Definition von Spam-E-Mails im Laufe der Zeit ändern, auch wenn die E-Mail-Merkmale selbst statistisch gesehen ähnlich bleiben. Die Datendrift konzentriert sich auf die Eingaben, während sich die Konzeptdrift auf die zugrunde liegenden Muster oder Regeln konzentriert, die das Modell vorherzusagen versucht. Erfahre mehr über Erkennung von Konzeptabweichungen.
  • Anomalie-Erkennung: Dabei geht es darum, einzelne Datenpunkte zu identifizieren, die deutlich von der Norm oder den erwarteten Mustern abweichen. Während Anomalien manchmal ein Zeichen für Drift sein können, bezieht sich Datendrift auf eine breitere, systemische Verschiebung in der gesamten Datenverteilung und nicht nur auf einzelne Ausreißer.

Diese Unterschiede zu verstehen, ist entscheidend für eine effektive MLOps-Praxis.

Anwendungen in der realen Welt

Die Datendrift wirkt sich auf verschiedene Bereiche aus, in denen ML-Modelle eingesetzt werden:

  • Finanzdienstleistungen: Betrugserkennungsmodelle können abdriften, wenn Betrüger neue Taktiken entwickeln. Kreditscoring-Modelle können aufgrund von Veränderungen der wirtschaftlichen Bedingungen, die das Verhalten von Kreditnehmern beeinflussen, abdriften. Lies mehr über Computer Vision Modelle im Finanzwesen.
  • Einzelhandel und E-Commerce: Empfehlungssysteme können aufgrund von wechselnden Verbrauchertrends, Saisonalität oder Werbeaktionen abweichen. Bestandsverwaltungsmodelle können sich ändern, wenn sich die Dynamik der Lieferkette oder die Nachfragemuster der Kunden ändern.
  • Gesundheitswesen: Modelle für die medizinische Bildanalyse, wie z. B. für die Tumorerkennung, können sich verändern, wenn neue Bildgebungsgeräte oder -protokolle eingeführt werden, wodurch sich die Bildeigenschaften im Vergleich zum ursprünglichen Trainingsdatensatz, der von Plattformen wie Imagenet stammt, verändern.
  • Fertigung: Vorausschauende Wartungsmodelle können abdriften, wenn sich die Ausrüstung anders als erwartet abnutzt oder wenn sich die Betriebsbedingungen ändern. Erforsche KI in der Fertigung.

Erkennen und Abschwächen von Datendrift

Die Erkennung und Behebung von Datendrift umfasst mehrere Techniken:

  • Leistungsüberwachung: Die Verfolgung wichtiger Modellkennzahlen wie Präzision, Recall und F1-Score im Laufe der Zeit kann eine Leistungsverschlechterung anzeigen, die möglicherweise durch Drift verursacht wird. Tools wie TensorBoard können dabei helfen, diese Metriken zu visualisieren.
  • Statistische Überwachung: Anwendung von statistischen Tests, um die Verteilung der eingehenden Daten mit den Trainingsdaten zu vergleichen. Zu den gängigen Methoden gehören der Kolmogorov-Smirnov-Test, der Populationsstabilitätsindex (PSI) oder Chi-Quadrat-Tests.
  • Überwachungswerkzeuge: Nutzung spezialisierter Observability-Plattformen und Tools wie Prometheus, Grafana, Evidently AI und NannyML, die für die Überwachung von ML-Modellen in der Produktion entwickelt wurden. Ultralytics HUB bietet auch Funktionen zur Überwachung von Modellen, die über seine Plattform trainiert und eingesetzt werden.
  • Minderungsstrategien:
    • Retraining: Regelmäßiges Neutrainieren des Modells anhand aktueller Daten. Ultralytics HUB ermöglicht einfache Umschulungsworkflows.
    • Online-Lernen: Das Modell wird schrittweise aktualisiert, wenn neue Daten eintreffen (mit Vorsicht zu genießen, da es empfindlich auf Rauschen reagieren kann).
    • Datenerweiterung: Der Einsatz von Techniken während des Trainings, um das Modell robuster gegenüber Schwankungen in den Eingabedaten zu machen.
    • Bereichsanpassung: Verwendung von Techniken, die das Modell explizit an die neue Datenverteilung anpassen.
    • Modellauswahl: Auswahl von Modellen, die von Natur aus robuster gegenüber Datenänderungen sind. Erforsche Tipps für ein robustes Modelltraining.

Ein effektiver Umgang mit der Datenabweichung ist ein fortlaufender Prozess, der entscheidend dafür ist, dass KI-Systeme, die mit Frameworks wie PyTorch oder TensorFlow entwickelt wurden, zuverlässig bleiben und während ihrer gesamten Lebensdauer einen Mehrwert bieten.

Alles lesen