Glossar

Datendrift

Entdecke die Arten, Ursachen und Lösungen für Datendrift beim maschinellen Lernen. Erfahre, wie du die Datendrift für robuste KI-Modelle erkennst und einschränkst.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Datendrift ist eine große Herausforderung beim maschinellen Lernen (ML). Die statistischen Eigenschaften der Daten, die zum Trainieren eines Modells verwendet werden, ändern sich im Laufe der Zeit im Vergleich zu den Daten, auf die das Modell in der Produktion trifft. Diese Divergenz bedeutet, dass die Muster, die das Modell während des Trainings gelernt hat, die reale Umgebung möglicherweise nicht mehr genau widerspiegeln, was zu einem Leistungsabfall führt. Um die Genauigkeit und Zuverlässigkeit von KI-Systemen zu erhalten, insbesondere von solchen, die unter dynamischen Bedingungen arbeiten, ist es wichtig, die Datendrift zu verstehen und zu steuern.

Warum Datenabweichung wichtig ist

Wenn es zu einem Datendrift kommt, werden Modelle, die auf historischen Daten trainiert wurden, weniger effektiv bei der Vorhersage neuer, ungesehener Daten. Diese Leistungsverschlechterung kann zu fehlerhaften Entscheidungen, geringerem Geschäftswert oder kritischen Ausfällen bei sensiblen Anwendungen wie KI in selbstfahrenden Autos oder medizinischer Diagnose führen. Die kontinuierliche Überwachung der Modelle ist entscheidend, um eine Abweichung frühzeitig zu erkennen und Korrekturmaßnahmen wie z. B. Modellumschulungen oder -aktualisierungen durchzuführen, um die Leistung zu erhalten. Wenn du Datenabweichungen ignorierst, können selbst die ausgefeiltesten Modelle veraltet sein.

Ursachen für Datendrift

Es gibt mehrere Faktoren, die eine Datenabweichung verursachen können, z. B:

  • Veränderungen in der realen Welt: Externe Ereignisse, verändertes Nutzerverhalten, saisonale Schwankungen oder Veränderungen der Markttrends können die Datenverteilung verändern.
  • Probleme bei der Datenerfassung: Änderungen bei der Sensorkalibrierung, Änderungen der Datenquellen oder Fehler in der Datenpipeline können zu einem Drift führen. Zum Beispiel kann eine Kamera, die zur Objekterkennung verwendet wird, ausgetauscht oder versetzt werden.
  • Änderungen in der vorgelagerten Datenverarbeitung: Änderungen in der Art und Weise, wie Daten gesammelt, aggregiert oder vorverarbeitet werden, bevor sie in das Modell gelangen, können eine Drift verursachen.
  • Merkmalsänderungen: Die Relevanz oder Definition von Eingangsmerkmalen kann sich im Laufe der Zeit ändern (Feature Drift).
  • Konzeptänderungen: Die Beziehung zwischen den Eingangsmerkmalen und der Zielvariable kann sich ändern (Konzeptdrift), was bedeutet, dass die zugrunde liegenden Muster, die das Modell gelernt hat, nicht mehr gültig sind.

Datendrift vs. verwandte Konzepte

Bei der Datendrift geht es vor allem um Veränderungen in der Verteilung der Eingabedaten. Sie unterscheidet sich von:

  • Konzeptdrift: Dies bezieht sich speziell auf Veränderungen in der Beziehung zwischen den Eingangsmerkmalen und der Zielvariablen. Sie tritt oft neben der Datendrift auf, ist aber eine Veränderung des zugrunde liegenden Konzepts, das modelliert wird.
  • Anomalie-Erkennung: Dabei geht es darum, einzelne Datenpunkte zu identifizieren, die im Vergleich zur Norm selten oder ungewöhnlich sind. Die Datendrift hingegen beschreibt eine Verschiebung in der Gesamtverteilung der Daten, nicht nur einzelne Ausreißer.

Anwendungen in der realen Welt

Die Datendrift wirkt sich auf verschiedene Bereiche aus, in denen ML-Modelle eingesetzt werden:

  • Einzelhandel: Kundenpräferenzen und Kaufmuster ändern sich, vor allem saisonal. Empfehlungssysteme und Bestandsmanagementmodelle müssen sich an diese Veränderungen anpassen, um effektiv zu bleiben. Zum Beispiel sinkt die Nachfrage nach Winterkleidung, wenn der Sommer naht, was zu einer Abweichung der Verkaufsdaten führt.
  • Gesundheitswesen: Bei der medizinischen Bildanalyse können Veränderungen bei den bildgebenden Geräten, den Scan-Protokollen oder der Demografie der Patienten zu einer Abweichung führen. Ein Modell, das für die Erkennung von Tumoren mit Bildern von einem bestimmten Scannertyp trainiert wurde, kann bei Bildern von einem neueren Gerät schlecht abschneiden. DieYOLO Ultralytics können für Aufgaben wie die Tumorerkennung eingesetzt werden, was die Überwachung der Drift unerlässlich macht.
  • Finanzen: Modelle zur Aufdeckung von Betrug werden ständig weiterentwickelt, da Betrüger neue Taktiken entwickeln. Wirtschaftliche Veränderungen können sich auch auf Modelle zur Vorhersage von Kreditausfällen auswirken, da sich das Verhalten von Kreditnehmern ändert. Computer-Vision-Modelle im Finanzwesen müssen regelmäßig aktualisiert werden.

Erkennen und Abschwächen von Datendrift

Die Erkennung und Behebung von Datendrift umfasst mehrere Techniken:

  • Erkennung:
    • Überwachung der wichtigsten Metriken: Nachverfolgung der Leistungskennzahlen des Modells(Precision, Recall, F1-Score) und der Datenkennzahlen (z. B. Verteilung der Merkmale) im Zeitverlauf. Tools wie Prometheus und Grafana können zur Visualisierung verwendet werden.
    • Statistische Tests: Mit Methoden wie dem Kolmogorov-Smirnov-Test oder dem Populationsstabilitätsindex (PSI) kannst du Verteilungen zwischen Trainingsdaten und aktuellen Produktionsdaten vergleichen.
    • Tools zur Drifterkennung: Die Verwendung von Bibliotheken wie Evidently AI oder NannyML, die speziell für die Drifterkennung entwickelt wurden. Plattformen wie Ultralytics HUB können bei der Verwaltung von Datensätzen und der Überwachung der Modellleistung im Laufe der Zeit helfen.
  • Milderung:
    • Modellumschulung: Regelmäßiges Neutrainieren des Modells anhand aktueller Daten. Das kann eine vollständige Neutrainierung oder eine schrittweise Aktualisierung sein. Tipps für die Modellschulung können helfen, diesen Prozess zu optimieren.
    • Adaptives Lernen: Nutzung von Modellen, die sich an veränderte Datenverteilungen anpassen, online.
    • Datenerweiterung: Anwendung von Techniken, um das Modell robuster gegenüber Veränderungen während des Trainings zu machen. Erforsche Strategien zur Datenerweiterung.

Ein effektiver Umgang mit der Datenabweichung ist ein fortlaufender Prozess, der entscheidend dafür ist, dass KI-Systeme zuverlässig bleiben und über ihre gesamte Lebensdauer hinweg einen Mehrwert bieten.

Alles lesen