Data Drift
Entdecken Sie die Auswirkungen von Datenabweichungen auf die Genauigkeit von ML-Modellen. Erfahren Sie, wie Sie Abweichungen mit Ultralytics und der Ultralytics für robuste MLOps detect mindern können.
Datenverschiebung bezeichnet ein Phänomen im
maschinellen Lernen (ML), bei dem sich die statistischen
Eigenschaften der in einer Produktionsumgebung beobachteten Eingabedaten im Laufe der Zeit im Vergleich zu den
ursprünglich zur Erstellung des Modells verwendeten Trainingsdaten ändern.
Wenn ein Modell eingesetzt wird, arbeitet es unter der impliziten Annahme, dass die realen Daten, mit denen es konfrontiert wird,
im Wesentlichen den historischen Daten ähneln, aus denen es gelernt hat. Wird diese Annahme aufgrund sich ändernder
Umgebungsbedingungen oder Nutzerverhalten verletzt, können die
Genauigkeit und Zuverlässigkeit des Modells erheblich beeinträchtigt werden, selbst
wenn der Code und die Parameter des Modells unverändert bleiben. Das Erkennen und Verwalten von Datendrift ist ein wichtiger Bestandteil von
Machine Learning Operations (MLOps) und stellt sicher, dass KI-Systeme auch nach der
Modellbereitstellung weiterhin einen Mehrwert liefern.
Data Drift vs. Concept Drift
Für eine effektive Wartung von KI-Systemen ist es unerlässlich, Daten-Drift von einem eng verwandten Begriff, dem Konzept-Drift, zu unterscheiden
. Beide führen zwar zu einem Leistungsabfall, haben jedoch unterschiedliche Ursachen in der Umgebung.
-
Datenverschiebung (Kovariatenverschiebung): Diese tritt auf, wenn sich die Verteilung der Eingabemerkmale ändert, aber
die Beziehung zwischen den Eingaben und der Zielausgabe stabil bleibt. Beispielsweise könnte in der
Computer Vision (CV) ein Modell anhand von
tagsüber aufgenommenen Bildern trainiert werden. Wenn die Kamera beginnt, Bilder in der Dämmerung aufzunehmen, hat sich die Eingangsverteilung (Beleuchtung,
Schatten) verschoben, aber die Definition eines „Autos” oder „Fußgängers” bleibt dieselbe.
-
Konzeptdrift: Dies tritt auf, wenn sich die statistische Beziehung zwischen den Eingabemerkmalen und der
Zielvariablen ändert. Mit anderen Worten: Die Definition der Grundwahrheit entwickelt sich weiter. Bei der
Aufdeckung von Finanzbetrug beispielsweise ändern sich die
Muster, die betrügerische Aktivitäten ausmachen, häufig, da Betrüger ihre Taktiken anpassen und damit die Grenze
zwischen sicheren und betrügerischen Transaktionen verschieben.
Anwendungen und Beispiele aus der Praxis
Datendrift ist eine allgegenwärtige Herausforderung in Branchen, in denen
künstliche Intelligenz (KI) mit
dynamischen, physischen Umgebungen interagiert.
-
Autonome Systeme: Im Bereich der
autonomen Fahrzeuge basieren Wahrnehmungsmodelle
auf der Objekterkennung, um sicher zu navigieren. Ein Modell, das
hauptsächlich mit Daten von sonnigen kalifornischen Straßen trainiert wurde, kann bei einem Einsatz in einer Region mit
starkem Schneefall erhebliche Datenabweichungen aufweisen. Die visuellen Eingaben (schneebedeckte Fahrspuren, verdeckte Schilder) unterscheiden sich drastisch vom Trainingssatz, was
möglicherweise Sicherheitsfunktionen wie die
Spurerkennung beeinträchtigen kann.
-
Bildgebung im Gesundheitswesen:
Medizinische Bildanalysesysteme können
unter Drift leiden, wenn Krankenhäuser ihre Hardware aufrüsten. Wenn ein Modell mit Röntgenbildern eines bestimmten Scannerherstellers trainiert wurde
, stellt die Einführung eines neuen Geräts mit anderen Auflösungs- oder Kontrasteinstellungen eine Verschiebung in der
Datenverteilung dar. Ohne
Modellwartung kann die
Diagnoseleistung sinken.
Erkennungs- und Abwehrstrategien
Das frühzeitige Erkennen von Abweichungen verhindert „stille Fehler“, bei denen ein Modell zwar zuverlässige, aber falsche Vorhersagen trifft.
Teams wenden verschiedene Strategien an, um diese Anomalien zu erkennen, bevor sie sich auf die Geschäftsergebnisse auswirken.
Erkennungsmethoden
-
Statistische Tests: Ingenieure verwenden häufig Methoden wie den
Kolmogorov-Smirnov-Test,
um die Verteilung der eingehenden Produktionsdaten mathematisch mit der Trainingsbasislinie zu vergleichen.
-
Leistungsüberwachung: Die Verfolgung von Metriken wie
Präzision und
Recall in Echtzeit kann als Ersatz für die Drift-Erkennung dienen
. Ein plötzlicher Rückgang des durchschnittlichen Konfidenzwerts eines
YOLO26-Modells deutet oft darauf hin, dass das Modell mit
neuartigen Datenmustern zu kämpfen hat.
-
Visualisierung: Mit Tools wie
TensorBoard oder spezialisierten Plattformen wie
Grafana können Teams Histogramme von Merkmalsverteilungen visualisieren, wodurch
Veränderungen leichter zu erkennen sind.
Abschwächungstechniken
-
Neu-Training: Die robusteste Lösung ist oft das Neu-Training des Modells. Dazu müssen die
neuen, driftenden Daten gesammelt, annotiert und mit dem ursprünglichen
Datensatz kombiniert werden. Die
Ultralytics vereinfacht diesen Prozess durch die Bereitstellung von Tools für das
Datensatzmanagement und Cloud-Training.
-
Datenanreicherung: Durch umfangreiche
Datenanreicherung während des ersten
Trainings – beispielsweise durch Ändern der Helligkeit, Hinzufügen von Rauschen oder Drehen von Bildern – kann das Modell widerstandsfähiger gegenüber geringfügigen
Umgebungsänderungen gemacht werden.
-
Domänenanpassung: Techniken des
Transferlernens ermöglichen es Modellen, sich mit einer geringeren Menge an beschrifteten Daten an eine
neue Zieldomäne anzupassen und so die Lücke zwischen der Quell-Trainingsumgebung
und der neuen Produktionsrealität zu schließen.
Sie können eine grundlegende Driftüberwachung implementieren, indem Sie die Zuverlässigkeit der Vorhersagen Ihres Modells überprüfen. Wenn die durchschnittliche
Zuverlässigkeit durchgehend unter einen vertrauenswürdigen Schwellenwert fällt, kann dies einen Alarm zur Datenüberprüfung auslösen.
from ultralytics import YOLO
# Load the official YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on a new image from the production stream
results = model("https://ultralytics.com/images/bus.jpg")
# Monitor confidence scores; consistently low scores may signal data drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
Das Management von Datenabweichungen ist keine einmalige Angelegenheit, sondern ein kontinuierlicher Lebenszyklusprozess. Cloud-Anbieter bieten Managed Services
wie AWS SageMaker Model Monitor oder
Google Vertex AI an, um diesen Prozess zu automatisieren. Durch die proaktive Überwachung
dieser Verschiebungen stellen Unternehmen sicher, dass ihre Modelle robust bleiben und hohe Standards in Bezug auf
KI-Sicherheit und betriebliche Effizienz aufrechterhalten werden.