Glossar

Fläche unter der Kurve (AUC)

Lerne die Bedeutung der Area Under the Curve (AUC) bei der Bewertung von ML-Modellen kennen. Entdecke seine Vorteile, die Erkenntnisse über die ROC-Kurve und praktische Anwendungen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Area Under the Curve (AUC) ist eine wichtige Leistungskennzahl, die vor allem zur Bewertung von binären Klassifizierungsmodellen beim maschinellen Lernen verwendet wird. Sie zeigt die Fähigkeit des Modells an, zwischen positiven und negativen Klassen über alle möglichen Klassifizierungsschwellen hinweg zu unterscheiden. AUC-Werte reichen von 0 bis 1, wobei ein höherer Wert eine bessere Modellleistung anzeigt. Ein Modell mit einem AUC von 0,5 schneidet nicht besser ab als ein zufälliges Raten, während ein Modell mit einem AUC von 1,0 eine perfekte Trennung zwischen den Klassen erreicht.

Die ROC-Kurve verstehen

Die AUC wird von der Receiver Operating Characteristic (ROC)-Kurve abgeleitet, einer grafischen Darstellung, die die Diagnosefähigkeit eines binären Klassifizierungssystems bei unterschiedlichen Schwellenwerten veranschaulicht. Die ROC-Kurve stellt die Wahrheitsquote (TPR), die auch als Sensitivität oder Recall bezeichnet wird, gegen die Falschheitsquote (FPR) bei verschiedenen Schwellenwerten auf. Die AUC-Metrik quantifiziert die gesamte zweidimensionale Fläche unter dieser ROC-Kurve und liefert einen einzigen skalaren Wert, der die Leistung des Modells über alle Schwellenwerte hinweg zusammenfasst.

Interpretation der AUC

Der AUC-Wert ist ein umfassendes Maß für die Klassifizierungsleistung eines Modells, unabhängig von dem für die Klassifizierung gewählten Schwellenwert. Zu den wichtigsten Interpretationen gehören:

  • AUC = 1: Perfekter Klassifikator.
  • AUC = 0,5: Zufälliger Klassifikator (keine Unterscheidungsfähigkeit).
  • AUC < 0.5: Classifier performs worse than random guessing (often indicates mislabeled data or model issues).
  • 0.5 < AUC < 1: Classifier has some discriminative ability; higher values are better.

Ein wesentlicher Vorteil des AUC ist seine relative Unempfindlichkeit gegenüber Klassenungleichgewichten im Vergleich zu Metriken wie Accuracy. Das macht sie besonders nützlich, wenn Modelle bewertet werden sollen, die auf Datensätzen trainiert wurden, bei denen eine Klasse die andere deutlich überwiegt. Wenn du tiefer in die Interpretation von ROC-Kurven einsteigen möchtest, findest du auf Wikipedia einen guten Überblick.

Anwendungen in KI und ML

AUC wird in vielen Bereichen eingesetzt, in denen eine binäre Klassifizierung wichtig ist:

  • Medizinische Diagnostik: Bewertung von Modellen, die das Vorhandensein oder Nichtvorhandensein einer Krankheit anhand von Patientensymptomen oder diagnostischen Tests vorhersagen, z. B. bei der medizinischen Bildanalyse. Zum Beispiel die Bewertung der Fähigkeit eines KI-Modells, zwischen gutartigen und bösartigen Tumoren auf MRT-Scans zu unterscheiden. Ihr Nutzen in der medizinischen Forschung ist gut dokumentiert.
  • Betrugsaufdeckung: Bewertung von Modellen, die betrügerische Transaktionen oder Aktivitäten erkennen sollen. Ein Beispiel ist die Bewertung eines Modells, das Kreditkartentransaktionen als potenziell betrügerisch oder legitim kennzeichnet.
  • Spam-Filterung: Messung der Wirksamkeit von E-Mail-Spamfiltern bei der Unterscheidung zwischen Spam und legitimen E-Mails.
  • Stimmungsanalyse: Bewertung von Modellen, die Texte (z. B. Kundenrezensionen) als positiv oder negativ einstufen.

Tools wie Scikit-learn bieten Funktionen zur einfachen Berechnung der ROC-AUC-Werte.

AUC vs. andere Metriken

Auch wenn der AUC wertvoll ist, ist es wichtig, seine Beziehung zu anderen Bewertungsmaßstäben zu verstehen:

  • Genauigkeit: Im Gegensatz zu AUC misst die Genauigkeit den Anteil der richtigen Vorhersagen insgesamt. Sie kann bei unausgewogenen Datensätzen irreführend sein, während AUC ein besseres Maß für die Trennbarkeit ist.
  • Präzisions-Rückruf-Kurve (PRC): Bei stark unausgewogenen Datensätzen, in denen die positive Klasse selten, aber wichtig ist (z. B. bei der Betrugserkennung), kann die Fläche unter der Precision-Recall-Kurve (AUC-PR oder PR-AUC) aussagekräftiger sein als die ROC-AUC. Die Präzision konzentriert sich auf die Richtigkeit der positiven Vorhersagen.
  • Mittlere durchschnittliche Genauigkeit (mAP): Diese Metrik ist Standard für die Bewertung von Objekterkennungsmodellen wie Ultralytics YOLOmAP berücksichtigt sowohl die Klassifizierungsgenauigkeit als auch die Lokalisierungsgenauigkeit (oft unter Verwendung von Intersection over Union (IoU)) über mehrere Objektklassen und Konfidenzschwellen hinweg und unterscheidet sich damit vom binären Klassifizierungsfokus der AUC. Mehr über die YOLO erfährst du hier.

Überlegungen

Die AUC ist zwar eine aussagekräftige Kennzahl, aber sie fasst die Leistung über alle Schwellenwerte hinweg zusammen und spiegelt nicht die Leistung an einem bestimmten, für den Einsatz gewählten Betriebspunkt wider. Je nachdem, wie hoch die Kosten für die Anwendung sind, die durch falsch-positive oder falsch-negative Ergebnisse entstehen, können andere Kennzahlen oder eine direkte Betrachtung der ROC-Kurve erforderlich sein. Einige Diskussionen zeigen mögliche Einschränkungen oder Fehlinterpretationen der AUC auf. Die Integration der AUC mit anderen Metriken ermöglicht eine ganzheitlichere Sichtweise bei der Modellbewertung. Plattformen wie Ultralytics HUB helfen bei der Verwaltung und dem Vergleich der Modellleistung über verschiedene Metriken während des Trainings und des Einsatzes.

Alles lesen