Glossar

Fläche unter der Kurve (AUC)

Lerne die Bedeutung der Area Under the Curve (AUC) bei der Bewertung von ML-Modellen kennen. Entdecke seine Vorteile, die Erkenntnisse über die ROC-Kurve und praktische Anwendungen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Der Bereich unter der Kurve (Area Under the Curve, AUC) ist eine grundlegende Leistungskennzahl, die vor allem beim maschinellen Lernen (ML) zur Bewertung von binären Klassifizierungsmodellen verwendet wird. Sie quantifiziert die Fähigkeit eines Modells, über alle möglichen Klassifizierungsschwellen hinweg zwischen positiven und negativen Klassen zu unterscheiden. Die AUC-Werte reichen von 0 bis 1, wobei höhere Werte eine bessere Modellleistung anzeigen. Ein Modell mit einem Wert von 0,5 schneidet nicht besser ab als der Zufall, während ein perfektes Modell, das die Klassen einwandfrei trennt, einen AUC von 1,0 erreicht. Diese Kennzahl liefert ein einziges, zusammenfassendes Maß für die Klassifizierungsleistung, unabhängig von der Wahl eines bestimmten Schwellenwerts.

Die ROC-Kurve verstehen

Der AUC-Wert wird direkt von der Receiver Operating Characteristic (ROC)-Kurve abgeleitet. Die ROC-Kurve ist eine grafische Darstellung, die die Diagnosefähigkeit eines binären Klassifizierers veranschaulicht, wenn seine Unterscheidungsschwelle variiert wird. Sie stellt die True Positive Rate (TPR), auch bekannt als Sensitivität oder Recall, auf der y-Achse gegen die False Positive Rate (FPR) auf der x-Achse bei verschiedenen Schwellenwerten dar. Der AUC stellt die gesamte zweidimensionale Fläche unter dieser ROC-Kurve dar. Eine umfassende Übersicht über ROC-Kurven findest du auf Wikipedia.

Interpretation der AUC

Der AUC wird als die Wahrscheinlichkeit interpretiert, dass ein Modell einen zufällig ausgewählten positiven Fall höher einstuft als einen zufällig ausgewählten negativen Fall. Damit ist er ein Maß für die allgemeine Unterscheidungskraft des Modells. Einer der Hauptvorteile von AUC ist seine relative Unempfindlichkeit gegenüber einem Klassenungleichgewicht im Vergleich zu Kennzahlen wie Accuracy. In Datensätzen, in denen eine Klasse deutlich in der Überzahl ist (ein häufiges Szenario in der Praxis), kann die Genauigkeit irreführend sein, während AUC ein robusteres Maß dafür ist, wie gut das Modell die Klassen trennt. Ein AUC-Wert von 1 deutet auf ein Modell mit hervorragender Trennschärfe hin, während ein AUC-Wert von 0,5 auf eine schlechte Trennschärfe hindeutet, ähnlich wie beim zufälligen Raten. Das Verständnis dieser Interpretationen ist entscheidend für eine effektive Modellbewertung.

Anwendungen in KI und ML

AUC wird häufig in verschiedenen Bereichen eingesetzt, in denen binäre Klassifizierungsaufgaben entscheidend sind. Hier sind zwei Beispiele:

  1. Medizinische Diagnose: In der medizinischen Bildanalyse werden häufig Modelle trainiert, um das Vorhandensein oder Nichtvorhandensein von Krankheiten (z. B. Tumore, diabetische Retinopathie) zu erkennen. Die AUC wird verwendet, um zu bewerten, wie gut diese KI-Modelle im Gesundheitswesen auf der Grundlage von Bildern mit unterschiedlichen Diagnoseschwellen zwischen gesunden und kranken Patienten unterscheiden können. Die Bedeutung der AUC in der medizinischen Forschung ist gut dokumentiert.
  2. Betrugsaufdeckung: Finanzinstitute nutzen ML-Modelle, um betrügerische Transaktionen zu erkennen. Dies ist ein klassisches binäres Klassifizierungsproblem (betrügerisch vs. nicht betrügerisch). Der AUC hilft dabei, die Gesamteffektivität des Modells bei der Erkennung potenziell betrügerischer Aktivitäten zu bewerten und gleichzeitig Fehlalarme zu minimieren, was für KI im Finanzwesen von entscheidender Bedeutung ist.

Viele Deep Learning (DL) Frameworks und Bibliotheken, darunter PyTorch und TensorFlowwerden verwendet, um diese Klassifikatoren zu erstellen. Tools wie Scikit-learn bieten praktische Funktionen zur Berechnung der ROC-AUC-Werte und vereinfachen so den Bewertungsprozess. Plattformen wie Ultralytics HUB erleichtern auch das Training und die Bewertung von Modellen, bei denen solche Metriken relevant sind.

AUC vs. andere Metriken

AUC ist zwar eine wertvolle Kennzahl, aber es ist wichtig zu verstehen, wie sie sich von anderen Bewertungsmaßstäben unterscheidet, die in der Computer Vision (CV) und ML verwendet werden:

  • AUC vs. Genauigkeit: Die Genauigkeit misst die allgemeine Korrektheit der Vorhersagen, kann aber bei unausgewogenen Datensätzen irreführend sein. AUC ist ein schwellenwertunabhängiges Maß für die Trennbarkeit und damit in solchen Fällen zuverlässiger.
  • AUC vs. Precision-Recall: Bei unausgewogenen Datensätzen, bei denen die positive Klasse selten und von primärem Interesse ist (z. B. bei der Erkennung seltener Krankheiten), können die Precision-Recall-Kurve und die entsprechende Fläche (AUC-PR) informativer sein als die ROC-AUC. Metriken wie Precision und Recall konzentrieren sich speziell auf die Leistung in Bezug auf die positive Klasse. Auch der F1-Score gleicht Präzision und Recall aus.
  • AUC vs. mAP/IoU: AUC wird hauptsächlich für binäre Klassifizierungsaufgaben verwendet. Für Objekterkennungsaufgaben, die mit Modellen wie Ultralytics YOLOverwendet werden, sind Metriken wie die mittlere durchschnittliche Präzision (mAP) und die Überschneidung über die Einheit (IoU) der Standard. Diese Metriken bewerten sowohl die Klassifizierungsgenauigkeit als auch die Lokalisierungsgenauigkeit der erkannten Objekte mithilfe von Bounding Boxes. Mehr über die YOLO erfährst du hier. Beim Vergleich verschiedener Modelle werden häufig diese spezifischen Metriken analysiert, wie in den Ultralytics zu sehen ist.

Die Wahl der richtigen Metrik hängt von der spezifischen Problemstellung, den Eigenschaften des Datensatzes (z. B. Klassengleichgewicht) und den Zielen des KI-Projekts ab. Der AUC bleibt aufgrund seiner Robustheit und Interpretierbarkeit ein Eckpfeiler für die Bewertung der binären Klassifizierungsleistung.

Alles lesen