Glossar

Mittlere durchschnittliche Präzision (mAP)

Entdecke die Bedeutung der mittleren durchschnittlichen Genauigkeit (mAP) bei der Bewertung von Objekterkennungsmodellen für KI-Anwendungen wie Selbstfahren und Gesundheitswesen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Mean Average Precision (mAP) ist eine weit verbreitete Metrik zur Bewertung der Leistung von Objekterkennungsmodellen, wie z. B. in den beliebten Ultralytics YOLO Familie. Sie liefert einen einzigen, umfassenden Wert, der die Fähigkeit eines Modells zusammenfasst, Objekte über verschiedene Klassen und Vertrauensstufen hinweg korrekt zu identifizieren und zu lokalisieren. Im Gegensatz zu einfacheren Metriken gleicht mAP den Zielkonflikt zwischen dem Auffinden aller relevanten Objekte(Recall) und der Sicherstellung, dass die gefundenen Objekte tatsächlich korrekt sind(Precision), effektiv aus. Das Verständnis von mAP ist für alle wichtig, die mit der Entwicklung oder dem Einsatz von Computer-Vision-Modellen (CV) zu tun haben.

Die Grundlagen verstehen: Präzision und Rückruf

Um mAP zu verstehen, ist es wichtig, zuerst Precision und Recall zu begreifen. Im Zusammenhang mit der Objekterkennung:

  • Präzision: Misst, wie viele der identifizierten Objekte tatsächlich richtig waren. Eine hohe Genauigkeit bedeutet, dass das Modell nur wenige falsch positive Vorhersagen macht.
  • Rückruf: Misst, wie viele der tatsächlich vorhandenen Objekte vom Modell richtig erkannt wurden. Eine hohe Trefferquote bedeutet, dass das Modell die meisten relevanten Objekte findet (wenige falsche Negative).

Diese beiden Metriken stehen oft in einem umgekehrten Verhältnis zueinander; eine Verbesserung der einen kann manchmal die andere verschlechtern. mAP bietet eine Möglichkeit, das Modell an verschiedenen Punkten dieses Zielkonflikts zu bewerten und so eine ausgewogenere Sicht auf die Leistung zu erhalten. Mehr über die Grundlagen von Precision und Recall erfährst du auf Wikipedia.

Wie mAP berechnet wird

Die Berechnung der mAP umfasst mehrere Schritte, die eine robuste Bewertung der Leistung eines Modells über verschiedene Objektklassen und Erkennungsschwellen hinweg ermöglichen:

  1. Konfidenzsortierung: Für jede Objektklasse werden die Vorhersagen des Modells (d.h. die erkannten Bounding Boxes) nach ihrem Vertrauenswert sortiert, und zwar vom höchsten zum niedrigsten.
  2. Precision-Recall-Kurve: Für jede Klasse wird eine Präzisions-Rückruf-Kurve erstellt. In dieser Kurve werden die Precision- und Recall-Werte bei verschiedenen Konfidenzschwellenwerten gegenübergestellt. Je niedriger der Schwellenwert ist, desto höher ist in der Regel der Rückruf (es werden mehr Objekte erkannt), während die Genauigkeit abnehmen kann (es werden mehr falsch-positive Objekte erkannt).
  3. Durchschnittliche Präzision (AP): Die durchschnittliche Präzision (AP) für eine einzelne Klasse wird als Fläche unter ihrer Precision-Recall-Kurve berechnet. So erhält man eine einzige Zahl, die die Leistung des Modells für diese spezifische Klasse über alle Recall-Stufen hinweg zusammenfasst. Es gibt verschiedene Methoden, um diesen Bereich zu schätzen.
  4. Mittlere durchschnittliche Genauigkeit (mAP): Schließlich wird die mAP berechnet, indem die AP-Werte über alle Objektklassen im Datensatz gemittelt werden. Daraus ergibt sich eine Gesamtbewertung der Leistung des Modells für den gesamten Datensatz.

Oft wird mAP bei bestimmten Intersection over Union (IoU)-Schwellenwerten angegeben. IoU misst die Überlappung zwischen der vorhergesagten Bounding Box und der tatsächlichen Bounding Box. Zu den gängigen mAP-Varianten gehören:

  • mAP@0.5 (oder mAP50): Berechnet mit einer festen IoU-Schwelle von 0,5. Dies ist eine Standardkennzahl, die in Benchmarks wie dem PASCAL VOC-Wettbewerb verwendet wird. Eine Erkennung gilt nur dann als korrekt, wenn ihr IoU mit der Ground Truth 0,5 oder mehr beträgt.
  • mAP@.5:.95 (oder mAP[.5:.95]): Berechnet durch den Mittelwert der mAP über mehrere IoU-Schwellenwerte, in der Regel von 0,5 bis 0,95 mit einem Schritt von 0,05. Diese Kennzahl, die häufig bei der Auswertung des COCO-Datensatzes verwendet wird, bietet eine umfassendere Bewertung, da sie die Leistung bei unterschiedlichen Anforderungen an die Lokalisierungsgenauigkeit berücksichtigt.

Einen detaillierten Blick darauf, wie diese Metriken speziell auf YOLO angewendet werden, findest du im Ultralytics YOLO Performance Metrics Guide.

Warum mAP wichtig ist

Die durchschnittliche Genauigkeit ist wichtig, weil sie einen ganzheitlichen Überblick über die Leistung eines Objekterkennungsmodells bietet. Sie berücksichtigt sowohl die Klassifizierungsgenauigkeit (ist die Objektklasse richtig?) als auch die Lokalisierungsgenauigkeit (ist die Bounding Box richtig platziert?) für alle in den Trainingsdaten definierten Klassen. Das macht ihn aussagekräftiger als die isolierte Betrachtung von Precision oder Recall, insbesondere bei Datensätzen mit mehreren Objektkategorien oder unausgewogener Klassenverteilung. Ein höherer mAP-Wert deutet im Allgemeinen auf ein robusteres und zuverlässigeres Objekterkennungsmodell hin. Techniken wie eine sorgfältige Datenerweiterung, die Abstimmung der Hyperparameter und die Wahl einer geeigneten Modellarchitektur (wie YOLO11) sind gängige Strategien zur Verbesserung der mAP.

Anwendungen in der realen Welt

mAP ist entscheidend für die Bewertung von Modellen für reale Aufgaben, bei denen Genauigkeit und Zuverlässigkeit von größter Bedeutung sind:

Weitere Anwendungsbereiche sind die Sicherheitsüberwachung, die Robotik(Integration von Computer Vision in die Robotik), die Einzelhandelsanalytik(KI für ein intelligenteres Bestandsmanagement im Einzelhandel) und die Landwirtschaft.

mAP vs. andere Metriken

Es ist wichtig, mAP von verwandten Bewertungsmaßstäben zu unterscheiden, die beim maschinellen Lernen (ML) verwendet werden:

  • Genauigkeit: Die Genauigkeit wird in erster Linie bei Klassifizierungsaufgaben verwendet und misst den Gesamtanteil der richtigen Vorhersagen (sowohl wahr-positive als auch wahr-negative) an der Gesamtzahl der Instanzen. Sie bewertet nicht direkt die Lokalisierungsqualität und kann bei der Objekterkennung irreführend sein, insbesondere bei unausgewogenen Datensätzen, in denen die Hintergrundklasse dominiert.
  • Intersection over Union (IoU): Misst die räumliche Überlappung zwischen einer vorhergesagten Bounding Box und einer Ground Truth Bounding Box. Während IoU die Lokalisierungsqualität für einzelne Erkennungen bewertet, verwendet mAP IoU-Schwellenwerte (z. B. 0,5 oder die Spanne 0,5:0,95), um zu bestimmen, ob eine Erkennung als "true positive" gilt, und fasst dann die Leistung über Klassen und Konfidenzstufen hinweg zusammen. IoU selbst ist eine Komponente der mAP-Berechnung und kein Ersatz dafür.

Das Verständnis dieser Unterschiede ist entscheidend für die Auswahl der geeigneten Metrik für die jeweilige Aufgabe und die Bewertungsziele. Weitere Informationen findest du im Leitfaden zur Modellbewertung und Feinabstimmung.

Tools und Benchmarks

Tools wie Ultralytics HUB ermöglichen es den Nutzern, Modelle zu trainieren, zu verfolgen und zu bewerten, wobei mAP als wichtiger Leistungsindikator während des Modelltrainings und der Validierung eingesetzt wird. ML-Frameworks wie PyTorch und TensorFlow liefern die grundlegenden Komponenten für die Erstellung und das Training dieser Objekterkennungsmodelle. Standardisierte Datensätze wie COCO und PASCAL VOC verwenden mAP als primäre Metrik für den Vergleich von Objekterkennungsmodellen in öffentlichen Ranglisten und Forschungsberichten und treiben den Fortschritt in diesem Bereich voran. Auf den Ultralytics Modellvergleichsseiten kannst du verschiedene Modellleistungen, die oft mit mAP gemessen werden, untersuchen und vergleichen.

Alles lesen