Glossar

F1-Punktzahl

Entdecke die Bedeutung des F1-Scores beim maschinellen Lernen! Erfahre, wie er Präzision und Recall für eine optimale Modellbewertung ausgleicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Der F1-Score ist eine weit verbreitete Kennzahl im maschinellen Lernen (ML) und in der statistischen Analyse, um die Leistung von binären oder Mehrklassen-Klassifikationsmodellen zu bewerten. Er bietet eine Möglichkeit, die Präzision und den Rückruf eines Modells in einer einzigen Kennzahl zu kombinieren und bietet so eine robustere Bewertung als die Genauigkeit allein, insbesondere bei unausgewogenen Datensätzen oder wenn die Kosten für falsch-positive und falsch-negative Ergebnisse sehr unterschiedlich sind.

Verstehen von Präzision und Rückruf

Bevor du dich mit dem F1-Score beschäftigst, ist es wichtig, seine Bestandteile zu verstehen:

  • Präzision: Diese Kennzahl beantwortet die Frage: "Wie viele der Instanzen, die das Modell als positiv vorhergesagt hat, waren tatsächlich positiv?" Sie konzentriert sich auf die Korrektheit der positiven Vorhersagen und minimiert False Positives (Fehler vom Typ I). Eine hohe Genauigkeit ist wichtig, wenn die Kosten für ein falsches Positiv hoch sind.
  • Recall (Sensitivität oder True Positive Rate): Diese Kennzahl beantwortet die Frage: "Wie viele der tatsächlich positiven Instanzen hat das Modell korrekt identifiziert?" Sie konzentriert sich darauf, alle relevanten Instanzen zu finden und die Falsch-Negativen (Fehler vom Typ II) zu minimieren. Eine hohe Aufklärungsrate ist wichtig, wenn das Verpassen eines positiven Beispiels kostspielig ist.

Diese Metriken werden anhand der Anzahl von True Positives (TP), False Positives (FP) und False Negatives (FN) berechnet, die aus einer Konfusionsmatrix abgeleitet werden.

Warum der F1-Score wichtig ist

Die Genauigkeit allein kann irreführend sein, insbesondere bei unausgewogenen Datensätzen. Wenn ein Datensatz zum Beispiel 95 % negative und 5 % positive Fälle enthält, erreicht ein Modell, das immer "negativ" vorhersagt, zwar eine Genauigkeit von 95 %, ist aber für die Identifizierung positiver Fälle nutzlos (null Rückruf).

Der F1-Score berücksichtigt dies, indem er den harmonischen Mittelwert von Precision und Recall berechnet. Das harmonische Mittel bestraft Extremwerte stärker als ein einfaches arithmetisches Mittel. Folglich erfordert ein hoher F1-Score sowohl eine hohe Präzision als auch einen hohen Recall, um ein Gleichgewicht zwischen den beiden Werten zu gewährleisten. Er reicht von 0 (schlechtester Wert) bis 1 (bester Wert).

Anwendungen des F1-Score

Der F1-Score ist eine Standardbewertungsmetrik in vielen KI- und ML-Bereichen:

F1-Score im Vergleich zu verwandten Metriken

  • Korrektheit: Misst die allgemeine Korrektheit. Geeignet für ausgewogene Datensätze, aber irreführend für unausgewogene Datensätze.
  • Präzision: Konzentriert sich auf die Qualität der positiven Vorhersagen (Minimierung der FP).
  • Rückruf: Konzentriert sich auf die Anzahl der tatsächlich gefundenen positiven Ergebnisse (Minimierung der FN).
  • Mittlere durchschnittliche Präzision (mAP): Eine gängige Metrik bei der Objekterkennung und bei Ranking-Problemen, bei der die Präzision über verschiedene Recall-Schwellenwerte und/oder Klassen gemittelt wird. Im Gegensatz zum F1-Score, der in der Regel nur einen einzigen Punkt bewertet, bietet sie einen breiteren Überblick über die Leistung an verschiedenen Arbeitspunkten.
  • Fläche unter der Kurve (AUC): Bezieht sich oft auf die Fläche unter der ROC-Kurve, die die Modellleistung über alle Klassifizierungsschwellenwerte hinweg zusammenfasst.

Die Wahl der richtigen Metrik hängt von der jeweiligen Problemstellung und der relativen Bedeutung der Minimierung von falsch-positiven gegenüber falsch-negativen Ergebnissen ab. Tools wie Ultralytics HUB ermöglichen es, während der Modellschulung und -bewertung mehrere Metriken, einschließlich des F1-Scores, zu verfolgen, um den Nutzern zu helfen, fundierte Entscheidungen zu treffen. In den Ultralytics findest du praktische Anleitungen zur Modellbewertung.

Alles lesen