Der F1-Score ist eine weit verbreitete Metrik im maschinellen Lernen (ML) und im Information Retrieval, um die Leistung von binären Klassifizierungsmodellen zu bewerten. Er liefert eine einzige Punktzahl, die zwei andere wichtige Metriken ausgleicht: Präzision und Recall. Diese Ausgewogenheit macht den F1-Score besonders wertvoll in Situationen, in denen die Verteilung der Klassen ungleichmäßig ist (unausgewogene Datensätze) oder wenn sowohl falsch-positive als auch falsch-negative Ergebnisse erhebliche Kosten verursachen. Der F1-Score wird als harmonisches Mittel aus Precision und Recall berechnet und liegt somit zwischen 0 und 1, wobei 1 für perfekte Precision und Recall steht.
Verstehen von Präzision und Rückruf
Um den F1-Score zu verstehen, ist es wichtig, seine Bestandteile zu kennen:
- Präzision: Misst die Genauigkeit der positiven Vorhersagen. Sie beantwortet die Frage: "Wie viele der Fälle, die das Modell als positiv vorhergesagt hat, waren tatsächlich positiv?" Eine hohe Genauigkeit bedeutet, dass das Modell nur wenige falsch-positive Fehler macht.
- Recall (Sensitivität): Misst die Fähigkeit des Modells, alle tatsächlich positiven Fälle zu identifizieren. Sie beantwortet die Frage: "Wie viele der tatsächlich positiven Fälle hat das Modell richtig erkannt?" Eine hohe Rückrufquote bedeutet, dass das Modell nur wenige falsch-negative Fehler macht.
Der F1-Score kombiniert diese beiden Werte, indem er ihren harmonischen Mittelwert berechnet. Im Gegensatz zum einfachen Durchschnitt werden beim harmonischen Mittelwert Extremwerte stärker bestraft. Das bedeutet, dass ein Modell sowohl bei der Präzision als auch bei der Wiedererkennung gut abschneiden muss, um einen hohen F1-Score zu erreichen.
Warum den F1-Score verwenden?
Die Genauigkeit (der Anteil der insgesamt richtigen Vorhersagen) ist zwar eine gängige Kennzahl, kann aber irreführend sein, insbesondere bei unausgewogenen Datensätzen. Wenn zum Beispiel nur 1 % der Datenpunkte zur positiven Klasse gehören, erreicht ein Modell, das alles als negativ vorhersagt, eine Genauigkeit von 99 %, scheitert aber bei der Identifizierung der positiven Klasse völlig.
Der F1-Score geht darauf ein, indem er sich auf die positive Klassenleistung durch Präzision und Recall konzentriert. Er wird bevorzugt, wenn:
- Das Ungleichgewicht der Klassen ist vorhanden: Sie liefert eine bessere Einschätzung als die Genauigkeit, wenn eine Klasse die andere bei weitem übertrifft.
- Sowohl Falsch-Positive als auch Falsch-Negative sind wichtig: Szenarien, in denen die Minimierung beider Fehlertypen entscheidend ist, profitieren vom F1-Score. Die Entscheidung zwischen der Optimierung der Genauigkeit oder der Rückrufquote ist oft mit einem Kompromiss verbunden; der F1-Score hilft dabei, ein Modell zu finden, das diesen Kompromiss aus Genauigkeit und Rückrufquote ausgleicht.
F1-Score in Aktion: Beispiele aus der Praxis
Der F1-Score ist in verschiedenen Anwendungen der Künstlichen Intelligenz (KI ) entscheidend:
Medizinische Bildanalyse zur Erkennung von Krankheiten: Betrachten wir ein KI-Modell, das mithilfe von Computer Vision (CV) krebsartige Tumore auf Scans erkennen soll.
- Ein falsch negativer Befund bedeutet, dass der Krebs nicht erkannt wird, wenn er vorhanden ist, was schwerwiegende Folgen für den Patienten haben kann.
- Ein falsch positiver Befund (geringe Präzision) bedeutet, dass Krebs diagnostiziert wird, obwohl er gar nicht vorhanden ist, was zu unnötigem Stress, Kosten und weiteren invasiven Tests führt.
- Der F1-Score hilft bei der Bewertung von Modellen, wie sie in KI-Gesundheitslösungen verwendet werden, indem er ein Gleichgewicht zwischen dem Erkennen tatsächlicher Fälle (Recall) und dem Vermeiden von Fehldiagnosen (Precision) sicherstellt. Zum Training solcher Modelle können Datensätze wie der Datensatz zur Erkennung von Hirntumoren verwendet werden.
Spam-E-Mail-Filterung: E-Mail-Dienste verwenden Klassifizierungsmodelle, um Spam zu erkennen.
- Eine hohe Auffindbarkeit ist notwendig, um so viel Spam wie möglich zu erkennen. Übersehener Spam (falsch negativ) ärgert die Nutzer.
- Eine hohe Genauigkeit ist entscheidend, um zu vermeiden, dass legitime E-Mails ("Schinken") als Spam markiert werden (falsch positiv). Die falsche Klassifizierung einer wichtigen E-Mail kann sehr problematisch sein.
- Der F1-Score ist ein geeignetes Maß, um die Gesamteffektivität des Spamfilters zu bewerten und dabei die Notwendigkeit auszugleichen, Junk zu filtern, ohne wichtige Nachrichten zu verlieren. Dazu werden Techniken aus der natürlichen Sprachverarbeitung (NLP) verwendet.
F1-Score im Vergleich zu verwandten Metriken
Es ist wichtig, den F1-Score von anderen Bewertungsmaßstäben zu unterscheiden:
- Korrektheit: Misst die allgemeine Korrektheit, kann aber bei unausgewogenen Klassen unzuverlässig sein.
- Precision und Recall: Der F1-Score kombiniert diese beiden Werte. Verwende die Präzision, wenn die Minimierung von falsch-positiven Ergebnissen wichtig ist; verwende den Recall, wenn die Minimierung von falsch-negativen Ergebnissen von größter Bedeutung ist.
- Mittlere durchschnittliche Genauigkeit (mAP): Eine primäre Metrik für Objekterkennungsaufgaben, wie sie von Ultralytics YOLO Modelle durchgeführt werden. mAP ist eine Durchschnittspräzision über verschiedene Recall-Werte und oft auch über mehrere Objektklassen und Intersection over Union (IoU)-Schwellenwerte. Obwohl mAP mit der Präzision und dem Recall verwandt ist, bewertet es speziell die Leistung bei der Objekterkennung und berücksichtigt dabei sowohl die Klassifizierung als auch die Lokalisierung. Weitere Einzelheiten zu den YOLO findest du hier. Siehe Modellvergleiche wie YOLO11 vs. YOLOv8, die oft auf mAP basieren.
- Intersection over Union (IoU): Misst die Überschneidung zwischen einer vorhergesagten Bounding Box und der Ground Truth Bounding Box bei der Objekterkennung. Er bewertet die Lokalisierungsqualität und nicht die Klassifizierungsleistung wie der F1-Score.
- Konfusionsmatrix: Eine Tabelle, die die Klassifizierungsleistung zusammenfasst und wahre Positive, wahre Negative, falsche Positive und falsche Negative anzeigt, aus der Präzision, Rückruf, Genauigkeit und F1-Score abgeleitet werden.
F1-Score im Ultralytics Ecosystem
Innerhalb des Ultralytics ist mAP zwar der Standard für die Bewertung von Objekterkennungsmodellen wie YOLO11ist, kann der F1-Score relevant sein, wenn es darum geht, die Fähigkeiten der Klassifizierungsaufgabe zu bewerten oder die Leistung in Bezug auf eine bestimmte Klasse innerhalb eines Erkennungs- oder Segmentierungsproblems zu beurteilen, insbesondere wenn ein Klassenungleichgewicht ein Problem darstellt. Tools wie Ultralytics HUB erleichtern das Training benutzerdefinierter Modelle und die Verfolgung verschiedener Leistungskennzahlen während der Modellbewertung. Das Verständnis von Kennzahlen wie dem F1-Score hilft bei der Feinabstimmung von Modellen für bestimmte Anforderungen mithilfe von Techniken wie dem Hyperparameter-Tuning. Frameworks wie PyTorch und Bibliotheken wie Scikit-learn bieten Implementierungen für die Berechnung des F1-Scores.