Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

F1-Score

Erfahren Sie, wie der F1-Score Präzision und Recall ausgleicht, um Machine-Learning-Modelle zu bewerten. Entdecken Sie, wie Sie die Leistung Ultralytics für eine höhere Genauigkeit optimieren können.

Der F1-Score ist eine wichtige Leistungskennzahl im maschinellen Lernen, die Präzision und Recall zu einem einzigen harmonischen Mittelwert kombiniert. Er ist besonders nützlich für die Bewertung von Klassifizierungsmodellen, bei denen der Datensatz unausgewogen ist oder bei denen Falsch-Positive und Falsch-Negative unterschiedliche Kosten verursachen. Im Gegensatz zur einfachen Genauigkeit, die irreführend sein kann, wenn eine Klasse den Datensatz dominiert, bietet der F1-Score eine ausgewogenere Sicht auf die Fähigkeit eines Modells, relevante Instanzen korrekt zu identifizieren und gleichzeitig Fehler zu minimieren. Durch die Bestrafung extremer Werte wird sichergestellt, dass ein hoher Score nur dann erreicht wird, wenn sowohl Präzision als auch Recall angemessen hoch sind, was ihn zu einer wichtigen Kennzahl in Bereichen von der medizinischen Diagnostik bis zur Informationsgewinnung macht.

Warum der F1-Score im maschinellen Lernen wichtig ist

In vielen realen Szenarien reicht es nicht aus, nur den Prozentsatz der korrekten Vorhersagen (Genauigkeit) zu kennen. Bei der Anomalieerkennung beispielsweise überwiegen normale Fälle bei weitem die Anomalien. Ein Modell, das für jede einzelne Eingabe „normal” vorhersagt, erreicht zwar eine Genauigkeit von 99 %, ist jedoch für die Erkennung tatsächlicher Probleme unbrauchbar. Der F1-Score löst dieses Problem, indem er zwei konkurrierende Metriken gegeneinander abwägt:

  • Präzision: Misst die Qualität positiver Vorhersagen. Sie beantwortet die Frage: „Wie viele der vom Modell als positiv gekennzeichneten Fälle waren tatsächlich positiv?“
  • Recall: Misst die Anzahl der positiven Vorhersagen. Beantwortet die Frage: „Wie viele der tatsächlich positiven Fälle hat das Modell korrekt identifiziert?“

Da es oft einen Kompromiss gibt – die Verbesserung der Präzision führt tendenziell zu einer Verringerung der Recall und umgekehrt – fungiert der F1-Score als einheitliche Metrik, um einen optimalen Gleichgewichtspunkt zu finden. Dies ist entscheidend bei der Feinabstimmung von Modellen mithilfe der Hyperparameter-Optimierung, um eine robuste Leistung unter verschiedenen Bedingungen zu gewährleisten.

Anwendungsfälle in der Praxis

Die Nützlichkeit des F1-Scores erstreckt sich über verschiedene Branchen, in denen die Kosten von Fehlern erheblich sind.

  • Medizinische Diagnostik: Bei der Einsatz von KI im Gesundheitswesen, insbesondere bei Aufgaben wie der Tumorerkennung, ist ein falsch negatives Ergebnis (Übersehen eines Tumors) lebensbedrohlich, während ein falsch positives Ergebnis (Markierung von gutartigem Gewebe) unnötige Ängste hervorruft. Der F1-Score hilft Forschern dabei, Modelle wie YOLO26 zu optimieren, um sicherzustellen, dass das System empfindlich genug ist, um Krankheiten zu erkennen, ohne Ärzte mit Fehlalarmen zu überfordern.
  • Informationsabruf und -suche: Suchmaschinen und Dokumentenklassifizierungssysteme verwenden den F1-Score zur Bewertung der Relevanz. Benutzer möchten alle relevanten Dokumente sehen (hohe Trefferquote), aber nicht durch irrelevante Ergebnisse wühlen (hohe Präzision). Ein hoher F1-Score zeigt an, dass die Suchmaschine effektiv die richtigen Informationen ohne Unordnung abruft.
  • Spam-Filterung: E-Mail-Dienste verwenden Textklassifizierung, um Spam auszusortieren. Das System muss Spam-E-Mails erkennen (Recall), darf aber vor allem wichtige Arbeits-E-Mails nicht als Junk markieren (Precision). Der F1-Score dient als primärer Benchmark für diese Filter.

Berechnung des F1-Scores mit Ultralytics

Moderne Computer-Vision-Frameworks vereinfachen die Berechnung dieser Metriken. Beim Training von Objekterkennungsmodellen wird der F1-Score automatisch während der Validierungsphase berechnet. Die Ultralytics visualisiert diese Metriken in Echtzeit-Diagrammen, sodass Benutzer die Kurve des F1-Scores bei verschiedenen Konfidenzschwellenwerten sehen können.

So können Sie über die Python auf Validierungsmetriken zugreifen, darunter auch Komponenten des F1-Scores:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Validate the model on a dataset (metrics are computed automatically)
# This returns a validator object containing precision, recall, and mAP
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision (mAP50-95), which correlates with F1 performance
print(f"mAP50-95: {metrics.box.map}")

# Access precision and recall arrays to manually inspect the balance
print(f"Precision: {metrics.box.p}")
print(f"Recall: {metrics.box.r}")

F1-Score vs. verwandte Metriken

Das Verständnis, wie sich der F1-Score von anderen Bewertungskriterien unterscheidet, ist für die Auswahl des richtigen Tools für Ihr Projekt unerlässlich.

  • Unterschied zur Genauigkeit: Bei der Genauigkeit werden alle Fehler gleich behandelt. Der F1-Score ist für unausgewogene Datensätze besser geeignet, da er sich auf die Leistung der positiven Klasse (der interessierenden Minderheitsklasse) konzentriert .
  • Beziehung zu mAP: Die mittlere durchschnittliche Präzision (mAP) ist der Standard für den Vergleich von Objekterkennungsmodellen über alle Konfidenzschwellen hinweg. Der F1-Score wird jedoch häufig verwendet, um die optimale Konfidenzschwelle für den Einsatz zu bestimmen. Sie können die Schwelle wählen, bei der die F1-Kurve ihren Höchstwert erreicht, um Ihre Anwendung einzusetzen.
  • Verwechslungsmatrix: Die Verwechslungsmatrix liefert die Rohwerte (True Positives, False Positives usw.), aus denen der F1-Score abgeleitet wird. Während die Matrix detaillierte Informationen liefert, bietet der F1-Score eine einzige zusammenfassende Statistik für einen schnellen Vergleich.
  • ROC-AUC: Die Fläche unter der Kurve (AUC) misst die Trennbarkeit über alle Schwellenwerte hinweg. Der F1-Score wird im Allgemeinen gegenüber dem ROC-AUC bevorzugt, wenn Sie eine stark verzerrte Klassenverteilung haben (z. B. bei der Betrugserkennung, wo Betrug selten vorkommt).

Verbesserung Ihres F1-Scores

Wenn Ihr Modell unter einem niedrigen F1-Score leidet, können verschiedene Strategien Abhilfe schaffen. Durch Datenvergrößerung kann die Vielfalt der positiven Beispiele erhöht werden, wodurch das Modell besser generalisieren kann. Durch den Einsatz von Transferlernen aus robusten Basismodellen kann das Netzwerk vorab gelernte Merkmale nutzen. Darüber hinaus kann durch Anpassen des Konfidenzschwellenwerts während der Inferenz manuell die Balance zwischen Präzision und Recall verschoben werden, um den F1-Score für Ihren spezifischen Anwendungsfall zu maximieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten