Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Score F1

Découvrez comment le score F1 équilibre la précision et le rappel pour évaluer les modèles d'apprentissage automatique. Découvrez comment optimiser les performances Ultralytics pour une meilleure précision.

Le score F1 est un indicateur de performance essentiel dans l'apprentissage automatique qui combine la précision et le rappel en une seule moyenne harmonique. Il est particulièrement utile pour évaluer les modèles de classification lorsque l'ensemble de données est déséquilibré ou lorsque les faux positifs et les faux négatifs ont des coûts différents. Contrairement à la précision simple, qui peut être trompeuse si une classe domine l'ensemble de données, le score F1 offre une vision plus équilibrée de la capacité d'un modèle à identifier correctement les instances pertinentes tout en minimisant les erreurs. En pénalisant les valeurs extrêmes, il garantit qu'un score élevé n'est atteint que lorsque la précision et le rappel sont tous deux raisonnablement élevés, ce qui en fait un indicateur incontournable dans des domaines allant du diagnostic médical à la recherche d'informations.

Pourquoi le score F1 est important dans l'apprentissage automatique

Dans de nombreux scénarios réels, il ne suffit pas de connaître le pourcentage de prédictions correctes (précision). Par exemple, dans la détection d'anomalies, les cas normaux sont bien plus nombreux que les anomalies. Un modèle qui prédit « normal » pour chaque entrée pourrait atteindre une précision de 99 %, mais serait inutile pour détecter les problèmes réels. Le score F1 résout ce problème en équilibrant deux mesures concurrentes :

  • Précision: elle mesure la qualité des prédictions positives. Elle répond à la question suivante : « Parmi tous les cas que le modèle a étiquetés comme positifs, combien étaient réellement positifs ? »
  • Rappel: Elle mesure la quantité de prédictions positives. Elle répond à la question suivante : « Parmi tous les cas positifs réels, combien le modèle a-t-il correctement identifiés ? »

Comme il y a souvent un compromis à faire (améliorer la précision tend à réduire le rappel et vice versa), le score F1 sert de mesure unifiée pour trouver un point d'équilibre optimal. Ceci est crucial lors du réglage des modèles à l'aide de l' optimisation des hyperparamètres pour garantir des performances robustes dans diverses conditions.

Applications concrètes

L'utilité du score F1 s'étend à divers secteurs où le coût des erreurs est important.

  • Diagnostic médical: dans le domaine de l' IA appliquée à la santé, en particulier pour des tâches telles que la détection de tumeurs, un faux négatif (ne pas détecter une tumeur) peut mettre la vie en danger, tandis qu'un faux positif (signaler un tissu bénin) provoque une anxiété inutile. Le score F1 aide les chercheurs à optimiser des modèles tels que YOLO26 afin de garantir que le système soit suffisamment sensible pour détecter les maladies sans submerger les médecins de fausses alertes.
  • Récupération et recherche d'informations: les moteurs de recherche et les systèmes de classification de documents utilisent le score F1 pour évaluer la pertinence. Les utilisateurs veulent voir tous les documents pertinents (rappel élevé), mais ne veulent pas avoir à passer au crible les résultats non pertinents (précision élevée). Un score F1 élevé indique que le moteur récupère efficacement les bonnes informations sans encombrement.
  • Filtrage des spams: les services de messagerie utilisent la classification de texte pour séparer les spams. Le système doit détecter les spams (rappel), mais surtout ne doit pas classer les e-mails professionnels importants comme indésirables (précision). Le score F1 sert de référence principale pour ces filtres.

Calcul du score F1 avec Ultralytics

Les cadres modernes de vision par ordinateur simplifient le calcul de ces mesures. Lors de l'entraînement des modèles de détection d'objets, le score F1 est automatiquement calculé pendant la phase de validation. Ultralytics visualise ces mesures dans des graphiques en temps réel, permettant aux utilisateurs de voir la courbe du score F1 par rapport à différents seuils de confiance.

Voici comment accéder aux métriques de validation, y compris les composants du score F1, à l'aide de Python :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Validate the model on a dataset (metrics are computed automatically)
# This returns a validator object containing precision, recall, and mAP
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision (mAP50-95), which correlates with F1 performance
print(f"mAP50-95: {metrics.box.map}")

# Access precision and recall arrays to manually inspect the balance
print(f"Precision: {metrics.box.p}")
print(f"Recall: {metrics.box.r}")

F1-Score vs. Indicateurs connexes

Il est essentiel de comprendre en quoi le score F1 diffère des autres critères d'évaluation pour choisir l'outil adapté à votre projet.

  • Différence par rapport à la précision: La précision traite toutes les erreurs de manière égale. Le score F1 est supérieur pour les ensembles de données déséquilibrés, car il se concentre sur les performances de la classe positive (la classe minoritaire qui nous intéresse).
  • Relation avec mAP: La précision moyenne (mAP) est la norme utilisée pour comparer les modèles de détection d'objets pour tous les seuils de confiance. Cependant, le score F1 est souvent utilisé pour déterminer le seuil de confiance optimal pour le déploiement. Vous pouvez choisir le seuil où la courbe F1 atteint son maximum pour déployer votre application.
  • Matrice de confusion: la matrice de confusion fournit les nombres bruts (vrais positifs, faux positifs, etc.) à partir desquels le score F1 est calculé. Alors que la matrice donne des détails granulaires, le score F1 fournit une statistique récapitulative unique permettant une comparaison rapide.
  • ROC-AUC: l' aire sous la courbe (AUC) mesure la séparabilité entre tous les seuils. Le score F1 est généralement préféré au ROC-AUC lorsque la distribution des classes est très asymétrique (par exemple, dans le cas de la détection des fraudes, où celles-ci sont rares).

Améliorer votre score F1

Si votre modèle souffre d'un faible score F1, plusieurs stratégies peuvent vous aider. L'augmentation des données peut accroître la variété des exemples positifs, aidant ainsi le modèle à mieux généraliser. L'utilisation du transfert d'apprentissage à partir de modèles de base robustes permet au réseau d'exploiter des caractéristiques pré-apprises. De plus, l'ajustement du seuil de confiance pendant l'inférence peut modifier manuellement l'équilibre entre la précision et le rappel afin de maximiser le score F1 pour votre cas d'utilisation spécifique.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant