Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Puntuación F1

Descubra cómo F1-Score equilibra la precisión y la recuperación para evaluar los modelos de aprendizaje automático. Descubra cómo optimizar el rendimiento Ultralytics para obtener una mayor precisión.

La puntuación F1 es una métrica de rendimiento fundamental en el aprendizaje automático que combina la precisión y la recuperación en una única media armónica. Es especialmente útil para evaluar modelos de clasificación en los que el conjunto de datos está desequilibrado o en los que los falsos positivos y los falsos negativos conllevan costes diferentes. A diferencia de la precisión directa, que puede ser engañosa si una clase domina el conjunto de datos, la puntuación F1 ofrece una visión más equilibrada de la capacidad de un modelo para identificar correctamente las instancias relevantes y minimizar los errores. Al penalizar los valores extremos, garantiza que solo se obtenga una puntuación alta cuando tanto la precisión como la recuperación sean razonablemente altas, lo que la convierte en una métrica básica en campos que van desde el diagnóstico médico hasta la recuperación de información.

Por qué es importante la puntuación F1 en el aprendizaje automático

En muchos escenarios del mundo real, no basta con conocer el porcentaje de predicciones correctas (precisión). Por ejemplo, en la detección de anomalías, los casos normales superan con creces en número a las anomalías. Un modelo que predice «normal» para cada entrada podría alcanzar una precisión del 99 %, pero sería inútil para detectar problemas reales. La puntuación F1 aborda esta cuestión equilibrando dos métricas contrapuestas:

  • Precisión: Mide la calidad de las predicciones positivas. Responde a la pregunta: «De todos los casos que el modelo ha etiquetado como positivos, ¿cuántos eran realmente positivos?».
  • Recuerdo: Mide la cantidad de predicciones positivas. Responde a la pregunta: «De todos los casos positivos reales, ¿cuántos identificó correctamente el modelo?».

Dado que a menudo hay que hacer concesiones (mejorar la precisión tiende a reducir la recuperación y viceversa), la puntuación F1 actúa como una métrica unificada para encontrar un punto de equilibrio óptimo. Esto es crucial a la hora de ajustar modelos utilizando la optimización de hiperparámetros para garantizar un rendimiento sólido en diversas condiciones.

Aplicaciones en el mundo real

La utilidad de la puntuación F1 se extiende a diversos sectores en los que el coste de los errores es significativo.

  • Diagnóstico médico: En la IA aplicada a la asistencia sanitaria, concretamente en tareas como la detección de tumores, un falso negativo (no detectar un tumor) pone en peligro la vida del paciente, mientras que un falso positivo (detectar tejido benigno ) provoca una ansiedad innecesaria. La puntuación F1 ayuda a los investigadores a optimizar modelos como YOLO26 para garantizar que el sistema sea lo suficientemente sensible como para detectar enfermedades sin abrumar a los médicos con falsas alarmas.
  • Recuperación y búsqueda de información: los motores de búsqueda y los sistemas de clasificación de documentos utilizan la puntuación F1 para evaluar la relevancia. Los usuarios desean ver todos los documentos relevantes (alto recuerdo), pero no quieren tener que revisar resultados irrelevantes (alta precisión). Una puntuación F1 alta indica que el motor está recuperando eficazmente la información correcta sin desorden.
  • Filtrado de spam: Los servicios de correo electrónico utilizan la clasificación de texto para separar el spam. El sistema debe detectar los correos electrónicos no deseados (recuerdo), pero es fundamental que no marque como basura los correos electrónicos importantes del trabajo (precisión). La puntuación F1 sirve como referencia principal para estos filtros.

Cálculo de la puntuación F1 con Ultralytics

Los marcos modernos de visión por computadora simplifican el cálculo de estas métricas. Al entrenar modelos de detección de objetos, la puntuación F1 se calcula automáticamente durante la fase de validación. Ultralytics visualiza estas métricas en gráficos en tiempo real, lo que permite a los usuarios ver la curva de la puntuación F1 frente a diferentes umbrales de confianza.

A continuación se explica cómo se puede acceder a las métricas de validación, incluidos los componentes de la puntuación F1, utilizando la Python :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Validate the model on a dataset (metrics are computed automatically)
# This returns a validator object containing precision, recall, and mAP
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision (mAP50-95), which correlates with F1 performance
print(f"mAP50-95: {metrics.box.map}")

# Access precision and recall arrays to manually inspect the balance
print(f"Precision: {metrics.box.p}")
print(f"Recall: {metrics.box.r}")

Puntuación F1 frente a métricas relacionadas

Comprender en qué se diferencia la puntuación F1 de otros criterios de evaluación es esencial para seleccionar la herramienta adecuada para su proyecto.

  • Diferencia con respecto a la precisión: La precisión trata todos los errores por igual. La puntuación F1 es superior para conjuntos de datos desequilibrados, ya que se centra en el rendimiento de la clase positiva (la clase minoritaria de interés).
  • Relación con mAP: La precisión media (mAP) es el estándar para comparar modelos de detección de objetos en todos los umbrales de confianza. Sin embargo, la puntuación F1 se utiliza a menudo para determinar el umbral de confianza óptimo para la implementación. Puede elegir el umbral en el que la curva F1 alcanza su máximo para implementar su aplicación.
  • Matriz de confusión: La matriz de confusión proporciona los recuentos brutos (verdaderos positivos, falsos positivos, etc.) a partir de los cuales se deriva la puntuación F1. Mientras que la matriz ofrece detalles granulares, la puntuación F1 proporciona una única estadística resumida para una comparación rápida.
  • ROC-AUC: El Área bajo la curva (AUC) mide la separabilidad en todos los umbrales. La puntuación F1 suele ser preferible a la ROC-AUC cuando se tiene una distribución de clases muy sesgada (por ejemplo, la detección de fraudes, donde el fraude es poco frecuente).

Mejorar tu puntuación F1

Si su modelo tiene una puntuación F1 baja, hay varias estrategias que pueden ayudarle. El aumento de datos puede incrementar la variedad de ejemplos positivos, lo que ayuda al modelo a generalizar mejor. El empleo del aprendizaje por transferencia a partir de modelos básicos robustos permite a la red aprovechar las características previamente aprendidas. Además, el ajuste del umbral de confianza durante la inferencia puede cambiar manualmente el equilibrio entre la precisión y la recuperación para maximizar la puntuación F1 para su caso de uso específico.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora