Glosario

Puntuación F1

Descubre la importancia de la puntuación F1 en el aprendizaje automático. Aprende cómo equilibra la precisión y la recuperación para una evaluación óptima del modelo.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Puntuación F1 es una métrica muy utilizada en el aprendizaje automático (AM) y el análisis estadístico para evaluar el rendimiento de los modelos de clasificación binarios o multiclase. Proporciona una forma de combinar la Precisión y la Recuperación de un modelo en una única medida, ofreciendo una evaluación más sólida que la Precisión por sí sola, especialmente cuando se trata de conjuntos de datos desequilibrados o cuando los costes asociados a los falsos positivos y los falsos negativos difieren significativamente.

Comprender la precisión y la recuperación

Antes de sumergirte en la Puntuación F1, es crucial comprender sus componentes:

  • Laprecisión: Esta métrica responde a la pregunta "De todas las instancias que el modelo predijo como positivas, ¿cuántas fueron realmente positivas?" Se centra en la exactitud de las predicciones positivas, minimizando los Falsos Positivos (errores de Tipo I). Una precisión elevada es importante cuando el coste de un falso positivo es alto.
  • Recall (Sensibilidad o Tasa de Verdaderos Positivos): Esta métrica responde a la pregunta "De todas las instancias positivas reales, ¿cuántas identificó correctamente el modelo?". Se centra en encontrar todas las instancias relevantes, minimizando los Falsos Negativos (errores de Tipo II). Una alta recuperación es crucial cuando omitir una instancia positiva es costoso.

Estas métricas se calculan utilizando los recuentos de Verdaderos Positivos (TP), Falsos Positivos (FP) y Falsos Negativos (FN) derivados de una matriz de confusión.

Por qué es importante la puntuación F1

La precisión por sí sola puede ser engañosa, sobre todo con conjuntos de datos desequilibrados. Por ejemplo, si un conjunto de datos tiene un 95% de casos negativos y un 5% de casos positivos, un modelo que siempre prediga "negativo" alcanzará un 95% de precisión, pero será inútil para identificar casos positivos (recuerdo cero).

La Puntuación F1 aborda este problema calculando la media armónica de Precisión y Reclamación. La media armónica penaliza más los valores extremos que una simple media aritmética. En consecuencia, una puntuación F1 alta requiere tanto una precisión como una recuperación altas, garantizando un equilibrio entre ambas. Va de 0 (peor) a 1 (mejor).

Aplicaciones de la puntuación F1

La puntuación F1 es una métrica de evaluación estándar en muchos dominios de IA y ML:

Puntuación F1 frente a métricas relacionadas

  • Precisión: Mide la corrección general. Adecuado para conjuntos de datos equilibrados, pero engañoso para los desequilibrados.
  • Precisión: Se centra en la calidad de las predicciones positivas (minimizar la FP).
  • Recuperación: Se centra en la cantidad de positivos reales encontrados (minimizando el FN).
  • Precisión media promedio (mAP): Una métrica habitual en los problemas de detección y clasificación de objetos, que promedia la precisión sobre varios umbrales de recuerdo y/o clases. Proporciona una visión más amplia del rendimiento en distintos puntos de funcionamiento, a diferencia de la Puntuación F1, que suele evaluar un único punto.
  • Área bajo la curva (AUC): A menudo se refiere al área bajo la curva ROC, que resume el rendimiento del modelo en todos los umbrales de clasificación.

Elegir la métrica adecuada depende del problema específico y de la importancia relativa de minimizar los falsos positivos frente a los falsos negativos. Herramientas como Ultralytics HUB permiten realizar un seguimiento de múltiples métricas, incluida la puntuación F1, durante el entrenamiento y la evaluación de modelos para ayudar a los usuarios a tomar decisiones informadas. Explora los tutoriales de Ultralytics para obtener orientación práctica sobre la evaluación de modelos.

Leer todo