Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Pontuação F1

Saiba como o F1-Score equilibra precisão e recuperação para avaliar modelos de aprendizagem automática. Descubra como otimizar o desempenho Ultralytics para obter maior precisão.

O F1-Score é uma métrica de desempenho crítica na aprendizagem automática que combina precisão e recuperação numa única média harmónica. É particularmente útil para avaliar modelos de classificação em que o conjunto de dados está desequilibrado ou em que os falsos positivos e os falsos negativos acarretam custos diferentes. Ao contrário da precisão direta, que pode ser enganosa se uma classe dominar o conjunto de dados, o F1-Score fornece uma visão mais equilibrada da capacidade de um modelo identificar instâncias relevantes corretamente, minimizando erros. Ao penalizar valores extremos, ele garante que uma pontuação alta só seja alcançada quando a precisão e a recuperação forem razoavelmente altas, tornando-o uma métrica básica em áreas que vão desde diagnósticos médicos até recuperação de informações.

Por que o F1-Score é importante no aprendizado de máquina

Em muitos cenários do mundo real, simplesmente saber a percentagem de previsões corretas (precisão) é insuficiente. Por exemplo, na deteção de anomalias, os casos normais superam em muito as anomalias. Um modelo que prevê «normal» para cada entrada pode atingir 99% de precisão, mas seria inútil para detetar problemas reais. O F1-Score resolve isso equilibrando duas métricas concorrentes:

  • Precisão: mede a qualidade das previsões positivas. Responde à pergunta: «De todos os casos que o modelo rotulou como positivos, quantos eram realmente positivos?»
  • Recall: mede a quantidade de previsões positivas. Responde à pergunta: «De todos os casos positivos reais, quantos o modelo identificou corretamente?»

Como muitas vezes há uma compensação — melhorar a precisão tende a diminuir a recuperação e vice-versa —, o F1-Score atua como uma métrica unificada para encontrar um ponto de equilíbrio ideal. Isso é crucial ao ajustar modelos usando otimização de hiperparâmetros para garantir um desempenho robusto em diversas condições.

Aplicações no Mundo Real

A utilidade do F1-Score estende-se por vários setores onde o custo do erro é significativo.

  • Diagnóstico médico: Na IA na área da saúde, especificamente para tarefas como detecção de tumores, um falso negativo (não detectar um tumor) pode ser fatal, enquanto um falso positivo (identificar tecido benigno ) causa ansiedade desnecessária. O F1-Score ajuda os investigadores a otimizar modelos como o YOLO26 para garantir que o sistema seja sensível o suficiente para detectar doenças sem sobrecarregar os médicos com falsos alarmes.
  • Recuperação e pesquisa de informações: os motores de busca e os sistemas de classificação de documentos utilizam o F1-Score para avaliar a relevância. Os utilizadores querem ver todos os documentos relevantes (alta recuperação), mas não querem ter de vasculhar resultados irrelevantes (alta precisão). Um F1-Score alto indica que o motor está a recuperar eficazmente as informações certas sem confusão.
  • Filtragem de spam: os serviços de e-mail utilizam classificação de texto para separar o spam. O sistema deve detectar e-mails de spam (recall), mas, fundamentalmente, não deve classificar e-mails importantes do trabalho como lixo eletrónico (precision). O F1-Score serve como referência principal para esses filtros.

Calculando a pontuação F1 com Ultralytics

As estruturas modernas de visão computacional simplificam o cálculo dessas métricas. Ao treinar modelos de detecção de objetos, o F1-Score é calculado automaticamente durante a fase de validação. A Ultralytics visualiza essas métricas em gráficos em tempo real, permitindo que os utilizadores vejam a curva do F1-Score em relação a diferentes limites de confiança.

Veja como pode aceder às métricas de validação, incluindo componentes do F1-Score, usando a Python :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Validate the model on a dataset (metrics are computed automatically)
# This returns a validator object containing precision, recall, and mAP
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision (mAP50-95), which correlates with F1 performance
print(f"mAP50-95: {metrics.box.map}")

# Access precision and recall arrays to manually inspect the balance
print(f"Precision: {metrics.box.p}")
print(f"Recall: {metrics.box.r}")

Pontuação F1 vs. métricas relacionadas

Compreender como o F1-Score difere de outros critérios de avaliação é essencial para selecionar a ferramenta certa para o seu projeto.

  • Diferença em relação à precisão: A precisão trata todos os erros de forma igual. O F1-Score é superior para conjuntos de dados desequilibrados porque se concentra no desempenho da classe positiva (a classe minoritária de interesse).
  • Relação com mAP: A Precisão Média (mAP) é o padrão para comparar modelos de deteção de objetos em todos os limiares de confiança. No entanto, o F1-Score é frequentemente usado para determinar o limiar de confiança ideal para implementação. Pode escolher o limiar em que a curva F1 atinge o pico para implementar a sua aplicação.
  • Matriz de confusão: A matriz de confusão fornece as contagens brutas (Verdadeiros Positivos, Falsos Positivos, etc.) das quais o F1-Score é derivado. Enquanto a matriz fornece detalhes granulares, o F1-Score fornece uma única estatística resumida para comparação rápida.
  • ROC-AUC: A área sob a curva (AUC) mede a separabilidade em todos os limiares. O F1-Score é geralmente preferível ao ROC-AUC quando se tem uma distribuição de classes altamente assimétrica (por exemplo, deteção de fraudes, onde as fraudes são raras).

Melhorando a sua pontuação F1

Se o seu modelo sofre com uma pontuação F1 baixa, várias estratégias podem ajudar. O aumento de dados pode aumentar a variedade de exemplos positivos, ajudando o modelo a generalizar melhor. Empregar a aprendizagem por transferência a partir de modelos de base robustos permite que a rede aproveite recursos pré-aprendidos. Além disso, ajustar o limiar de confiança durante a inferência pode alterar manualmente o equilíbrio entre precisão e recuperação para maximizar a pontuação F1 para o seu caso de uso específico.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora