용어집

F1 점수

머신러닝에서 F1 점수의 중요성에 대해 알아보세요! 최적의 모델 평가를 위해 정밀도와 회상률의 균형을 맞추는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

F1 점수는 머신 러닝(ML)정보 검색에서 이진 분류 모델의 성능을 평가하기 위해 널리 사용되는 지표입니다. 이 점수는 정밀도와 정확도라는 두 가지 중요한 메트릭의 균형을 맞추는 단일 점수를 제공합니다. 이러한 균형 덕분에 F1 점수는 클래스 분포가 고르지 않거나(불균형 데이터 세트) 오탐과 오탐 모두 상당한 비용을 수반하는 상황에서 특히 유용합니다. F1 점수는 정밀도와 정확도의 조화 평균으로 계산되며, 0과 1 사이의 범위를 가지며, 1은 완벽한 정밀도와 정확도를 의미합니다.

정확도 및 리콜에 대한 이해

F1 점수를 파악하려면 F1 점수의 구성 요소를 이해하는 것이 중요합니다:

  • 정확도: 정확도: 긍정적인 예측의 정확도를 측정합니다. 질문에 대한 답을 제공합니다: "모델이 양성으로 예측한 모든 사례 중 실제로 양성으로 판정된 사례는 몇 개입니까?"라는 질문에 답합니다. 정확도가 높다는 것은 모델의 오탐 오류가 적다는 뜻입니다.
  • 리콜(민감도): 실제 모든 긍정적인 사례를 식별하는 모델의 능력을 측정합니다. 다음과 같은 질문에 대한 답을 제공합니다: "실제 양성 사례 중 모델이 올바르게 식별한 사례는 몇 개입니까?"라는 질문에 대한 답변입니다. 회상률이 높다는 것은 모델이 오탐 오류를 거의 범하지 않는다는 것을 의미합니다.

F1-Score는 이 두 가지를 결합하여 조화 평균을 계산합니다. 단순 평균과 달리 고조파 평균은 극단값에 더 큰 불이익을 주므로 모델이 높은 F1 점수를 얻으려면 정확도와 회상률 모두에서 합리적으로 우수한 성능을 보여야 합니다.

F1 점수를 사용하는 이유는 무엇인가요?

정확도 (전체적으로 올바른 예측의 비율)는 일반적인 지표이지만, 특히 데이터 세트가 불균형한 경우 오해의 소지가 있을 수 있습니다. 예를 들어 데이터 포인트의 1%만이 긍정적인 클래스에 속하는 경우, 모든 것을 부정적인 것으로 예측하는 모델은 99%의 정확도를 달성하지만 긍정적인 클래스를 식별하는 데는 완전히 실패합니다.

F1-Score는 정밀도와 리콜을 통해 긍정적인 클래스 성능에 초점을 맞춰 이 문제를 해결합니다. 다음과 같은 경우에 선호됩니다:

  1. 클래스 불균형이 존재합니다: 한 클래스의 수가 다른 클래스보다 훨씬 많을 때 정확도보다 더 나은 평가를 제공합니다.
  2. 오탐과 오탐 모두 중요합니다: 두 가지 유형의 오류를 최소화하는 것이 중요한 시나리오에서는 F1-Score의 균형 잡힌 기능을 활용할 수 있습니다. 정확도 또는 회수율 최적화 중 하나를 선택할 때는 종종 트레이드오프가 수반되는데, F1-Score는 이러한 정확도-회수율 트레이드오프의 균형을 맞추는 모델을 찾는 데 도움이 됩니다.

실제 F1 점수: 실제 사례

F1 점수는 다양한 인공지능(AI) 애플리케이션에서 매우 중요합니다:

  1. 질병 감지를 위한 의료 이미지 분석: 컴퓨터 비전(CV)을 사용하여 스캔에서 암 종양을 감지하도록 설계된 AI 모델을 생각해 보세요.

    • 위음성 (낮은 회상률)은 암이 있을 때 암을 발견하지 못하는 것을 의미하며, 이는 환자에게 심각한 결과를 초래할 수 있습니다.
    • 위양성 (낮은 정밀도)은 암이 없는데 암을 진단하는 것으로, 불필요한 스트레스와 비용, 추가 침습적 검사로 이어질 수 있습니다.
    • F1-Score는 실제 사례를 포착하는 것(리콜)과 오진을 피하는 것(정밀도) 사이의 균형을 보장함으로써 AI 의료 솔루션에 사용되는 것과 같은 모델을 평가하는 데 도움이 됩니다. 이러한 모델을 훈련하려면 뇌종양 탐지 데이터 세트와 같은 데이터 세트가 필요할 수 있습니다.
  2. 스팸 이메일 필터링: 이메일 서비스는 분류 모델을 사용하여 스팸을 식별합니다.

    • 최대한 많은 스팸을 잡아내려면 높은 리콜률이 필요합니다. 누락된 스팸(오탐)은 사용자를 짜증나게 합니다.
    • 정상적인 이메일('햄')을 스팸(오탐)으로 표시하지 않으려면 높은 정확도가 중요합니다. 중요한 이메일을 잘못 분류하면 큰 문제가 될 수 있습니다.
    • F1 점수는 스팸 필터의 전반적인 효과를 평가하는 데 적합한 척도로, 중요한 메시지를 놓치지 않고 정크를 필터링해야 하는 필요성과 균형을 맞추는 데 유용합니다. 여기에는 자연어 처리(NLP) 기술이 사용됩니다.

F1-점수 및 관련 지표

F1-Score를 다른 평가 지표와 구별하는 것이 중요합니다:

  • 정확도: 전반적인 정확도를 측정하지만 불균형한 클래스에 대해서는 신뢰할 수 없을 수 있습니다.
  • 정밀도리콜: F1-Score는 이 두 가지를 결합합니다. 오탐을 최소화하는 것이 중요할 때는 정밀도를 사용하고, 오탐을 최소화하는 것이 가장 중요할 때는 리콜을 사용합니다.
  • 평균 평균 정밀도(mAP): 객체 탐지 작업의 기본 메트릭으로, 다음에서 수행하는 작업과 같은 Ultralytics YOLO 모델에서 수행되는 것과 같은 주요 지표로, 다양한 리콜 수준과 여러 오브젝트 클래스 및 IoU(Intersection over Union) 임계값에 걸쳐 정밀도의 평균을 구합니다. 정확도 및 리콜과 관련이 있지만, mAP는 특히 분류와 로컬라이제이션을 모두 고려하여 객체 탐지 성능을 평가합니다. 자세한 내용은 YOLO 성능 메트릭을 살펴보세요. mAP를 자주 사용하는 YOLO11 YOLOv8 같은 모델 비교를 참조하세요.
  • 유니온에 대한 교차점(IoU): 객체 감지 시 예측된 경계 상자와 기준 진실 경계 상자 사이의 중첩을 측정합니다. F1-Score처럼 분류 성능이 아닌 현지화 품질을 직접 평가합니다.
  • 혼동 매트릭스: 분류 성능을 요약한 표로, 정탐, 정탐, 오탐, 미탐을 표시하며 정밀도, 회수율, 정확도 및 F1 점수가 도출됩니다.

Ultralytics 에코시스템의 F1-점수

Ultralytics 에코시스템 내에서 mAP는 다음과 같은 객체 감지 모델을 평가하기 위한 표준이지만 YOLO11와 같은 객체 탐지 모델을 평가하는 표준인 반면, F1-Score는 분류 작업 기능을 평가하거나 탐지 또는 세분화 문제 내에서 특정 클래스에 대한 성능을 평가할 때, 특히 클래스 불균형이 우려되는 경우 유용할 수 있습니다. Ultralytics HUB와 같은 도구는 사용자 지정 모델을 훈련하고 모델 평가 중에 다양한 성능 메트릭을 추적할 수 있게 해줍니다. F1-Score와 같은 메트릭을 이해하면 하이퍼파라미터 튜닝과 같은 기술을 사용하여 특정 요구 사항에 맞게 모델을 미세 조정하는 데 도움이 됩니다. 다음과 같은 프레임워크 PyTorch 와 같은 프레임워크와 Scikit-learn과 같은 라이브러리는 F1-Score 계산을 위한 구현을 제공합니다.

모두 보기