용어집

F1 점수

머신러닝에서 F1 점수의 중요성에 대해 알아보세요! 최적의 모델 평가를 위해 정밀도와 회상률의 균형을 맞추는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

F1-Score는 머신러닝(ML) 및 통계 분석에서 이진 또는 다중 클래스 분류 모델의 성능을 평가하기 위해 널리 사용되는 지표입니다. 모델의 정확도와 회상률을 단일 측정값으로 결합하는 방법을 제공하며, 특히 불균형한 데이터 세트를 다루거나 오탐과 오탐과 관련된 비용이 크게 다를 때 정확도만 사용하는 것보다 더 강력한 평가를 제공합니다.

정확도 및 리콜에 대한 이해

F1 점수에 대해 자세히 알아보기 전에 그 구성 요소를 이해하는 것이 중요합니다:

  • 정확도: 이 메트릭은 질문에 대한 답변입니다: "모델이 양성으로 예측한 모든 사례 중 실제로 양성으로 판정된 사례는 몇 개입니까?"라는 질문에 대한 답변입니다. 이 지표는 양성 예측의 정확성에 중점을 두어 오탐(유형 I 오류)을 최소화합니다. 오탐으로 인한 비용이 높을 때는 높은 정확도가 중요합니다.
  • 리콜 (민감도 또는 진양성률): 이 메트릭은 질문에 대한 답변입니다: "실제 양성 사례 중 모델이 올바르게 식별한 사례는 몇 개입니까?"라는 질문에 대한 답변입니다. 이 지표는 모든 관련 사례를 찾아내어 오탐(유형 II 오류)을 최소화하는 데 중점을 둡니다. 양성 사례를 놓치면 비용이 많이 들기 때문에 높은 회상률은 매우 중요합니다.

이러한 지표는 혼동 행렬에서 파생된 정탐(TP), 오탐(FP), 미탐(FN)의 수를 사용하여 계산됩니다.

F1 점수가 중요한 이유

특히 불균형한 데이터 세트의 경우 정확도만으로는 오해의 소지가 있을 수 있습니다. 예를 들어, 데이터 세트에 95%의 부정 사례와 5%의 긍정 사례가 있는 경우, 항상 '부정'을 예측하는 모델은 95%의 정확도를 달성하지만 긍정 사례를 식별하는 데는 쓸모가 없습니다(리콜률 제로).

F1 점수는 정밀도와 회수율의 조화 평균을 계산하여 이 문제를 해결합니다. 조화 평균은 단순한 산술 평균보다 극단적인 값에 더 큰 불이익을 줍니다. 따라서 F1-Score가 높으려면 높은 정밀도와 높은 리콜이 모두 필요하므로 둘 사이의 균형을 유지해야 합니다. 0(최악)에서 1(최고)까지의 범위입니다.

F1-Score의 응용

F1-Score는 많은 AI 및 ML 영역에서 표준 평가 지표로 사용됩니다:

  • 정보 검색: 검색 결과의 관련성 및 완전성을 평가합니다.
  • 자연어 처리(NLP): 네임드 엔티티 인식(NER) 및 텍스트 분류(예: 스팸 탐지)와 같은 작업의 성능을 평가합니다. 스팸 필터링에서 F1-Score는 합법적인 이메일의 오분류(정확도)를 최소화하면서 스팸 이메일을 잡아내는 것(리콜)의 균형을 맞추는 데 도움을 줍니다.
  • 컴퓨터 비전: 평균 평균 정밀도(mAP) 와 같은 메트릭은 다음과 같은 객체 감지 모델에 일반적으로 사용됩니다. Ultralytics YOLO와 같은 모델에 일반적으로 사용되는 반면, F1-Score는 특정 객체 클래스 또는 세분화 작업의 성능을 평가하는 데 사용할 수 있습니다. 이러한 메트릭에 대한 자세한 내용은 YOLO 성능 메트릭 가이드에서 확인할 수 있습니다.
  • 의료 영상 분석: 스캔에서 종양을 탐지하는 것과 같은 진단 시스템에서 양성 사례를 놓치면(낮은 재현율) 심각한 결과를 초래할 수 있으며, 오경보(낮은 정밀도)는 불필요한 스트레스와 절차로 이어질 수 있습니다. F1-Score는 모델의 결정 임계값에 대한 최적의 균형을 찾는 데 도움이 됩니다. 진단 테스트 평가에 대한 자세한 내용을 참조하세요.
  • 이상 징후 탐지: 드물게 발생하는 사기 거래 또는 시스템 장애를 식별하는 것으로, 긍정적인 사례는 드물지만 탐지하는 것이 중요합니다.

F1-점수 및 관련 지표

  • 정확도: 전반적인 정확도를 측정합니다. 균형 잡힌 데이터 집합에는 적합하지만 불균형한 데이터 집합에는 오해의 소지가 있습니다.
  • 정확도: 정확도: 긍정적인 예측의 품질에 중점을 둡니다(FP 최소화).
  • 리콜: 실제 발견된 긍정의 양에 초점을 맞춥니다(FN 최소화).
  • 평균 평균 정밀도(mAP): 객체 탐지 및 순위 지정 문제에서 흔히 사용되는 지표로, 다양한 리콜 임계값 및/또는 클래스에 대한 정밀도의 평균을 구합니다. 일반적으로 단일 지점을 평가하는 F1-Score와 달리 다양한 작동 지점에서의 성능을 보다 폭넓게 파악할 수 있습니다.
  • 곡선 아래 면적(AUC): 모든 분류 임계값에 걸쳐 모델 성능을 요약한 ROC 곡선 아래 영역을 나타냅니다.

올바른 메트릭을 선택하는 것은 특정 문제와 오탐과 오탐을 최소화하는 것의 상대적 중요도에 따라 달라집니다. Ultralytics HUB와 같은 도구를 사용하면 모델 훈련 및 평가 중에 F1 점수를 비롯한 여러 메트릭을 추적하여 사용자가 정보에 입각한 결정을 내릴 수 있도록 도와줍니다. 모델 평가에 대한 실용적인 지침은 Ultralytics 튜토리얼을 살펴보세요.

모두 보기