용어집

혼동 매트릭스

혼동 행렬로 모델 성능을 이해하세요. AI 분류 정확도를 개선하기 위한 메트릭, 실제 사용 사례 및 도구를 살펴보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

혼동 행렬은 지도 학습, 특히 분류 문제에 사용되는 성능 측정 도구입니다. 혼동 행렬은 테스트 데이터 세트에 대해 예측된 분류와 실제 실제 분류를 비교하여 분류 모델의 성능을 종합적으로 요약한 것입니다. 이 시각화는 모델의 전반적인 정확성뿐만 아니라 모델의 오류 유형(즉, 모델이 "혼동"되는 부분)을 이해하는 데 도움이 됩니다. 특히 머신 러닝(ML)인공 지능(AI) 에서 이미지 분류 또는 객체 감지와 같은 작업을 위해 학습된 모델을 평가하는 데 유용합니다.

구성 요소 이해

혼동 행렬은 일반적으로 각 행이 실제 클래스의 인스턴스를 나타내고 각 열이 예측 클래스의 인스턴스를 나타내는 정사각형 격자로 표시됩니다(또는 그 반대의 경우도 마찬가지). 간단한 이진 분류 문제(예: 긍정과 부정의 두 가지 클래스)의 경우 행렬은 4개의 셀로 구성됩니다:

  • 정탐(TP): 모델이 양성 클래스를 정확하게 예측한 경우입니다.
  • 트루 네거티브(TN): 모델이 부정 등급을 정확하게 예측했습니다.
  • 오탐(FP)(유형 I 오류): 모델이 양성 클래스를 잘못 예측한 경우(양성으로 예측했지만 실제 클래스는 음성인 경우).
  • 거짓 네거티브(FN)(유형 II 오류): 모델이 부정적 클래스를 잘못 예측한 경우(부정적이라고 예측했지만 실제 클래스는 긍정적이었습니다).

이 네 가지 구성 요소는 다양한 성능 지표를 계산하기 위한 기초를 형성합니다.

다른 평가 지표와의 관계

혼동 매트릭스는 자세한 분석을 제공하지만, 이 매트릭스를 통해 몇 가지 주요 지표를 도출하여 성과를 요약할 수 있습니다:

  • 정확도: 전체 예측 중 정확했던 예측의 비율(TP + TN) / (TP + TN + FP + FN). 간단하지만 불균형한 데이터 세트의 경우 오해의 소지가 있을 수 있습니다.
  • 정밀도: 양성 예측의 정확도를 측정합니다. TP / (TP + FP). 대답합니다: "양성으로 예측된 모든 사례 중 실제로 양성인 사례는 몇 개입니까?"
  • 리콜 (민감도 또는 진양성률): 실제 양성 사례를 식별하는 모델의 능력을 측정합니다. TP / (TP + FN). 다음과 같이 대답합니다: "실제 양성 사례 중 모델이 올바르게 식별한 사례는 몇 개입니까?"라는 질문에 대한 답변입니다.
  • F1-Score: 정확도와 회수율의 조화 평균으로, 두 가지 문제의 균형을 맞춘 단일 점수를 제공합니다.
  • 특이도 (실제 부정률): 실제 부정 사례를 식별하는 모델의 능력을 측정합니다. TN / (TN + FP).
  • 수신기 동작 특성(ROC) 곡선: 다양한 임계값 설정에서 오탐률(1 - 특이도)에 대한 진양성률(리콜)을 그래프로 표시하여 다양한 결정 임계값에 걸친 성능을 요약합니다.

혼동 행렬을 이해하면 특정 문제에 가장 적합한 지표를 선택하는 데 도움이 되며, 특히 다양한 유형의 오류(FP와 FN)의 비용이 크게 다를 때 더욱 그렇습니다. 이에 대한 자세한 내용은 YOLO 성능 지표에 대한 가이드에서 확인할 수 있습니다.

Ultralytics 사용

다음과 같은 모델을 학습할 때 Ultralytics YOLO 와 같은 모델을 객체 감지나 이미지 분류와 같은 작업을 위해 훈련할 때, 혼동 행렬은 검증 단계(Val 모드)에서 자동으로 생성됩니다. 이러한 매트릭스를 통해 사용자는 COCO 또는 사용자 정의 데이터 세트와 같은 데이터 세트 내의 다양한 클래스에서 모델이 얼마나 잘 수행되는지 시각화할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 모델 훈련, 데이터 세트 관리, 혼동 매트릭스를 포함한 결과 분석을 위한 통합 환경을 제공하여 모델 평가에 대한 종합적인 인사이트를 얻을 수 있도록 합니다. 이를 통해 모델이 어려움을 겪고 있는 클래스를 빠르게 식별하여 추가 데이터 보강 또는 하이퍼파라미터 튜닝을 위한 정보를 얻을 수 있습니다. 다음과 같은 프레임워크 PyTorchTensorFlow 와 같은 프레임워크는 이러한 행렬을 생성하기 위한 도구를 통합하는 경우가 많습니다.

실제 애플리케이션

혼동 행렬은 여러 영역에서 매우 중요합니다:

  1. 의료 진단: 의료 이미지에서 암과 같은 질병을 감지하도록 설계된 모델을 평가할 때 혼동 매트릭스는 매우 중요합니다. 오탐(암이 존재함에도 암을 감지하지 못하는 것)은 잠재적으로 오양성(암이 없는데도 암을 감지하여 추가 검사로 이어지는 것)보다 더 심각한 결과를 초래할 수 있습니다. 매트릭스를 분석하면 임상적 필요에 따라 정밀도와 회수율의 균형을 맞추는 데 도움이 됩니다. 자세한 내용은 의료 영상에 관한 NIH 리소스를 참조하세요. 의료 영상은 의료 분야 AI의 핵심 영역입니다.
  2. 스팸 이메일 탐지: 스팸 필터의 경우 혼동 매트릭스를 통해 성능을 평가할 수 있습니다. 오탐(정상적인 이메일을 스팸으로 분류)은 오탐(스팸 이메일을 통과시키는 것)보다 사용자에게 더 문제가 될 수 있습니다. 매트릭스는 각 오류 유형이 얼마나 자주 발생하는지 자세히 설명하여 모델 조정을 안내합니다. 자연어 처리(NLP)와 관련된 이러한 기술을 사용한 스팸 탐지 연구를 살펴볼 수 있습니다. 다른 응용 분야로는 사기 탐지보안 시스템의 모델 평가 등이 있습니다.

혜택 및 제한 사항

혼동 행렬의 가장 큰 장점은 단일 정확도 점수를 넘어 모델 성능에 대한 상세한 클래스별 분석을 제공할 수 있다는 점입니다. 혼동 매트릭스는 모델이 '혼동'되는 부분을 명확하게 보여주며, 특히 클래스가 불균형하거나 오류와 관련된 비용이 서로 다른 시나리오에서 분류 모델을 디버깅하고 개선하는 데 필수적입니다. 더 쉬운 해석을 위해 데이터 시각화를 지원합니다. 한 가지 한계는이미지넷과 같은 대규모 데이터 세트와 같이 클래스 수가 매우 많은 문제의 경우 행렬이 커져서 집계나 특수 시각화 기법이 없으면 시각적으로 해석하기 어려울 수 있다는 점입니다.

요약하자면, 혼동 행렬은 지도 학습에서 없어서는 안 될 평가 도구로, 강력하고 신뢰할 수 있는 컴퓨터 비전(CV) 및 기타 ML 모델을 개발하는 데 중요한 인사이트를 제공합니다. 혼동 행렬의 구성 요소를 이해하는 것은 Ultralytics 허브와 같은 플랫폼 내에서 효과적인 모델 평가와 반복을 위한 핵심입니다.

모두 보기