용어집

정확성

머신 러닝에서 정확도의 중요성, 계산, 불균형한 데이터 세트의 한계, 모델 성능을 개선하는 방법에 대해 알아보세요.

정확도는 머신러닝(ML)에서 가장 기본적이고 직관적인 평가 지표 중 하나입니다. 정확도는 모델이 수행한 모든 예측 중 올바른 예측의 비율을 측정합니다. 정확도는 단순하기 때문에 개발자가 특히 분류 작업에서 AI 모델의 성능을 전반적으로 파악하기 위해 가장 먼저 살펴보는 지표입니다. 정확도는 보다 미묘한 평가에 들어가기 전에 빠르게 상태를 점검하는 역할을 합니다.

실제 애플리케이션

정확도는 분류가 중요한 많은 분야에서 핵심 성과 지표입니다. 다음은 두 가지 예입니다:

  • 의료 진단: AI 기반 의료 서비스에서는 의료 이미지 분석용으로 설계된 모델을 학습시켜 엑스레이 이미지에서 폐렴의 징후를 보이는지 여부를 분류할 수 있습니다. 정확도가 높다는 것은 모델이 높은 비율의 사례에서 질병의 유무를 정확하게 식별하여 영상의학 전문의에게 신뢰할 수 있는 지원을 제공한다는 의미입니다.
  • 제조 품질 관리: 스마트 제조에서는 컴퓨터 비전 시스템을 배치하여 컨베이어 벨트 위의 제품을 검사할 수 있습니다. 이 모델은 각 품목을 "결함" 또는 "비결함"으로 분류합니다. 높은 정확도로 결함이 있는 제품을 정확하게 식별하여 제거할 수 있으며, 생산 효율과 품질에 직접적인 영향을 미치는 정상 제품의 잘못된 표시를 최소화할 수 있습니다.

정확도의 한계

정확도는 유용함에도 불구하고, 특히 불균형 데이터 집합을 다룰 때는 매우 오해의 소지가 있을 수 있습니다. 불균형 데이터 세트는 서로 다른 클래스의 예시 수가 크게 차이가 나는 데이터 세트입니다. 예를 들어 사기 탐지에서는 합법적인 거래가 사기 거래보다 훨씬 더 많습니다. 항상 "사기가 아님"을 예측하는 모델은 99% 이상의 정확도를 달성할 수 있지만 의도한 목적에는 전혀 쓸모가 없습니다. 드물지만 중요한 사례를 식별하지 못하기 때문입니다. 이 시나리오는 높은 정확도 점수가 모델의 효과에 대한 잘못된 인식을 주는 정확도 역설을 강조합니다.

정확도 대 다른 지표

모델의 성능을 완벽하게 파악하려면 정확도와 함께 다른 지표도 고려하는 것이 중요합니다.

  • 정밀도: 실제로 맞았던 긍정적인 예측의 비율을 측정합니다. "양성 클래스에 대한 모든 예측 중 몇 개가 맞았나요?"라는 질문에 답할 수 있습니다. 오탐으로 인한 비용이 높을 때는 높은 정확도가 필수적입니다.
  • 리콜: 민감도라고도 하는 이 메트릭은 정확하게 식별된 실제 양성 사례의 비율을 측정합니다. "실제 양성 사례 중 내 모델이 찾아낸 사례는 몇 개입니까?"라는 질문에 대한 답변입니다. 의료 검진처럼 오탐으로 인한 비용이 큰 경우 높은 회수율은 매우 중요합니다.
  • F1-Score: 정확도와 회수율의 조화 평균으로, 두 가지의 균형을 이루는 단일 점수를 제공합니다. 오탐과 오탐이 모두 중요한 불균형 데이터 세트에서 모델을 평가할 때 특히 유용합니다.
  • 혼동 매트릭스: 분류 모델의 성능을 정탐, 정탐, 오탐, 오탐의 개수로 표시하여 시각화하는 표입니다. 정확도, 정밀도, 회수율을 계산하는 데 필요한 데이터를 제공합니다.
  • 평균 평균 정밀도(mAP): 물체 감지와 같은 보다 복잡한 작업의 경우 mAP가 표준 지표입니다. 분류의 정확성뿐만 아니라 다양한 신뢰 수준에서 예측된 경계 상자의 위치 정확도도 평가합니다. 더 깊은 이해를 위해 다양한 모델 비교를 살펴볼 수 있습니다.

모델 정확도 향상

여러 가지 기술이 모델 정확도를 개선하는 데 도움이 될 수 있지만, 다른 지표나 계산 비용과의 절충이 필요한 경우가 많습니다:

모델 트레이닝 팁과 같은 컨설팅 리소스는 실질적인 지침을 제공할 수 있습니다. Ultralytics HUB와 같은 플랫폼을 통해 사용자는 모델을 훈련하고 다른 주요 메트릭과 함께 정확도를 쉽게 추적할 수 있으며, 종종 TensorBoard와 같은 도구를 사용하여 시각화할 수 있습니다. 스탠포드 AI 인덱스 보고서와 같은 리소스를 통해 해당 분야의 진행 상황을 추적하거나 Papers With Code에서 데이터 세트를 검색할 수 있습니다. 이러한 모델을 구축하고 훈련하는 데는 일반적으로 PyTorchTensorFlow와 같은 프레임워크가 사용됩니다.

결론적으로 정확도는 AI 모델 성능을 평가하는 데 유용하고 직관적인 지표이기는 하지만, 정확도만 단독으로 사용해서는 안 됩니다. 가장 적절한 평가 지표를 선택하려면 ML 작업의 구체적인 목표와 데이터의 특성, 특히 잠재적인 불균형이나 다양한 오류 비용을 고려하는 것이 필수적입니다. 설명 가능한 AI(XAI) 의 기술을 활용하면 단일 메트릭 값 이상의 심층적인 인사이트를 얻을 수도 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨