용어집

유효성 검사 데이터

검증 데이터로 머신러닝 모델을 최적화하여 과적합을 방지하고, 하이퍼파라미터를 조정하며, 강력한 실제 성능을 보장합니다.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

검증 데이터는 모델의 성능을 미세 조정하고 과적합을 방지하는 데 사용되는 머신 러닝 프로세스의 중요한 부분입니다. 모델이 보이지 않는 데이터에 대해서도 잘 일반화할 수 있도록 훈련 중에 확인하는 역할을 합니다. 실무자는 검증 데이터로 모델을 평가함으로써 모델 아키텍처와 하이퍼파라미터에 대해 정보에 입각한 결정을 내릴 수 있어 더욱 강력하고 안정적인 AI 시스템을 구축할 수 있습니다.

유효성 검사 데이터란 무엇인가요?

유효성 검사 데이터는 모델 학습 단계에서 따로 설정된 원본 데이터 세트의 하위 집합입니다. 학습 중에 머신러닝 모델의 성능을 평가하는 데 사용됩니다. 모델이 직접 학습하는 학습 데이터와 달리, 검증 데이터는 독립적인 평가 지점을 제공합니다. 이는 모델의 일반화 능력, 즉 보이지 않는 새로운 데이터에 대해 정확하게 수행할 수 있는 능력을 모니터링하는 데 도움이 됩니다. 검증 세트는 학습된 모델에 대한 편견 없는 최종 평가를 제공하기 위해 모델 개발 프로세스의 맨 마지막에만 사용되는 테스트 데이터와는 구별됩니다.

유효성 검사 데이터의 중요성

검증 데이터의 주요 역할은 하이퍼파라미터 튜닝과 모델 선택에 있습니다. 학습 중에 머신 러닝 모델은 검증 세트에서의 성능을 기반으로 조정할 수 있습니다. 예를 들어, 훈련 세트에서는 계속 개선되는 반면 검증 세트에서 모델의 성능이 저하되기 시작하면 과적합의 신호입니다. 이러한 경우 정규화 또는 드롭아웃 레이어와 같은 조정을 적용하고 유효성 검사 데이터를 사용하여 그 효과를 평가할 수 있습니다. 또한 K-Fold 교차 검증과 같은 기술을 사용하여 제한된 데이터를 학습과 검증 모두에 최대한 활용할 수 있습니다. 정확도 또는 평균 평균 정밀도(mAP) 와 같은 검증 지표를 모니터링하면 훈련 중단 시기를 결정하는 데 도움이 되며, 종종 조기 중단을 통해 과적합을 방지하고 계산 리소스를 절약할 수 있습니다.

검증 데이터와 훈련 및 테스트 데이터 비교

머신 러닝 워크플로에서 데이터는 일반적으로 학습, 검증, 테스트의 세 가지 집합으로 나뉩니다.

  • 학습 데이터: 모델이 학습하는 데이터입니다. 손실 함수를 최소화하기 위해 모델의 weights and biases 을 조정하는 데 사용됩니다.
  • 검증 데이터: 학습 중에 모델의 성능을 평가하고 하이퍼파라미터를 조정하는 데 사용됩니다. 과적합을 방지하고 모델 선택을 안내하는 데 도움이 됩니다.
  • 테스트 데이터: 보이지 않는 데이터에 대한 모델의 성능을 편향되지 않은 최종 추정치를 제공하기 위해 모델이 완전히 학습된 후에만 사용됩니다. 실제 시나리오를 시뮬레이션하고 모델의 일반화 능력을 평가합니다.

가장 중요한 차이점은 용도에 있습니다. 학습 데이터는 학습용, 검증 데이터는 학습 중 튜닝 및 모니터링용, 테스트 데이터는 학습 후 최종 평가용입니다. 별도의 데이터 세트를 사용하면 모델의 실제 성능을 편견 없이 평가할 수 있습니다. 머신 러닝을 위한 데이터 전처리에 대해 더 깊이 이해하려면 데이터 전처리에 관한 리소스를 참조하세요.

유효성 검사 데이터의 활용

유효성 검사 데이터는 다음을 포함한 모든 머신 러닝 애플리케이션에서 필수적입니다. Ultralytics YOLO 모델. 다음은 몇 가지 예시입니다:

  1. 자율주행 차량의 물체 감지: 자율주행 차량용 물체 감지 모델( Ultralytics YOLO )을 훈련할 때, 훈련에 사용되지 않은 이미지와 동영상으로 구성된 검증 데이터는 모델이 다양하고 보이지 않는 주행 조건에서 보행자, 교통 표지판 및 기타 차량을 정확하게 감지하는지 확인하는 데 도움이 됩니다. 엔지니어는 검증 데이터의 성능을 모니터링하여 새로운 도로 시나리오에 잘 일반화되도록 모델을 조정할 수 있으며, 이는 안전에 매우 중요합니다. 예를 들어 YOLOv8 모델 학습 중에 검증 메트릭을 지속적으로 추적하여 모델 하이퍼파라미터를 최적화할 수 있습니다.

  2. 의료 이미지 분석: 질병 진단을 위한 의료 이미지 분석에서 검증 데이터는 AI 모델이 훈련 사례에 과적합하지 않고 의료 스캔에서 종양이나 병변과 같은 이상 징후를 정확하게 식별할 수 있도록 하는 데 사용됩니다. 예를 들어, MRI 이미지를 사용하여 뇌종양을 감지하는 모델을 학습시킬 때, 별도의 검증 세트의 MRI 스캔은 새로운 환자 스캔에 일반화하는 모델의 능력을 개선하여 진단 신뢰성을 향상시키는 데 도움이 됩니다. 이 프로세스는 모델 정확도가 환자 치료에 직접적인 영향을 미치는 종양 탐지와 같은 애플리케이션에서 매우 중요합니다.

머신러닝 실무자는 검증 데이터를 적절히 활용함으로써 학습 데이터에서 정확할 뿐만 아니라 실제 애플리케이션에서도 견고하고 신뢰할 수 있는 모델을 개발할 수 있습니다.

모두 보기