교차 검증은 머신 러닝 및 인공 지능에서 학습 중에 사용되지 않은 데이터의 하위 집합에 대해 모델을 테스트하여 모델의 성능을 평가하는 데 사용되는 통계 기법입니다. 이를 통해 모델이 보이지 않는 새로운 데이터에도 잘 일반화되도록 하고 과적합을 방지할 수 있습니다. 교차 검증은 데이터 집합을 여러 부분 또는 '폴드'로 나누어 데이터의 여러 부분에 대해 모델을 체계적으로 테스트하여 그 효과에 대한 강력한 측정치를 제공합니다.
교차 검증의 핵심 아이디어는 데이터 집합을 훈련 및 테스트 하위 집합으로 여러 번 분할하는 것입니다. 모델을 한 하위 집합에서 학습하고 다른 하위 집합에서 테스트하여 데이터 집합을 순환하면서 모든 데이터 포인트가 학습과 유효성 검사에 적어도 한 번 이상 사용되도록 합니다. 가장 일반적으로 사용되는 기법은 다음과 같습니다. K-폴드 교차 검증데이터 집합은 다음과 같이 나뉩니다. K
동일한 크기로 접을 수 있습니다:
K-1
을 접고 나머지 접힌 부분을 테스트합니다.K
번, 매번 다른 접기를 테스트 세트로 사용합니다.다른 변형으로는 각 데이터 포인트를 테스트 집합으로 한 번만 사용하는 LOOCV(Leave-One-Out 교차 검증)와 폴드 간 클래스 분포를 유지하여 불균형 데이터 집합에 이상적인 계층화된 K-Fold 교차 검증이 있습니다.
교차 검증은 모델 평가에서 몇 가지 이점을 제공합니다:
머신 러닝의 과적합 및 일반화 방지에 대한 자세한 내용은 과적합 용어집 페이지에서 확인하세요.
교차 검증은 모델의 견고성과 신뢰성을 보장하기 위해 다양한 AI 및 ML 애플리케이션에서 널리 사용됩니다:
교차 검증은 그리드 검색 또는 무작위 검색과 같은 기술을 통해 하이퍼파라미터를 최적화하는 데 중요한 역할을 합니다. 실무자는 여러 파라미터 조합을 여러 번 평가함으로써 최적의 구성을 파악할 수 있습니다. 모델 성능 향상을 위한 하이퍼파라미터 튜닝에 대해 자세히 알아보세요.
서포트 벡터 머신(SVM) 또는 랜덤 포레스트와 같은 서로 다른 알고리즘 중에서 선택할 때 교차 검증은 동일한 조건에서 각 모델을 평가하여 공정한 비교를 제공합니다. 랜덤 포리스트 및 서포트 벡터 머신(SVM)에 대해 자세히 알아보세요.
교차 유효성 검사는 데이터 세트의 동적 분할을 포함하지만, 유효성 검사 데이터는 학습 중 성능 평가를 위해 예약된 고정된 하위 집합을 의미합니다. 유효성 검사 데이터 용어집 페이지에서 자세히 알아보세요.
테스트 데이터는 모델 학습 및 검증 후 최종 평가에 사용되는 반면, 교차 검증은 중간 평가를 위해 학습 데이터를 여러 하위 집합으로 나눕니다. 자세한 내용은 테스트 데이터 용어집 페이지를 참조하세요.
교차 검증은 과적합을 식별하고 완화하기 위한 핵심 전략입니다. 드롭아웃 레이어나 정규화와 같은 기법도 도움이 되지만 교차 검증은 모델 성능에 대한 경험적 증거를 제공합니다. 정규화 용어집 페이지에서 자세히 알아보세요.
교차 검증은 머신 러닝에서 없어서는 안 될 도구로, 모델의 정확성과 일반화 가능성을 보장합니다. 보이지 않는 데이터에 대해 엄격하게 테스트하고 결과를 평균화함으로써 모델 선택과 조정을 안내하는 신뢰할 수 있는 성능 메트릭을 제공합니다. 객체 감지에서 교차 검증을 실제로 구현하려면 Ultralytics 허브에서 Ultralytics YOLO 을 사용하여 객체 감지를 위한 K-Fold 교차 검증을 살펴보세요.
AI 프로젝트 또는 모델 트레이닝을 시작하려면 Ultralytics HUB를 방문하여 직관적인 도구와 리소스를 확인하세요.