머신 러닝 모델이 너무 단순하여 데이터의 기본 구조를 포착하지 못할 때 과소적합이 발생합니다. 이는 일반적으로 학습하려는 데이터의 복잡성에 비해 모델의 매개변수나 특징이 너무 적을 때 발생합니다. 결과적으로 모델은 학습 데이터에서 적절하게 학습하지 못하고 학습 세트뿐만 아니라 유효성 검사 또는 테스트 세트와 같이 보이지 않는 데이터에서도 제대로 작동하지 않습니다.
적합하지 않은 모델은 종종 높은 편향과 낮은 분산이 특징입니다. 편향이란 복잡할 수 있는 실제 문제를 단순화된 모델로 근사화할 때 발생하는 오류를 말합니다. 적합하지 않은 모델은 데이터에 대해 지나치게 단순한 가정을 하기 때문에 체계적인 오류로 이어집니다. 반면에 분산은 훈련 데이터의 변동에 대한 모델의 민감도를 나타냅니다. 적합도 미달 모델은 너무 단순하여 학습 데이터의 변화에 큰 영향을 받지 않기 때문에 분산이 낮게 나타납니다. 그러나 이러한 단순성은 데이터의 중요한 패턴과 뉘앙스를 포착할 수 없다는 것을 의미하기도 합니다.
여러 가지 요인으로 인해 피팅이 제대로 이루어지지 않을 수 있습니다:
모델 성능을 개선하기 위해서는 피팅 부족을 파악하는 것이 필수적입니다. 과소 적합의 징후는 다음과 같습니다:
미흡한 피팅을 방지하려면 다음 전략을 고려하세요:
과소적합과 과적합을 구분하는 것이 중요합니다. 과소적합은 모델이 너무 단순할 때 발생하는 반면, 과적합은 모델이 너무 복잡하여 노이즈와 이상값을 포함한 학습 데이터를 암기하기 시작할 때 발생합니다. 과적합 모델은 학습 데이터에서는 뛰어난 성능을 보이지만 보이지 않는 데이터에서는 성능이 떨어집니다. 모델 복잡도와 학습의 균형을 맞추는 것은 과소적합과 과적합을 모두 방지하는 데 매우 중요합니다.
주택의 크기를 기준으로 주택 가격을 예측하는 모델을 구축한다고 가정해 보겠습니다. 단순 선형 회귀 모델을 사용하고 주택 가격이 크기에 따라 선형적으로 증가한다고 가정하면 데이터에 적합하지 않을 수 있습니다. 실제로 주택 크기와 가격 간의 관계는 크기가 클수록 수익률이 감소하거나 특정 크기 범위에 프리미엄이 붙는 등의 요인을 포함하여 더 복잡할 수 있습니다. 선형 모델은 이러한 뉘앙스를 포착하지 못하여 학습 데이터와 새로운 데이터 모두에서 예측 성능이 저하될 수 있습니다.
동물 이미지를 여러 카테고리로 분류하려는 이미지 분류 작업을 생각해 보겠습니다. 로지스틱 회귀와 같은 매우 단순한 모델을 사용하면 데이터에 적합하지 않을 수 있습니다. 이미지 분류에는 종종 이미지의 복잡한 패턴과 특징을 포착해야 하는데, 이는 단순한 모델로는 불가능합니다. 그 결과, 모델은 훈련 세트와 보이지 않는 새로운 이미지 모두에서 성능이 저하될 수 있습니다. 컨볼루션 신경망(CNN)과 같은 보다 복잡한 모델을 사용하면 성능이 크게 향상될 수 있습니다.
실무자는 적합도 부족의 원인과 징후를 이해함으로써 모델을 개선하기 위한 적절한 조치를 취할 수 있습니다. Ultralytics YOLOv8 같은 도구는 복잡한 모델을 구축하고 조정할 수 있는 고급 기능을 제공하여 다양한 컴퓨터 비전 작업에서 적합도 부족을 방지하고 성능을 개선하는 데 도움을 줍니다. 모델 훈련 및 최적화에 대한 자세한 내용은 Ultralytics 블로그를 참조하세요.