용어집

정규화

머신 러닝에서 정규화의 힘을 알아보세요! 모델 학습을 개선하고 성능을 향상시키며 강력한 AI 솔루션을 보장하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

정규화는 머신 러닝(ML) 과 데이터 과학에서 광범위하게 사용되는 기본적인 데이터 전처리 기법입니다. 정규화의 주요 목표는 값 범위의 차이를 왜곡하지 않고 숫자 데이터 특징을 0과 1 또는 -1과 1 사이의 공통된 표준 범위로 재조정하는 것입니다. 이 프로세스를 통해 모든 특징이 모델 학습에 보다 동등하게 기여하도록 하여 데이터 세트의 연봉과 같이 본질적으로 값이 큰 특징이 작은 값(예: 경력 연수)을 가진 특징에 비해 결과에 불균형적으로 영향을 미치는 것을 방지할 수 있습니다. 정규화는 딥러닝(DL) 및 다양한 최적화 알고리즘에 사용되는 경사 하강 기반 방법과 같이 피처 확장에 민감한 알고리즘에 특히 중요합니다.

정규화가 중요한 이유

실제 데이터 세트에는 규모와 단위가 매우 다양한 기능이 포함되어 있는 경우가 많습니다. 예를 들어, 고객 이탈을 예측하기 위한 데이터 세트에서 '계정 잔액'은 수백에서 수백만까지 다양하지만 '제품 수'는 1개에서 10개까지 다양할 수 있습니다. 정규화가 없으면 SVM(서포트 벡터 머신) 이나 NN(신경망)처럼 거리를 계산하거나 기울기를 사용하는 ML 알고리즘은 단순히 규모 때문에 범위가 더 큰 특징을 더 중요한 것으로 잘못 인식할 수 있습니다. 정규화는 각 피처의 기여도가 크기가 아닌 예측력에 따라 결정되도록 하여 경쟁의 장을 평평하게 만듭니다. 이를 통해 학습 중에 더 빠른 수렴( 에포크 감소에서 볼 수 있듯이), 향상된 모델 정확도, 더 안정적이고 강력한 모델을 얻을 수 있습니다. 이러한 안정성은 다음과 같은 모델을 훈련할 때 유용합니다. Ultralytics YOLO 와 같은 모델을 객체 감지 또는 인스턴스 세분화와 같은 작업에 훈련할 때 유용하며, 잠재적으로 평균 정밀도(mAP)와 같은 메트릭을 개선할 수 있습니다.

일반적인 정규화 기법

데이터 규모를 조정하는 방법에는 여러 가지가 있으며, 각각 상황에 따라 적합합니다:

  • 최소-최대 스케일링: 피처를 고정 범위(일반적으로 [0, 1])로 재조정합니다. 다음과 같이 계산됩니다: (값 - 최소) / (최대 - 최소)로 계산됩니다. 이 방법은 원래 분포의 모양을 유지하지만 이상값에 민감합니다.
  • Z-점수 표준화(표준 스케일링): 평균이 0이고 표준 편차가 1이 되도록 피처의 배율을 재조정합니다. 다음과 같이 계산됩니다: (값 - 평균) / 표준 편차로 계산됩니다. 최소-최대 스케일링과 달리 값을 특정 범위에 바인딩하지 않으므로 제한된 간격 내에 입력이 필요한 알고리즘에는 단점이 될 수 있지만 이상값을 더 잘 처리할 수 있습니다. 이러한 방법과 다른 방법에 대한 자세한 내용은 Scikit-learn 전처리 문서에서 확인할 수 있습니다.
  • 강력한 스케일링: 최소/최대 또는 평균/표준 편차 대신 사 분위 간 범위(IQR)와 같이 이상값에 대해 강력한 통계를 사용합니다. 데이터 집합에 중요한 이상값이 포함되어 있을 때 특히 유용합니다. 강건한 스케일링에 대해 자세히 알아보세요.

이러한 기술 중 선택은 종종 특정 데이터 세트(예: Ultralytics 데이터 세트)와 사용 중인 ML 알고리즘의 요구 사항에 따라 달라집니다. 주석이 달린 데이터 전처리에 대한 가이드에서는 특정 작업과 관련된 정규화 단계를 다루는 경우가 많습니다.

정규화 대 표준화 대 일괄 정규화

정규화를 관련 개념과 구별하는 것이 중요합니다:

  • 표준화: 종종 Z점수 표준화와 같은 의미로 사용되는 이 기술은 평균과 단위 분산이 0이 되도록 데이터를 변환합니다. 정규화는 일반적으로 데이터를 고정된 범위(예: 0~1)로 스케일링하는 반면, 표준화는 데이터를 특정 범위로 제한하지 않고 평균을 중심으로 표준 편차를 기준으로 스케일링합니다.
  • 일괄 정규화: 이는 훈련 중 신경망 내에서, 특히 레이어 또는 활성화의 입력에 적용되는 기술입니다. 각 미니 배치에 대해 이전 활성화 레이어의 출력을 정규화하여 내부 공변량 이동 문제를 줄임으로써 훈련 프로세스를 안정화하고 가속화합니다. 초기 데이터 세트에 적용되는 전처리 단계인 특징 정규화(Min-Max 또는 Z-score)와 달리 배치 정규화는 네트워크 아키텍처 자체의 일부로 모델 훈련 중에 동적으로 적응합니다.

정규화 적용

정규화는 다양한 인공지능(AI) 및 머신러닝 작업을 위해 데이터를 준비하는 데 있어 필수적인 단계입니다:

  • 컴퓨터 비전(CV): 이미지의 픽셀 값(일반적으로 0~255 범위)은 종종 [0, 1] 또는 [-1, 1]로 정규화되어 컨볼루션 신경망(CNN)에 입력됩니다. 이렇게 하면 이미지 전반에서 일관성을 보장하고 네트워크가 이미지 분류, YOLO11 같은 모델을 사용한 물체 감지, 이미지 분할과 같은 작업을 위해 보다 효과적으로 기능을 학습할 수 있습니다. 많은 표준 CV 데이터 세트가 이 전처리 단계의 이점을 누리고 있습니다.
  • 의료 이미지 분석: YOLO 모델을 사용한 종양 검출과 같은 애플리케이션에서는 MRI 또는 CT 스캔의 강도 값을 정규화하는 것이 중요합니다. 스캔 장비나 설정에 따라 다양한 강도 척도의 이미지가 생성될 수 있습니다. 정규화를 통해 다양한 스캔과 환자에서 분석의 일관성과 비교 가능성을 보장하여 보다 신뢰할 수 있는 진단 모델을 구축할 수 있습니다. 이는 의료 분야의 AI와 같은 영역에서 매우 중요합니다.
  • 예측 모델링: 다양한 특징(예: 크기, 방 수, 위치 좌표를 기반으로 주택 가격 예측)을 기반으로 결과를 예측하는 모델을 구축할 때 정규화를 사용하면 평방 피트와 같이 수치 범위가 큰 특징이 거리 기반 계산(예: k-근접 이웃)이나 학습 중 기울기 업데이트를 지배하지 않도록 할 수 있습니다. 이는 금융소매업 분석에서 흔히 볼 수 있습니다.
  • 자연어 처리(NLP): 원시 텍스트에는 덜 일반적이지만, 특히 더 큰 모델에서 다른 유형의 특징과 결합할 때 단어 빈도나 TF 점수와 같은 파생된 숫자 특징에 정규화를 적용할 수 있습니다.

요약하자면, 정규화는 데이터 피처를 일관된 범위로 확장하는 중요한 전처리 단계로, Ultralytics 허브와 같은 도구를 사용해 개발 및 훈련된 모델을 포함해 많은 머신 러닝 모델의 훈련 과정, 안정성 및 성능을 개선합니다. 공정한 피처 기여를 보장하고 입력 규모에 민감한 알고리즘에 필수적이며, 보다 강력하고 정확한 AI 솔루션에 기여합니다.

모두 보기