용어집

정규화

정규화를 통해 데이터를 확장하고, 학습 속도를 개선하고, 애플리케이션 전반에서 최적의 성능을 보장하여 AI 및 ML 모델을 향상시키는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

정규화는 머신러닝(ML)과 인공지능(AI)의 기본적인 전처리 기법으로, 입력 데이터가 일관되고 적절하게 확장되도록 하는 데 필수적입니다. 정규화는 데이터를 표준 형식이나 범위로 변환하여 학습 중 수렴률을 높이고 편향된 예측 가능성을 줄여 모델이 효과적으로 학습할 수 있도록 도와줍니다. 정규화는 모든 기능이 동등하게 기여하도록 함으로써 최적의 모델 성능을 달성하는 데 매우 중요합니다.

정규화가 중요한 이유

머신러닝에서 데이터는 다양한 소스에서 제공되며 다양한 범위, 단위 및 분포를 나타낼 수 있습니다. 예를 들어 주택 가격을 예측하는 데이터 세트에서 평방 피트와 같은 특징은 수천 개에 달할 수 있지만 침실 수는 1~10개에 불과할 수 있습니다. 정규화가 없으면 기울기 하강과 같은 알고리즘은 한 특징의 규모가 다른 특징을 지배할 수 있기 때문에 수렴에 어려움을 겪을 수 있으며, 이는 성능 저하로 이어질 수 있습니다.

정규화는 이를 보장합니다:

  • 기능이 비슷한 규모로 배치되어 하나의 기능이 모델에 불균형적으로 영향을 미치는 것을 방지합니다.
  • 그라디언트 하강과 같은 최적화 알고리즘이 더 효율적으로 수렴하도록 지원하여 훈련이 더 빠르고 안정적으로 이루어집니다.
  • 다양한 피처 스케일로 인해 발생하는 편향을 피함으로써 모델을 더 잘 일반화할 수 있습니다.

일반적인 기술

  • 최소-최대 스케일링: 데이터를 고정 범위(보통 [0,1])로 변환하여 값 사이의 상대적 거리를 유지합니다. 이 기능은 KNN(가장 가까운 이웃)과 같이 거리 메트릭에 의존하는 알고리즘에 특히 유용합니다.
  • Z점수 정규화(표준화): 평균 0과 표준 편차 1을 중심으로 데이터를 정렬합니다. 이 방법은 다양한 분포를 가진 데이터 집합에 특히 효과적입니다.
  • 소수점 배율: 데이터를 10의 거듭제곱으로 나누어 원래 구조를 유지하면서 크기를 줄입니다.

이미지 데이터와 관련된 작업의 경우 일괄 정규화와 같은 기술을 사용하여 레이어 간 활성화를 표준화하고 수렴을 개선하며 사라지는 그라데이션과 같은 문제를 방지하는 훈련 중에 일반적으로 사용됩니다.

AI 및 ML 분야의 애플리케이션

정규화는 다양한 ML 및 AI 애플리케이션에서 중요한 역할을 합니다:

  1. 딥 러닝
    신경망에서 정규화는 일관된 입력 데이터 분포를 보장하여 학습 성능을 향상시킵니다. 예를 들어, 일괄 정규화는 합성곱 신경망(CNN)에 널리 적용되어 중간 출력을 정규화함으로써 학습을 안정화합니다.

  2. 자연어 처리(NLP)
    NLP 작업에서 정규화에는 텍스트를 소문자로 변환하거나 구두점을 제거하는 등의 텍스트 전처리를 통해 입력 데이터의 균일성을 보장하는 작업이 포함될 수 있습니다. 이는 특히 트랜스포머GPT 모델과 같은 모델에 유용합니다.

  3. 컴퓨터 비전(CV)
    이미지 데이터 세트의 경우, 픽셀 값은 종종 [0,1] 또는 [-1,1] 범위로 정규화되어 이미지 분류객체 감지와 같은 작업에서 이미지 전반의 일관성을 보장합니다. 비전 작업을 위한 데이터 세트 준비에 대한 자세한 내용은 Ultralytics' 데이터 세트 가이드에서 확인하세요.

실제 사례

예 1: 의료 영상

의료 분야에서 정규화는 엑스레이나 MRI와 같은 의료 이미지에서 일관된 픽셀 강도 값을 보장합니다. 이는 다음과 같은 모델에 매우 중요합니다. Ultralytics YOLO 종양 검출과 같이 밝기나 대비의 변화가 모델을 오도할 수 있는 작업에서 매우 중요합니다.

예 2: 자율 주행 차량

자율주행차의 경우 정확한 실시간 의사결정을 위해 LiDAR, 카메라, GPS의 센서 데이터를 정규화해야 합니다. 정규화는 심도 맵이나 RGB 이미지와 같은 다양한 소스의 데이터를 정렬하여 알고리즘이 환경을 효과적으로 해석할 수 있도록 도와줍니다. AI가 자율주행차를 어떻게 혁신하고 있는지 알아보세요.

관련 개념과의 주요 차이점

정규화는 종종 다음과 같은 관련 기술과 혼동되기도 합니다:

  • 표준화: 정규화는 데이터를 특정 범위로 확장하는 반면, 표준화는 단위 분산이 0인 평균을 중심으로 데이터를 정렬하는 데 중점을 둡니다. 데이터 전처리 기법에 대해 자세히 알아보고 더 깊이 이해하세요.
  • 정규화: 정규화: 입력 데이터를 변환하는 정규화와 달리 정규화에는 모델의 과적합을 줄이기 위해 L1 또는 L2 페널티와 같은 기술이 사용됩니다. 자세한 내용은 정규화를 살펴보세요.

도구 및 리소스

  • Ultralytics HUB: AI 모델을 훈련하고 배포하는 노코드 플랫폼으로, 객체 감지 및 세분화와 같은 작업을 위해 정규화된 데이터 세트를 원활하게 통합할 수 있습니다.
  • Scikit-learn 정규화 가이드: Python 워크플로에서 정규화를 구현하기 위한 종합적인 리소스입니다.
  • 이미지넷 데이터 세트: 효과적인 학습을 위해 정규화가 필수적인 인기 데이터 세트입니다.

정규화는 성공적인 머신 러닝 워크플로우의 초석으로, 데이터를 모델 학습에 가장 적합한 형태로 만들어 줍니다. 이 기술을 채택함으로써 개발자는 다양한 AI 애플리케이션에서 모델의 효율성, 신뢰성, 확장성을 향상시킬 수 있습니다.

모두 보기