정규화는 머신러닝(ML)과 인공지능(AI)의 기본적인 전처리 기법으로, 입력 데이터가 일관되고 적절하게 확장되도록 하는 데 필수적입니다. 정규화는 데이터를 표준 형식이나 범위로 변환하여 학습 중 수렴률을 높이고 편향된 예측 가능성을 줄여 모델이 효과적으로 학습할 수 있도록 도와줍니다. 정규화는 모든 기능이 동등하게 기여하도록 함으로써 최적의 모델 성능을 달성하는 데 매우 중요합니다.
머신러닝에서 데이터는 다양한 소스에서 제공되며 다양한 범위, 단위 및 분포를 나타낼 수 있습니다. 예를 들어 주택 가격을 예측하는 데이터 세트에서 평방 피트와 같은 특징은 수천 개에 달할 수 있지만 침실 수는 1~10개에 불과할 수 있습니다. 정규화가 없으면 기울기 하강과 같은 알고리즘은 한 특징의 규모가 다른 특징을 지배할 수 있기 때문에 수렴에 어려움을 겪을 수 있으며, 이는 성능 저하로 이어질 수 있습니다.
정규화는 이를 보장합니다:
이미지 데이터와 관련된 작업의 경우 일괄 정규화와 같은 기술을 사용하여 레이어 간 활성화를 표준화하고 수렴을 개선하며 사라지는 그라데이션과 같은 문제를 방지하는 훈련 중에 일반적으로 사용됩니다.
정규화는 다양한 ML 및 AI 애플리케이션에서 중요한 역할을 합니다:
딥 러닝
신경망에서 정규화는 일관된 입력 데이터 분포를 보장하여 학습 성능을 향상시킵니다. 예를 들어, 일괄 정규화는 합성곱 신경망(CNN)에 널리 적용되어 중간 출력을 정규화함으로써 학습을 안정화합니다.
자연어 처리(NLP)
NLP 작업에서 정규화에는 텍스트를 소문자로 변환하거나 구두점을 제거하는 등의 텍스트 전처리를 통해 입력 데이터의 균일성을 보장하는 작업이 포함될 수 있습니다. 이는 특히 트랜스포머 및 GPT 모델과 같은 모델에 유용합니다.
컴퓨터 비전(CV)
이미지 데이터 세트의 경우, 픽셀 값은 종종 [0,1] 또는 [-1,1] 범위로 정규화되어 이미지 분류 및 객체 감지와 같은 작업에서 이미지 전반의 일관성을 보장합니다. 비전 작업을 위한 데이터 세트 준비에 대한 자세한 내용은 Ultralytics' 데이터 세트 가이드에서 확인하세요.
의료 분야에서 정규화는 엑스레이나 MRI와 같은 의료 이미지에서 일관된 픽셀 강도 값을 보장합니다. 이는 다음과 같은 모델에 매우 중요합니다. Ultralytics YOLO 종양 검출과 같이 밝기나 대비의 변화가 모델을 오도할 수 있는 작업에서 매우 중요합니다.
자율주행차의 경우 정확한 실시간 의사결정을 위해 LiDAR, 카메라, GPS의 센서 데이터를 정규화해야 합니다. 정규화는 심도 맵이나 RGB 이미지와 같은 다양한 소스의 데이터를 정렬하여 알고리즘이 환경을 효과적으로 해석할 수 있도록 도와줍니다. AI가 자율주행차를 어떻게 혁신하고 있는지 알아보세요.
정규화는 종종 다음과 같은 관련 기술과 혼동되기도 합니다:
정규화는 성공적인 머신 러닝 워크플로우의 초석으로, 데이터를 모델 학습에 가장 적합한 형태로 만들어 줍니다. 이 기술을 채택함으로써 개발자는 다양한 AI 애플리케이션에서 모델의 효율성, 신뢰성, 확장성을 향상시킬 수 있습니다.