용어집

소실 그라데이션

딥러닝의 소실 그라디언트 문제와 신경망에 미치는 영향, ReLU, ResNets 등과 같은 효과적인 솔루션에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

소실 그라데이션은 심층 신경망 (NN), 특히 순환 신경망(RNN) 및 심층 피드포워드 네트워크와 같이 레이어가 많은 신경망을 훈련할 때 흔히 발생하는 문제입니다. 이는 역전파 과정에서 발생하며, 네트워크의 가중치에 대한 손실 함수의 기울기가 출력 레이어에서 이전 레이어로 역전파되면서 극도로 작아집니다. 이러한 기울기가 매우 작아지면 초기 레이어의 모델 가중치에 대한 업데이트가 무시할 수 있을 정도로 작아져 해당 레이어의 학습이 효과적으로 중단됩니다. 이는 네트워크가 복잡한 패턴을 학습하고 데이터의 장거리 종속성을 포착하는 능력을 저해하며, 이는 많은 딥 러닝(DL) 작업에 매우 중요한 요소입니다.

소실 그라데이션이 문제가 되는 이유

소실 그라데이션의 핵심 문제는 학습 프로세스를 지연시킨다는 점입니다. 머신 러닝(ML) 모델은 그라데이션 하강과 같은 최적화 알고리즘이나 아담과 같은 변형을 사용하여 계산된 오류 신호(그라데이션)를 기반으로 내부 파라미터를 조정하여 학습합니다. 기울기가 0에 가까우면 매개변수 업데이트가 최소화되거나 존재하지 않습니다. 딥 네트워크에서는 경사도 신호가 레이어를 통과하면서 반복적으로 작은 숫자를 곱하기 때문에 이 문제가 더욱 복잡해집니다. 결과적으로 입력에 가장 가까운 레이어는 출력에 가까운 레이어보다 훨씬 느리게 학습하거나 전혀 학습하지 못할 수도 있습니다. 이는 네트워크가 최적의 솔루션으로 수렴하는 것을 방해하고 전반적인 성능과 정확도를 제한합니다. 효과적인 모델 학습을 위해서는 이러한 현상을 이해하는 것이 중요합니다.

폭발하는 그라데이션의 원인과 비교

사라지는 그라데이션은 종종 다음과 같은 이유로 발생합니다:

  1. 활성화 함수 선택: 시그모이드 또는 쌍곡탄젠트(탄)와 같은 특정 활성화 함수는 특히 포화 영역에서 1보다 작은 도함수를 갖습니다. 역전파 중에 이러한 작은 도함수를 여러 레이어에 걸쳐 곱하면 그라데이션이 기하급수적으로 줄어듭니다.
  2. 딥 아키텍처: 최신 네트워크의 깊이가 깊어질수록 그라데이션이 곱해지는 횟수가 증가하여 소실 그라데이션이 발생할 가능성이 높아집니다.
  3. 가중치 초기화: 잘못된 가중치 초기화도 문제의 원인이 될 수 있습니다.

사라지는 그라디언트를 다음과 같은 관련 문제와 구별하는 것이 중요합니다. 폭발하는 그라데이션. 폭발하는 그라데이션은 그라데이션이 지나치게 커질 때 발생하며, 불안정한 훈련과 큰 폭의 가중치 업데이트로 이어집니다. 이는 일반적으로 그라데이션에 1보다 큰 숫자를 반복적으로 곱할 때 발생합니다. 소실 그라데이션은 학습을 방해하는 반면, 폭발하는 그라데이션은 학습을 분산시킵니다. 그라데이션 클리핑과 같은 기술은 종종 폭발하는 그라데이션에 대응하기 위해 사용됩니다.

완화 기술

사라지는 그라데이션 문제를 해결하기 위해 몇 가지 전략이 개발되었습니다:

  • ReLU 및 변형: ReLU(정류 선형 단위) 및 그 변형(누수 ReLU, GELU, SiLU)과 같은 활성화 함수를 사용하면 양의 입력에 대해 미분이 1이 되어 해당 영역에서 기울기가 줄어드는 것을 방지하므로 도움이 됩니다.
  • 특수 아키텍처: 잔여 네트워크(ResNet) 와 같은 아키텍처는 그라데이션이 레이어를 우회할 수 있는 '스킵 연결'을 도입하여 역전파 중에 더 짧은 경로를 제공합니다. 순차적 데이터의 경우, LSTM(Long Short-Term Memory)GRU(Gated Recurrent Unit)는 게이팅 메커니즘을 사용해 정보 흐름을 제어하고 긴 시퀀스 동안 그라데이션을 유지합니다.
  • 웨이트 초기화: He 초기화 또는 자비에/글로트 초기화와 같은 적절한 초기화 방식은 레이어 간 그라데이션 차이를 유지하는 데 도움이 됩니다.
  • 배치 정규화: 일괄 정규화: 레이어 입력을 정규화하여 학습을 안정화하면 사라지는(또는 폭발하는) 그라디언트를 간접적으로 완화할 수 있습니다.
  • 그라디언트 클리핑: 주로 그라데이션을 폭발시키는 데 사용되지만, 최대 임계값을 설정하면 큰 진동 후 그라데이션이 너무 작아지는 것을 방지하는 데 도움이 될 수 있습니다.

실제 영향 및 사례

사라지는 그라데이션을 해결하는 것은 AI의 발전에 있어 핵심적인 문제였습니다:

  1. 자연어 처리(NLP): 초기 RNN은 기계 번역이나 감정 분석과 같은 작업에서 그라데이션이 사라져 긴 문장을 처리하는 데 어려움을 겪었습니다. LSTM과 GRU의 개발로 모델이 장거리 종속성을 학습할 수 있게 되면서 성능이 크게 향상되었습니다. 트랜스포머와 같은 최신 아키텍처는 자기 주의와 같은 메커니즘을 사용하여 이 문제를 더욱 해결합니다.
  2. 컴퓨터 비전: 매우 심층적인 컨볼루션 신경망(CNN)을 훈련하는 것은 ResNet과 같은 아키텍처가 도입되기 전까지는 어려운 일이었습니다. ResNet은 수백, 수천 개의 레이어를 가진 네트워크를 가능하게 하여 이미지 분류, 물체 감지 (다음과 같은 모델에서 사용됨)에서 획기적인 발전을 이끌어 냈습니다. Ultralytics YOLO)과 이미지 세분화에 획기적인 발전을 가져왔습니다. 이러한 모델을 훈련하는 데 사용되는 다양한 컴퓨터 비전 데이터 세트를 살펴볼 수 있습니다.

소실 그라데이션을 이해하고 완화하는 것은 효과적인 딥 러닝 모델을 설계하고 훈련하는 데 있어 핵심적인 요소로, 오늘날 우리가 흔히 볼 수 있는 강력한 AI 애플리케이션을 가능하게 하며, 이러한 애플리케이션은 대부분 Ultralytics HUB와 같은 플랫폼을 사용하여 관리 및 배포됩니다.

모두 보기