용어집

폭발하는 그라데이션

딥러닝에서 폭발하는 기울기를 관리하여 물체 감지, 자세 추정 등과 같은 작업을 안정적으로 학습하는 방법을 알아보세요.

폭발적인 기울기는 심층 신경망을 훈련하는 동안 발생할 수 있는 흔하고 문제가 되는 문제입니다. 이는 네트워크 가중치에 대한 손실 함수의 기울기가 기하급수적으로 커지는 상황을 설명합니다. 이러한 급격한 성장은 모델 가중치를 업데이트하는 데 사용되는 알고리즘인 역전파 중에 발생합니다. 기울기가 폭발적으로 증가하면 신경망의 가중치가 매우 크게 업데이트되어 모델이 학습 데이터로부터 효과적으로 학습하지 못하는 불안정한 학습 프로세스로 이어집니다. 이러한 불안정성으로 인해 모델의 성능이 급격하게 변동하거나 손실이 NaN(Not a Number)이 되어 학습 프로세스가 효과적으로 중단될 수 있습니다.

그라데이션이 폭발하는 원인은 무엇인가요?

그라데이션이 폭발적으로 증가하는 주요 원인은 역전파 과정에서 많은 숫자를 곱하는 누적 효과로, 특히 딥 또는 반복적인 네트워크 아키텍처에서 흔히 발생합니다. 주요 요인은 다음과 같습니다:

잘못된 가중치 초기화: 초기 모델 가중치가 너무 크면 네트워크 레이어를 통해 역전파될 때 그라데이션이 증폭될 수 있습니다. 이를 방지하려면 적절한 초기화 방식이 중요합니다.
높은 학습률: 학습 속도가 너무 높게 설정되면 최적화 알고리즘이 가중치를 지나치게 크게 업데이트하여 최적값을 초과하여 편차가 발생할 수 있습니다.
네트워크 아키텍처: 순환 신경망(RNN)은 긴 시퀀스에 걸쳐 동일한 가중치를 반복적으로 적용하기 때문에 작은 오차를 매우 큰 기울기로 만들 수 있기 때문에 특히 취약합니다.

그라데이션 폭발을 방지하는 기술

최신 딥러닝(DL) 에서는 폭발적인 그라데이션에 대응하고 안정적인 학습을 보장하기 위해 몇 가지 효과적인 전략이 사용됩니다.

그라데이션 클리핑: 가장 일반적이고 효과적인 기법입니다. 그라데이션 값에 대해 미리 정의된 임계값을 설정하는 것이 포함됩니다. 역전파 중에 그라데이션이 이 임계값을 초과하면 "클리핑"되거나 허용된 최대 값으로 축소됩니다. 이렇게 하면 가중치 업데이트가 너무 커지는 것을 방지할 수 있습니다.
무게 정규화: L1 및 L2 정규화와 같은 기술은 가중치의 크기에 따라 손실 함수에 페널티를 추가합니다. 이렇게 하면 모델이 지나치게 큰 가중치를 학습하는 것을 방지하여 기울기를 제어하는 데 도움이 됩니다.
일괄 정규화: 일괄 정규화는 각 레이어에 대한 입력을 정규화함으로써 활성화 값의 분포를 안정화하여 기울기가 통제 불능 상태가 되는 위험을 완화할 수 있습니다. 이는 많은 최신 CNN 아키텍처의 표준 구성 요소입니다.
학습률 낮추기: 간단하면서도 효과적인 방법은 학습 속도를 낮추는 것입니다. 이 작업은 수동으로 수행하거나 학습 속도 스케줄러를 사용하여 학습 중에 학습 속도를 점진적으로 낮출 수 있습니다. 하이퍼파라미터를 신중하게 조정하는 것이 핵심입니다.