소실 그라데이션
딥러닝의 소실 그라디언트 문제와 신경망에 미치는 영향, ReLU, ResNets 등과 같은 효과적인 솔루션에 대해 알아보세요.
소실 그라데이션 문제는 심층 신경망을 훈련할 때 흔히 발생하는 문제입니다. 이는 역전파를 통해 네트워크의 가중치를 업데이트하는 데 사용되는 신호인 그라데이션이 출력 레이어에서 초기 레이어로 다시 전파되면서 극도로 작아질 때 발생합니다. 이러한 기울기가 0에 가까워지면 초기 레이어의 가중치가 효과적으로 업데이트되지 않거나 전혀 업데이트되지 않습니다. 이렇게 되면 해당 레이어의 학습 프로세스가 중단되어 딥러닝 모델이 최적의 솔루션으로 수렴하고 데이터로부터 학습하지 못하게 됩니다.
사라지는 그라데이션의 원인은 무엇인가요?
사라지는 그라데이션의 주요 원인은 특정 활성화 함수의 특성과 네트워크 자체의 깊이에 있습니다.
- 활성화 함수: 시그모이드 및 쌍곡탄젠트(탄) 함수와 같은 기존의 활성화 함수는 입력값을 매우 작은 출력 범위로 압축합니다. 이러한 함수의 미분은 작습니다. 역전파 과정에서 이러한 작은 도함수는 여러 레이어에 걸쳐 함께 곱해집니다. 네트워크의 레이어가 많을수록 이러한 작은 숫자가 더 많이 곱해져 최종 기울기가 0을 향해 기하급수적으로 줄어들게 됩니다.
- 딥 아키텍처: 이 문제는 그라데이션이 여러 시간 단계를 통해 다시 전파되는 초기 순환 신경망(RNN)을 포함한 매우 심층적인 네트워크에서 특히 두드러집니다. 각 단계에는 곱셈이 포함되므로 긴 시퀀스에 걸쳐 그라데이션 신호가 감소할 수 있습니다.
사라지는 그래디언트 대 폭발하는 그래디언트
사라지는 그라데이션은 폭발하는 그라데이션과 반대되는 개념입니다. 두 문제 모두 훈련 중 그라데이션의 흐름과 관련이 있지만 효과는 다릅니다:
- 사라지는 그라데이션: 그라데이션은 네트워크의 초기 레이어에서 의미 있는 학습을 촉진하기에는 너무 작아질 때까지 기하급수적으로 축소됩니다.
- 폭발하는 그라디언트: 그라데이션이 제어할 수 없을 정도로 커져 모델이 불안정해지고 수렴에 실패하는 대규모 가중치 업데이트로 이어집니다.
심층적이고 강력한 AI 모델을 성공적으로 학습시키려면 두 가지 문제를 모두 해결하는 것이 중요합니다.
솔루션 및 완화 전략
사라지는 그라데이션 문제를 해결하기 위해 몇 가지 기술이 개발되었습니다:
- 더 나은 활성화 함수: 시그모이드와 탄을 정류 선형 단위(ReLU) 또는 그 변형(Leaky ReLU, GELU)과 같은 함수로 대체하는 것이 일반적인 해결책입니다. ReLU의 미분은 양수 입력의 경우 1이므로 그라데이션이 축소되는 것을 방지합니다.
- 고급 아키텍처: 이 문제를 완화하기 위해 특별히 설계된 아키텍처가 있습니다. 잔여 네트워크(ResNet) 는 그라데이션이 레이어를 우회하여 역전파 중에 더 짧은 경로를 제공할 수 있는 '연결 건너뛰기'를 도입합니다. 순차적 데이터의 경우, LSTM(장단기 메모리) 및 GRU(게이트형 순환 유닛) 네트워크는 게이팅 메커니즘을 사용하여 정보 및 그라데이션의 흐름을 제어하며, 이는 원래의 LSTM 논문 과 GRU 논문에서 자세히 설명되어 있습니다.
- 가중치 초기화: He 또는 Xavier 초기화와 같은 방법을 사용하여 네트워크 가중치를 적절히 초기화하면 그래디언트가 합리적인 범위 내에서 시작되도록 할 수 있습니다. 이에 대한 자세한 내용은 딥 러닝 모범 사례에 대한 토론에서 확인할 수 있습니다.
- 배치 정규화: 일괄 정규화를 적용하면 각 레이어의 입력을 정규화하여 네트워크를 안정화하고 초기화에 대한 의존도를 줄여 소실 그라데이션 문제를 완화하는 데 도움이 됩니다.
실제 영향 및 사례
사라지는 그라디언트를 극복하는 것은 최신 AI의 중요한 돌파구였습니다.
- 자연어 처리(NLP): 초기 RNN은 긴 문장의 시작 부분의 정보를 기억하지 못해 기계 번역이나 긴 형식의 감정 분석과 같은 작업에서 실패했습니다. LSTM과 GRU의 발명으로 모델은 이러한 장거리 종속성을 포착할 수 있게 되었습니다. 트랜스포머와 같은 최신 아키텍처는 자기 주의를 사용하여 순차적 기울기 문제를 완전히 우회하여 최첨단 성능을 구현합니다.
- 컴퓨터 비전: 한때 컨볼루션 신경망(CNN)을 더 깊게 만드는 것만으로는 사라지는 기울기와 같은 훈련의 어려움으로 인해 성능이 향상되지 않을 것이라고 생각했습니다. 하지만 ResNet 아키텍처의 도입으로 이러한 생각이 틀렸다는 것이 증명되었고, 수백 개의 레이어를 가진 네트워크가 가능해졌습니다. 이로 인해 이미지 분류, 이미지 세분화, 객체 감지가 크게 발전하여 Ultralytics YOLO와 같은 모델의 토대가 마련되었습니다. 이러한 모델을 훈련하려면 대규모 컴퓨터 비전 데이터 세트가 필요한 경우가 많으며, Ultralytics HUB와 같은 플랫폼에서 관리할 수 있습니다.