소실 그라데이션은 심층 인공 지능(AI) 모델, 특히 심층 신경망(NN)을 학습할 때 흔히 발생하는 문제입니다. 이는 모델이 계산된 오류를 기반으로 내부 파라미터(가중치)를 조정하여 학습하는 역전파 과정에서 발생합니다. 오차를 최소화하는 데 필요한 가중치 조정의 방향과 크기를 나타내는 그라데이션은 각 레이어에 대해 계산됩니다. 매우 심층적인 네트워크에서는 이러한 기울기가 출력 레이어에서 초기 레이어로 역전파되면서 극도로 작아질 수 있습니다. 기울기가 매우 작아지면 이전 레이어의 가중치가 매우 느리게 업데이트되거나 전혀 업데이트되지 않아 해당 레이어의 학습 프로세스가 효과적으로 중단됩니다.
딥 러닝의 중요성
소실 그라디언트 문제는 컴퓨터 비전(CV) 및 자연어 처리(NLP)와 같은 분야에서 복잡한 작업을 처리하는 데 필수적인 심층 네트워크의 학습을 크게 방해합니다. 심층 네트워크는 이론적으로 더 복잡한 패턴과 특징의 계층 구조를 학습할 수 있는 능력을 갖추고 있습니다. 하지만 초기 레이어가 사라지는 기울기로 인해 효과적으로 학습하지 못하면 네트워크는 기본적인 저수준 특징을 포착하지 못해 전반적인 성능이 제한됩니다. 이는 딥러닝(DL) 초기의 주요 장애물이었으며, 특히 긴 시퀀스를 처리할 때 간단한 순환 신경망(RNN) 과 같은 특정 아키텍처에 영향을 미칩니다.
원인 및 결과
그라데이션이 사라지는 데는 여러 가지 요인이 있습니다:
- 활성화 함수: 시그모이드 또는 탄과 같은 특정 활성화 함수는 대부분의 범위에서 1 미만의 도함수를 갖습니다. 역전파 과정에서 이러한 작은 도함수는 여러 레이어에 걸쳐 곱해져 그라데이션이 기하급수적으로 줄어듭니다.
- 딥 아키텍처: 딥 네트워크의 레이어 수가 많으면 작은 숫자를 반복적으로 곱하는 효과가 악화됩니다.
- 가중치 초기화: 모델 가중치의 잘못된 초기화도 문제의 원인이 될 수 있습니다.
주된 결과는 네트워크의 초기 계층이 매우 느리게 학습하거나 아예 학습을 중단한다는 것입니다. 이로 인해 모델이 복잡한 데이터 표현을 학습하고 좋은 성능을 달성하지 못하여 학습 중에 수렴이 제대로 이루어지지 않고 잠재적으로 과소 적합이 발생할 수 있습니다.
완화 전략
연구원들은 배니싱 그라데이션 문제를 해결하기 위해 몇 가지 기술을 개발했습니다:
- ReLU 및 변형: ReLU(정류 선형 단위) 및 그 변형(누수 ReLU, GeLU)과 같은 활성화 함수를 사용하면 양의 입력에 대해 미분이 1이 되어 해당 영역에서 그라데이션이 축소되는 것을 방지할 수 있으므로 도움이 됩니다.
- 잔여 네트워크(ResNet): ResNet과 같은 아키텍처는 역전파 중에 그라데이션이 일부 레이어를 우회하여 그라데이션 신호에 더 짧은 경로를 제공하는 "연결 건너뛰기"를 도입합니다. 이 개념은 많은 최신 CNN의 기본 개념입니다.
- 게이트 메커니즘(LSTM/GRU): 순차적 데이터의 경우, LSTM(Long Short-Term Memory) 및 GRU(Gated Recurrent Unit) 와 같은 아키텍처는 게이팅 메커니즘을 사용하여 정보 흐름과 기울기를 제어하므로 단순한 RNN보다 장거리 종속성을 더 잘 포착할 수 있습니다.
- 배치 정규화: 일괄 정규화: 일괄 정규화를 적용하면 레이어 입력을 정규화하여 학습을 안정화하고 가속화하여 사라지는(또는 폭발하는) 그라디언트를 간접적으로 완화할 수 있습니다.
- 그라디언트 클리핑: 주로 그라디언트 폭발에 사용되지만, 클리핑을 신중하게 적용하면 그라디언트 크기를 관리하는 데 도움이 될 수 있습니다.
- 신중한 초기화: 정교한 가중치 초기화 방식(자비에/글로트, He)을 사용하면 훈련 초기에 그라데이션이 사라지거나 폭발할 가능성을 줄이는 범위에서 초기 가중치를 설정할 수 있습니다.
사라지는 그라데이션과 폭발하는 그라데이션
사라지는 그라데이션은 그라데이션이 극도로 작아져 학습에 방해가 되는 문제입니다. 반대되는 문제는 폭발하는 그라데이션 문제로, 그라데이션이 지나치게 커져 학습이 불안정해지고 가중치 업데이트가 크게 변동하는 문제입니다. 두 가지 문제 모두 그라데이션 기반 최적화를 사용하여 딥 네트워크를 훈련할 때 발생하는 문제와 관련이 있습니다. 그래디언트 클리핑과 같은 기술은 폭발하는 그래디언트에 대응하기 위해 특별히 사용됩니다.
실제 애플리케이션
소실 그라데이션을 해결하는 것은 많은 AI 애플리케이션의 성공을 위해 매우 중요합니다:
- 기계 번역: 트랜스포머 또는 LSTM을 기반으로 하는 심층 시퀀스 간 모델을 학습하려면 문장에서 멀리 떨어져 있는 단어 간의 종속성을 파악해야 합니다. 소실 그라데이션을 완화하면 이러한 모델이 장거리 관계를 학습할 수 있으므로 보다 정확하고 일관된 번역을 얻을 수 있습니다. Google 번역과 같은 플랫폼은 이 문제에 강한 아키텍처에 크게 의존합니다.
- 의료 이미지 분석: 의료 이미지 분석에서 종양 감지와 같은 작업(예: 뇌 종양 감지와 같은 데이터 세트 사용)에 사용되는 딥 CNN은 복잡한 스캔에서 계층적 특징을 학습하기 위해 많은 레이어가 필요합니다. 건너뛰기 연결 또는 기타 그라데이션 보존 기술을 통합하는 ResNet 또는 U-Net과 같은 아키텍처를 사용하면 이러한 심층 모델을 효과적으로 학습하여 진단 정확도를 향상시킬 수 있습니다. 다음과 같은 모델 Ultralytics YOLO 와 같은 모델은 물체 감지 및 세분화와 같은 작업에 이러한 그라데이션 문제에 대한 솔루션을 본질적으로 통합하는 최신 딥 러닝 아키텍처를 활용합니다.