GELU 활성화 기능이 GPT-4와 같은 변압기 모델을 개선하여 경사 흐름, 안정성 및 효율성을 향상시키는 방법을 알아보세요.
가우스 오차 선형 단위(GELU)는 최신 신경망(NN), 특히 트랜스포머 모델에서 널리 사용되는 고성능 활성화 함수입니다. 댄 헨드릭스와 케빈 김펠이"가우스 오차 선형 단위(GELU)" 논문에서 제안한 GELU는 뉴런 활성화에 확률론적 접근 방식을 도입하여 ReLU와 같은 함수의 결정론적 특성에서 벗어났습니다. 이 함수는 부호에 따라 게이팅하는 것이 아니라 입력의 크기에 따라 가중치를 부여하여 드롭아웃, 존아웃, ReLU의 속성을 효과적으로 결합합니다.
GELU는 입력값에 해당 입력에 적용된 표준 가우스 누적 분포 함수(CDF) 의 값을 곱해 뉴런의 출력을 결정합니다. 즉, 입력 값 자체에 따라 활성화가 확률적으로 이루어집니다. 음수 값을 급격하게 잘라내는 ReLU와 달리 GELU는 더 부드러운 곡선을 제공합니다. 크기가 큰 입력값은 보존될 가능성이 높고, 0에 가까운 입력값은 제로화될 가능성이 높습니다. 이러한 부드러운 확률적 가중치를 사용하면 딥 네트워크 훈련에 중요한 역전파 중에 더 풍부한 표현과 잠재적으로 더 나은 그라데이션 흐름을 구현할 수 있습니다.
GELU는 다른 일반적인 활성화 기능에 비해 뚜렷한 특징을 제공합니다:
GELU는 강력한 경험적 성능으로 인해 많은 고급 딥러닝 모델에서 널리 선택되고 있습니다:
이 함수는 부드러운 비선형성을 제공하고 입력 크기를 활성화 결정에 통합하는 기능 덕분에 딥 네트워크를 훈련하는 데 효과적입니다. ReLU보다 약간 더 계산 집약적이지만, 성능상의 이점은 종종 다음과 같은 프레임워크를 통해 제공되는 대규모 모델에서 이 함수를 사용하는 것을 정당화합니다. PyTorch 및 TensorFlow. 다양한 모델을 탐색하고 Ultralytics HUB와 같은 도구를 사용하여 모델을 훈련할 수 있습니다.