GELU 활성화 기능이 GPT-4와 같은 변압기 모델을 개선하여 경사 흐름, 안정성 및 효율성을 향상시키는 방법을 알아보세요.
가우스 오차 선형 단위(GELU)는 최신 신경망, 특히 트랜스포머 아키텍처에서 일반적으로 사용되는 활성화 함수의 한 유형입니다. 댄 헨드릭스와 케빈 김펠이"가우스 오차 선형 단위(GELU)" 논문에서 제안한 이 함수는 드롭아웃, 존아웃, ReLU(정류 선형 단위) 의 특성을 결합하여 모델 성능을 개선하는 것을 목표로 합니다. 음수 값을 급격하게 잘라내는 ReLU와 달리, GELU는 부호가 아닌 크기에 따라 입력에 가중치를 부여하여 더 부드러운 곡선을 제공합니다.
GELU 함수는 입력값에 따라 입력을 변조하여 뉴런의 '활성화' 여부를 효과적으로 결정합니다. 이 함수는 입력에 해당 입력에 적용된 표준 가우스 누적 분포 함수(CDF) 의 값을 곱합니다. 직관적으로 이것은 0에서 멀리 떨어진 입력(양수 및 음수 모두)은 보존될 가능성이 더 높고, 0에 가까운 입력은 제로화될 가능성이 더 높다는 것을 의미합니다. 이 확률적 접근 방식은 드롭아웃과 유사하지만 입력 값 자체에 의해 결정되는 확률적 정규화의 형태를 도입하여 데이터의 더 복잡한 패턴을 포착할 수 있는 비선형 함수로 이어집니다.
GELU는 단순한 활성화 기능에 비해 이점을 제공하여 최신 모델에 채택되는 데 기여합니다:
GELU는 강력한 경험적 성능으로 인해 많은 고급 딥러닝 모델에서 널리 선택되고 있습니다:
이 함수는 부드러운 비선형성을 제공하고 입력 크기를 활성화 결정에 통합하는 기능 덕분에 딥 네트워크를 훈련하는 데 효과적입니다. ReLU보다 약간 더 계산 집약적이지만, 성능상의 이점은 종종 다음과 같은 프레임워크를 통해 제공되는 대규모 모델에서 이 함수를 사용하는 것을 정당화합니다. PyTorch 및 TensorFlow.