GELU 활성화 기능이 GPT-4와 같은 변압기 모델을 개선하여 경사 흐름, 안정성 및 효율성을 향상시키는 방법을 알아보세요.
GELU(가우스 오차 선형 단위)는 최첨단 신경망 아키텍처, 특히 트랜스포머 모델에서 표준으로 자리 잡은 고성능 활성화 함수입니다. 이 함수는 부드러운 비단조 곡선으로 잘 알려져 있으며, 이전 함수보다 모델이 복잡한 패턴을 더 효과적으로 학습하는 데 도움이 됩니다."가우스 오차 선형 단위(GELU)" 논문에서 소개된 이 함수는 드롭아웃 및 ReLU와 같은 다른 함수의 특성을 결합하여 훈련 안정성과 모델 성능을 향상시킵니다.
모든 음수 값을 급격하게 차단하는 ReLU와 달리 GELU는 입력의 크기에 따라 가중치를 부여합니다. 입력에 표준 가우스 분포의 누적 분포 함수(CDF)를 곱하여 뉴런을 활성화할지 여부를 확률적으로 결정합니다. 즉, 입력값이 음수일수록 "삭제"(0으로 설정)될 가능성이 높지만, 그 전환은 갑작스럽지 않고 부드럽게 이루어집니다. 이 확률 정규화 속성은 소실 그라데이션 문제와 같은 문제를 방지하고 최신 딥 러닝 모델에 중요한 데이터를 더욱 풍부하게 표현할 수 있게 해줍니다.
GELU는 다른 인기 있는 활성화 기능에 비해 몇 가지 장점이 있어 널리 채택되고 있습니다.
GELU는 현재까지 개발된 가장 강력한 AI 모델의 핵심 구성 요소입니다.
GELU는 모든 주요 딥러닝 프레임워크에서 쉽게 사용할 수 있으므로 맞춤형 모델에 쉽게 통합할 수 있습니다.
torch.nn.GELU
에서 자세한 정보를 확인할 수 있습니다. 공식 파이토치 겔루 문서.tf.keras.activations.gelu
에 문서화되어 있으며 텐서플로 API 문서.개발자는 데이터 증강부터 최종 모델 배포까지 전체 MLOps 수명 주기를 간소화하는 Ultralytics HUB와 같은 플랫폼과 함께 GELU를 사용하여 모델을 구축, 학습 및 배포할 수 있습니다.