용어집

GELU(가우스 오차 선형 단위)

GELU 활성화 기능이 GPT-4와 같은 변압기 모델을 개선하여 경사 흐름, 안정성 및 효율성을 향상시키는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

가우스 오차 선형 단위(GELU)는 최신 신경망, 특히 트랜스포머 아키텍처에서 일반적으로 사용되는 활성화 함수의 한 유형입니다. 댄 헨드릭스와 케빈 김펠이"가우스 오차 선형 단위(GELU)" 논문에서 제안한 이 함수는 드롭아웃, 존아웃, ReLU(정류 선형 단위) 의 특성을 결합하여 모델 성능을 개선하는 것을 목표로 합니다. 음수 값을 급격하게 잘라내는 ReLU와 달리, GELU는 부호가 아닌 크기에 따라 입력에 가중치를 부여하여 더 부드러운 곡선을 제공합니다.

GELU 작동 방식

GELU 함수는 입력값에 따라 입력을 변조하여 뉴런의 '활성화' 여부를 효과적으로 결정합니다. 이 함수는 입력에 해당 입력에 적용된 표준 가우스 누적 분포 함수(CDF) 의 값을 곱합니다. 직관적으로 이것은 0에서 멀리 떨어진 입력(양수 및 음수 모두)은 보존될 가능성이 더 높고, 0에 가까운 입력은 제로화될 가능성이 더 높다는 것을 의미합니다. 이 확률적 접근 방식은 드롭아웃과 유사하지만 입력 값 자체에 의해 결정되는 확률적 정규화의 형태를 도입하여 데이터의 더 복잡한 패턴을 포착할 수 있는 비선형 함수로 이어집니다.

GELU와 다른 활성화 기능 비교

GELU는 단순한 활성화 기능에 비해 이점을 제공하여 최신 모델에 채택되는 데 기여합니다:

  • ReLU: ReLU는 계산적으로 간단하지만 음수 입력에 대해 뉴런이 비활성화되어 학습을 방해하는 '죽어가는 ReLU' 문제가 발생할 수 있습니다. GELU의 부드러운 곡선은 특히 음수 값에 대해 기울기가 더 쉽게 흐르도록 하여 이 문제를 잠재적으로 완화할 수 있습니다.
  • 누수 ReLU: 누수 ReLU는 음수 입력에 대해 0이 아닌 작은 기울기를 허용하여 죽어가는 ReLU 문제를 해결하지만, 음수 영역에서 단순한 선형 관계를 유지합니다. GELU는 보다 복잡한 비선형 변환을 제공합니다.
  • SiLU(스위시): SiLU(시그모이드 선형 단위) 는 또 다른 부드러운 활성화 기능으로, 종종 GELU와 유사한 성능을 발휘합니다. GELU와 SiLU 사이의 선택은 특정 아키텍처와 데이터 세트에 따라 달라질 수 있으며, 경험적 테스트 또는 하이퍼파라미터 튜닝을 통해 결정되는 경우가 많습니다.

적용 분야 및 중요성

GELU는 강력한 경험적 성능으로 인해 많은 고급 딥러닝 모델에서 널리 선택되고 있습니다:

  1. 자연어 처리(NLP): 텍스트 생성자연어 이해와 같은 작업의 성공에 기여하는 BERTGPT 모델과 같은 Transformer 기반 모델에서 널리 사용됩니다.
  2. 컴퓨터 비전: GELU는 비전 트랜스포머(ViT) 및 후속 비전 모델에서도 발견됩니다. 예를 들어, Ultralytics YOLOv9에 사용되는 일반화된 효율적인 레이어 집계 네트워크(GELAN)와 같은 구성 요소는 GELU를 사용하여 특징 추출을 향상하고 물체 감지 작업의 정확도를 개선하며, YOLOv9 백서에서 자세히 설명합니다.

이 함수는 부드러운 비선형성을 제공하고 입력 크기를 활성화 결정에 통합하는 기능 덕분에 딥 네트워크를 훈련하는 데 효과적입니다. ReLU보다 약간 더 계산 집약적이지만, 성능상의 이점은 종종 다음과 같은 프레임워크를 통해 제공되는 대규모 모델에서 이 함수를 사용하는 것을 정당화합니다. PyTorchTensorFlow.

모두 보기