용어집

GELU(가우스 오차 선형 단위)

GELU 활성화 기능이 GPT-4와 같은 변압기 모델을 개선하여 경사 흐름, 안정성 및 효율성을 향상시키는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

가우스 오차 선형 단위(GELU)는 최신 신경망(NN), 특히 트랜스포머 모델에서 널리 사용되는 고성능 활성화 함수입니다. 댄 헨드릭스와 케빈 김펠이"가우스 오차 선형 단위(GELU)" 논문에서 제안한 GELU는 뉴런 활성화에 확률론적 접근 방식을 도입하여 ReLU와 같은 함수의 결정론적 특성에서 벗어났습니다. 이 함수는 부호에 따라 게이팅하는 것이 아니라 입력의 크기에 따라 가중치를 부여하여 드롭아웃, 존아웃, ReLU의 속성을 효과적으로 결합합니다.

GELU 작동 방식

GELU는 입력값에 해당 입력에 적용된 표준 가우스 누적 분포 함수(CDF) 의 값을 곱해 뉴런의 출력을 결정합니다. 즉, 입력 값 자체에 따라 활성화가 확률적으로 이루어집니다. 음수 값을 급격하게 잘라내는 ReLU와 달리 GELU는 더 부드러운 곡선을 제공합니다. 크기가 큰 입력값은 보존될 가능성이 높고, 0에 가까운 입력값은 제로화될 가능성이 높습니다. 이러한 부드러운 확률적 가중치를 사용하면 딥 네트워크 훈련에 중요한 역전파 중에 더 풍부한 표현과 잠재적으로 더 나은 그라데이션 흐름을 구현할 수 있습니다.

다른 활성화 기능과의 비교

GELU는 다른 일반적인 활성화 기능에 비해 뚜렷한 특징을 제공합니다:

  • ReLU(정류 선형 단위): ReLU는 계산적으로 간단합니다(양수이면 입력값, 그렇지 않으면 0이 출력됨). GELU는 더 부드럽고 단조롭지 않아(음수 값의 경우 입력이 증가함에 따라 감소할 수 있음) 더 복잡한 패턴을 캡처하는 데 도움이 될 수 있습니다. 그러나 GELU는 ReLU보다 계산 집약적입니다.
  • 시그모이드와 : 이 함수는 입력을 고정된 범위(시그모이드의 경우 0~1, 탄의 경우 -1~1)로 쪼갭니다. 특정 상황(예: 확률에 대한 출력 레이어)에서는 유용하지만, 딥 네트워크에서는 소실 그라디언트 문제가 발생할 수 있습니다. GELU는 ReLU와 마찬가지로 상한이 없으므로 양수 값의 경우 이 문제가 완화됩니다.
  • SiLU(시그모이드 선형 단위)/스위시: SiLU는 입력에 시그모이드를 곱하는 또 다른 부드러운 비단조 활성화 함수입니다. 모양과 성능 면에서 GELU와 유사하며, 종종 가까운 대안으로 간주됩니다. 둘 다 강력한 경험적 결과를 보여주었습니다.

GELU의 장점

  • 부드러움: 부드러운 커브는 ReLU의 날카로운 포인트에 비해 더 나은 그라데이션 하강 다이내믹을 제공합니다.
  • 비단조성: 더 복잡한 함수 근사치를 허용합니다.
  • 확률적 해석: 입력 크기를 확률적 방식으로 활성화 결정에 통합합니다.
  • 최첨단 성능: 최고 성능의 모델, 특히 트랜스포머에 자주 사용됩니다.

단점 및 고려 사항

  • 계산 비용: 가우스 CDF를 계산하는 것은 ReLU의 간단한 연산보다 비용이 많이 듭니다. 실제로는 효율적인 근사치를 사용하는 경우가 많습니다.
  • 복잡성: ReLU와 같은 간단한 기능에 비해 처음부터 이해하고 구현하기가 약간 더 복잡합니다.

적용 분야 및 중요성

GELU는 강력한 경험적 성능으로 인해 많은 고급 딥러닝 모델에서 널리 선택되고 있습니다:

이 함수는 부드러운 비선형성을 제공하고 입력 크기를 활성화 결정에 통합하는 기능 덕분에 딥 네트워크를 훈련하는 데 효과적입니다. ReLU보다 약간 더 계산 집약적이지만, 성능상의 이점은 종종 다음과 같은 프레임워크를 통해 제공되는 대규모 모델에서 이 함수를 사용하는 것을 정당화합니다. PyTorchTensorFlow. 다양한 모델을 탐색하고 Ultralytics HUB와 같은 도구를 사용하여 모델을 훈련할 수 있습니다.

모두 보기