용어집

GELU(가우스 오차 선형 단위)

GELU 활성화 기능이 GPT-4와 같은 변압기 모델을 개선하여 경사 흐름, 안정성 및 효율성을 향상시키는 방법을 알아보세요.

GELU(가우스 오차 선형 단위)는 최첨단 신경망 아키텍처, 특히 트랜스포머 모델에서 표준으로 자리 잡은 고성능 활성화 함수입니다. 이 함수는 부드러운 비단조 곡선으로 잘 알려져 있으며, 이전 함수보다 모델이 복잡한 패턴을 더 효과적으로 학습하는 데 도움이 됩니다."가우스 오차 선형 단위(GELU)" 논문에서 소개된 이 함수는 드롭아웃ReLU와 같은 다른 함수의 특성을 결합하여 훈련 안정성과 모델 성능을 향상시킵니다.

GELU 작동 방식

모든 음수 값을 급격하게 차단하는 ReLU와 달리 GELU는 입력의 크기에 따라 가중치를 부여합니다. 입력에 표준 가우스 분포의 누적 분포 함수(CDF)를 곱하여 뉴런을 활성화할지 여부를 확률적으로 결정합니다. 즉, 입력값이 음수일수록 "삭제"(0으로 설정)될 가능성이 높지만, 그 전환은 갑작스럽지 않고 부드럽게 이루어집니다. 이 확률 정규화 속성은 소실 그라데이션 문제와 같은 문제를 방지하고 최신 딥 러닝 모델에 중요한 데이터를 더욱 풍부하게 표현할 수 있게 해줍니다.

GELU와 다른 활성화 기능 비교

GELU는 다른 인기 있는 활성화 기능에 비해 몇 가지 장점이 있어 널리 채택되고 있습니다.

  • GELU와 ReLU: 가장 큰 차이점은 GELU의 부드러움입니다. ReLU는 계산적으로 간단하지만, 0에서 급격한 코너가 발생하면 뉴런이 영구적으로 비활성화되는 '다이잉 ReLU' 문제가 발생할 수 있습니다. GELU의 부드러운 곡선은 이 문제를 방지하여 보다 안정적인 경사 하강을 촉진하고 종종 최종 정확도를 향상시킵니다.
  • GELU와 누수 ReLU 비교: 누수 ReLU는 음수 입력에 대해 작은 음의 기울기를 허용하여 죽어가는 ReLU 문제를 해결하려고 시도합니다. 그러나 GELU의 비선형 곡선 특성은 보다 동적인 활성화 범위를 제공하여 많은 딥 러닝 작업에서 Leaky ReLU보다 뛰어난 성능을 발휘하는 것으로 나타났습니다.
  • GELU와 SiLU(Swish) 비교: 스위시라고도 하는 시그모이드 리니어 유닛(SiLU)은 GELU와 매우 유사합니다. 둘 다 부드럽고 단조롭지 않은 함수이며 뛰어난 성능을 보여줍니다. 일부 연구에 따르면 특정 컴퓨터 비전 모델에서는 SiLU가 약간 더 효율적일 수 있다고 하지만, 둘 중 하나를 선택하는 것은 종종 특정 아키텍처와 데이터 세트에 대한 경험적 테스트에 달려 있습니다. Ultralytics YOLO와 같은 모델은 성능과 효율성의 균형을 위해 SiLU를 활용하는 경우가 많습니다.

AI 및 딥 러닝의 응용 분야

GELU는 현재까지 개발된 가장 강력한 AI 모델의 핵심 구성 요소입니다.

구현 및 사용

GELU는 모든 주요 딥러닝 프레임워크에서 쉽게 사용할 수 있으므로 맞춤형 모델에 쉽게 통합할 수 있습니다.

개발자는 데이터 증강부터 최종 모델 배포까지 전체 MLOps 수명 주기를 간소화하는 Ultralytics HUB와 같은 플랫폼과 함께 GELU를 사용하여 모델을 구축, 학습 및 배포할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨