용어집

GELU(가우스 오차 선형 단위)

GELU 활성화 기능이 GPT-4와 같은 변압기 모델을 개선하여 경사 흐름, 안정성 및 효율성을 향상시키는 방법을 알아보세요.

GELU(가우스 오차 선형 단위)는 최첨단 신경망 아키텍처, 특히 트랜스포머 모델에서 표준으로 자리 잡은 고성능 활성화 함수입니다. 이 함수는 부드러운 비단조 곡선으로 잘 알려져 있으며, 이전 함수보다 모델이 복잡한 패턴을 더 효과적으로 학습하는 데 도움이 됩니다."가우스 오차 선형 단위(GELU)" 논문에서 소개된 이 함수는 드롭아웃 및 ReLU와 같은 다른 함수의 특성을 결합하여 훈련 안정성과 모델 성능을 향상시킵니다.

GELU 작동 방식

모든 음수 값을 급격하게 차단하는 ReLU와 달리 GELU는 입력의 크기에 따라 가중치를 부여합니다. 입력에 표준 가우스 분포의 누적 분포 함수(CDF)를 곱하여 뉴런을 활성화할지 여부를 확률적으로 결정합니다. 즉, 입력값이 음수일수록 "삭제"(0으로 설정)될 가능성이 높지만, 그 전환은 갑작스럽지 않고 부드럽게 이루어집니다. 이 확률 정규화 속성은 소실 그라데이션 문제와 같은 문제를 방지하고 최신 딥 러닝 모델에 중요한 데이터를 더욱 풍부하게 표현할 수 있게 해줍니다.

GELU와 다른 활성화 기능 비교

GELU는 다른 인기 있는 활성화 기능에 비해 몇 가지 장점이 있어 널리 채택되고 있습니다.

GELU와 ReLU: 가장 큰 차이점은 GELU의 부드러움입니다. ReLU는 계산적으로 간단하지만, 0에서 급격한 코너가 발생하면 뉴런이 영구적으로 비활성화되는 '다이잉 ReLU' 문제가 발생할 수 있습니다. GELU의 부드러운 곡선은 이 문제를 방지하여 보다 안정적인 경사 하강을 촉진하고 종종 최종 정확도를 향상시킵니다.
GELU와 누수 ReLU 비교: 누수 ReLU는 음수 입력에 대해 작은 음의 기울기를 허용하여 죽어가는 ReLU 문제를 해결하려고 시도합니다. 그러나 GELU의 비선형 곡선 특성은 보다 동적인 활성화 범위를 제공하여 많은 딥 러닝 작업에서 Leaky ReLU보다 뛰어난 성능을 발휘하는 것으로 나타났습니다.
GELU와 SiLU(Swish) 비교: 스위시라고도 하는 시그모이드 리니어 유닛(SiLU)은 GELU와 매우 유사합니다. 둘 다 부드럽고 단조롭지 않은 함수이며 뛰어난 성능을 보여줍니다. 일부 연구에 따르면 특정 컴퓨터 비전 모델에서는 SiLU가 약간 더 효율적일 수 있다고 하지만, 둘 중 하나를 선택하는 것은 종종 특정 아키텍처와 데이터 세트에 대한 경험적 테스트에 달려 있습니다. Ultralytics YOLO와 같은 모델은 성능과 효율성의 균형을 위해 SiLU를 활용하는 경우가 많습니다.

AI 및 딥 러닝의 응용 분야

GELU는 현재까지 개발된 가장 강력한 AI 모델의 핵심 구성 요소입니다.

자연어 처리(NLP): GELU는 Transformer 아키텍처의 피드 포워드 네트워크에서 표준 활성화 기능입니다. 여기에는 거의 모든 최신 대규모 언어 모델(LLM)의 기반이 되는 BERT 및 GPT 시리즈와 같은 중요한 모델이 포함됩니다. 복잡한 언어 패턴을 처리할 수 있어 기계 번역 및 텍스트 요약과 같은 작업에 이상적입니다. 이러한 모델에 대한 자세한 내용은 Hugging Face와 같은 기관의 리소스에서 확인할 수 있습니다.
컴퓨터 비전(CV): NLP에서의 성공에 이어 GELU는 비전 트랜스포머(ViT) 모델에 채택되었습니다. 이 모델은 이미지 분류 및 객체 감지와 같은 작업을 위해 이미지 패치에 트랜스포머 아키텍처를 적용합니다. ViT의 성능은 시각 정보 처리에서 GELU의 효율성을 입증하며 기존 CNN(Convolutional Neural Network)의 우위에 도전장을 내밀었습니다.

구현 및 사용

GELU는 모든 주요 딥러닝 프레임워크에서 쉽게 사용할 수 있으므로 맞춤형 모델에 쉽게 통합할 수 있습니다.

PyTorch: 다음과 같이 구현됩니다. torch.nn.GELU에서 자세한 정보를 확인할 수 있습니다. 공식 파이토치 겔루 문서.
텐서플로: 다음과 같이 사용 가능 tf.keras.activations.gelu에 문서화되어 있으며 텐서플로 API 문서.

개발자는 데이터 증강부터 최종 모델 배포까지 전체 MLOps 수명 주기를 간소화하는 Ultralytics HUB와 같은 플랫폼과 함께 GELU를 사용하여 모델을 구축, 학습 및 배포할 수 있습니다.

GELU(가우스 오차 선형 단위)

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

울트라틱스 YOLO로 몇 초 만에 AI 모델 훈련하기

울트라틱스 허브로 간편하게 YOLO 모델 훈련하기

GELU 작동 방식

GELU와 다른 활성화 기능 비교

AI 및 딥 러닝의 응용 분야

구현 및 사용

이 카테고리에서 자세히 보기

적층 가공의 이해 기술 및 사용 사례

울트라틱스 YOLO11을 통한 공항 지상 운영 모니터링

제조업에서 로봇 공학의 진화와 미래

울트라 애널리틱스 커뮤니티 가입