AI 및 ML을 위한 Leaky ReLU 활성화의 강력한 성능을 알아보세요. 고질적인 ReLU 문제를 해결하고 CV, NLP, GAN 등에서 모델 성능을 향상하세요!
일반적으로 누수형 ReLU라고 알려진 누수형 선형 유닛은 신경망(NN), 특히 딥러닝(DL) 모델에서 사용되는 활성화 함수입니다. 이는 표준 정류 선형 유닛(ReLU ) 활성화 함수의 수정된 버전으로, '죽어가는 ReLU' 문제를 해결하기 위해 특별히 설계되었습니다. 이 문제는 뉴런이 비활성 상태가 되어 모든 입력에 대해 0을 출력할 때 발생하며, 역전파 중 0 기울기로 인해 훈련 과정에서 학습을 효과적으로 방지할 수 없습니다.
ReLU와 마찬가지로 누설 ReLU는 입력이 양수인 경우 바로 출력합니다. 그러나 음수 입력에 대해 0을 출력하는 ReLU와 달리 누수 ReLU는 음수 입력에 대해 0이 아닌 작은 일정한 기울기(기울기)를 허용합니다. 이 '누수'는 입력이 음수일 때에도 뉴런이 활성 상태를 유지하도록 하여 기울기가 네트워크를 통해 역방향으로 흐르도록 하고 지속적인 학습을 가능하게 합니다. 작은 기울기는 일반적으로 고정된 작은 값(예: 0.01)이지만, 파라메트릭 ReLU(PReLU)와 같은 변형을 사용하면 훈련 중에 이 기울기를 학습할 수 있습니다.
누수 ReLU의 주된 동기는 죽어가는 ReLU 문제를 완화하기 위해서입니다. 표준 ReLU 뉴런이 큰 음의 입력을 받으면 출력은 0이 됩니다. 훈련 중에 되돌아오는 기울기도 0이면 뉴런의 가중치가 업데이트되지 않고 모든 입력에 대해 영구적으로 비활성 상태로 남을 수 있습니다. 누수 ReLU는 음수 입력에 대해서도 0이 아닌 작은 기울기가 항상 존재하도록 하여 이를 방지하므로 뉴런이 완전히 죽는 것을 방지하고 특히 소실 기울기 문제가 우려되는 매우 깊은 네트워크에서 훈련 과정의 견고성을 향상시킬 수 있습니다.
Leaky ReLU는 훈련 내내 활성 뉴런을 유지하는 것이 중요한 시나리오에서 유용한 도구입니다. 표준 ReLU와 유사한 계산 효율성으로 대규모 모델에 적합합니다. 주요 적용 분야는 다음과 같습니다:
표준 ReLU와 비교했을 때, 누수 ReLU의 가장 큰 장점은 뉴런이 죽어가는 문제를 피할 수 있다는 점입니다. ELU(지수 선형 단위) 또는 SiLU(시그모이드 선형 단위) 와 같은 다른 활성화 함수도 이 문제를 해결하며, 때로는 다음과 같은 모델에서 볼 수 있듯이 더 부드러운 그라데이션과 같은 이점을 제공합니다. Ultralytics YOLOv8. 그러나 ELU와 같은 이러한 대안은 누수 ReLU보다 계산적으로 더 비쌀 수 있습니다(활성화 함수 비교 참조). 최적의 선택은 종종 특정 신경망 아키텍처, 데이터 세트(예: Ultralytics 데이터 세트), 하이퍼파라미터 튜닝과 같은 프로세스를 통해 얻은 경험적 결과에 따라 달라집니다. 다음과 같은 프레임워크 PyTorchPyTorch 문서) 및 TensorFlowTensorFlow 문서)와 같은 프레임워크는 다양한 활성화 기능을 쉽게 구현할 수 있도록 하여 Ultralytics HUB와 같은 플랫폼 내에서 실험을 용이하게 해줍니다.