SiLU(Swish) 활성화 기능이 객체 감지 및 NLP와 같은 AI 작업에서 딥 러닝 성능을 어떻게 향상시키는지 알아보세요.
스위시 함수라고도 하는 시그모이드 선형 단위(SiLU)는 신경망(NN)에 사용되는 활성화 함수입니다. 활성화 함수는 네트워크에 비선형성을 도입하여 데이터에서 복잡한 패턴을 학습할 수 있도록 하는 중요한 구성 요소입니다. SiLU는 Google Brain의 연구원들이 개발했으며 다양한 딥러닝 작업에서 효과적이라는 평가를 받으며 인기를 얻고 있으며, 심층 모델에서 ReLU와 같은 오래된 함수를 능가하는 성능을 보이는 경우가 많습니다.
SiLU의 중요성은 모델 성능과 훈련 역학을 개선할 수 있는 고유한 특성에서 비롯됩니다. 널리 사용되는 ReLU 함수와 달리 SiLU는 부드럽고 비단조적입니다. 즉, 입력에 따라 출력이 엄격하게 증가하지 않으므로 더 복잡한 함수를 모델링할 수 있습니다. 이러한 부드러움은 그라데이션 기반 최적화에 도움이 되며, 훈련 중 갑작스러운 변화를 방지합니다. Swish의 논문 원본을 포함한 연구에 따르면 ReLU를 SiLU로 대체하면 이미지넷과 같은 까다로운 데이터 세트, 특히 매우 심층적인 네트워크에서 분류 정확도를 향상시킬 수 있다고 합니다. 자체 게이팅 메커니즘은 정보 흐름을 조절하여 소실 그라데이션 문제와 같은 문제를 잠재적으로 완화하는 데 도움이 됩니다.
SiLU는 다른 일반적인 활성화 기능에 비해 다른 프로필을 제공합니다:
SiLU는 다목적이며 딥러닝 모델이 사용되는 다양한 영역에 성공적으로 적용되었습니다:
SiLU는 다음과 같은 주요 딥 러닝 프레임워크에서 쉽게 사용할 수 있습니다. PyTorch (as torch.nn.SiLU
문서화 여기) 및 TensorFlow (as tf.keras.activations.swish
문서화 여기). 다음과 같은 플랫폼 Ultralytics HUB 지원 교육 및 배포 이러한 고급 구성 요소를 활용하는 모델의 비율입니다.