용어집

SiLU(시그모이드 선형 단위)

SiLU(Swish) 활성화 기능이 객체 감지 및 NLP와 같은 AI 작업에서 딥 러닝 성능을 어떻게 향상시키는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

스위시 함수라고도 하는 시그모이드 선형 단위(SiLU)는 신경망(NN)에 사용되는 활성화 함수입니다. 활성화 함수는 네트워크에 비선형성을 도입하여 데이터에서 복잡한 패턴을 학습할 수 있도록 하는 중요한 구성 요소입니다. SiLU는 Google Brain의 연구원들이 개발했으며 다양한 딥러닝 작업에서 효과적이라는 평가를 받으며 인기를 얻고 있으며, 심층 모델에서 ReLU와 같은 오래된 함수를 능가하는 성능을 보이는 경우가 많습니다.

관련성 및 이점

SiLU의 중요성은 모델 성능과 훈련 역학을 개선할 수 있는 고유한 특성에서 비롯됩니다. 널리 사용되는 ReLU 함수와 달리 SiLU는 부드럽고 비단조적입니다. 즉, 입력에 따라 출력이 엄격하게 증가하지 않으므로 더 복잡한 함수를 모델링할 수 있습니다. 이러한 부드러움은 그라데이션 기반 최적화에 도움이 되며, 훈련 중 갑작스러운 변화를 방지합니다. Swish의 논문 원본을 포함한 연구에 따르면 ReLU를 SiLU로 대체하면 이미지넷과 같은 까다로운 데이터 세트, 특히 매우 심층적인 네트워크에서 분류 정확도를 향상시킬 수 있다고 합니다. 자체 게이팅 메커니즘은 정보 흐름을 조절하여 소실 그라데이션 문제와 같은 문제를 잠재적으로 완화하는 데 도움이 됩니다.

다른 활성화 기능과의 비교

SiLU는 다른 일반적인 활성화 기능에 비해 다른 프로필을 제공합니다:

  • ReLU(정류 선형 단위): 더 간단하고 계산 효율이 높지만 뉴런이 비활성 상태가 되는 '죽어가는 ReLU' 문제가 발생할 수 있습니다. ReLU는 단조롭고 0에서 매끄럽지 않습니다.
  • 누수 ReLU: 음수 입력에 대해 0이 아닌 작은 기울기를 허용하여 뉴런이 죽어가는 문제를 해결하는 ReLU보다 개선된 방식입니다. ReLU와 마찬가지로 누수 ReLU는 단조롭습니다.
  • GELU(가우스 오차 선형 단위): 트랜스포머 모델에서 자주 사용되는 또 다른 부드러운 활성화 함수입니다. GELU는 ReLU처럼 부호에 따라 게이팅하는 것이 아니라 입력의 크기에 따라 가중치를 부여합니다. SiLU는 때때로 경험적으로 더 나은 성능을 보이는 부드러운 대안으로 볼 수 있습니다. 자세한 비교는 일반적인 활성화 함수 개요에서 확인할 수 있습니다.

SiLU의 애플리케이션

SiLU는 다목적이며 딥러닝 모델이 사용되는 다양한 영역에 성공적으로 적용되었습니다:

  • 객체 감지: 다음과 관련된 아키텍처를 포함한 최신 객체 감지 모델 Ultralytics YOLO와 관련된 아키텍처를 포함한 최신 객체 감지 모델은 이미지 또는 비디오 내에서 객체를 식별하고 위치를 파악하는 정확도를 향상시키기 위해 SiLU 또는 이와 유사한 고급 활성화 기능을 통합하는 경우가 많습니다. 이는 자율 주행에서 소매업 분석에 이르는 다양한 애플리케이션의 성능을 향상시켜 더 나은 모델 평가 인사이트에 기여합니다.
  • 자연어 처리(NLP): SiLU는 텍스트 분류, 기계 번역, 감정 분석과 같은 작업을 위해 트랜스포머 아키텍처 및 기타 NLP 모델 내에서 사용할 수 있습니다. 이 속성은 모델이 복잡한 언어 패턴을 포착하여 이해 및 생성 기능을 향상시키는 데 도움이 될 수 있습니다. 더 많은 NLP 애플리케이션을 살펴보세요.
  • 이미지 분류: 이미지 분류를 위해 설계된 심층 컨볼루션 신경망(CNN) 에서 SiLU는 ReLU 레이어를 대체할 수 있으며, 특히 네트워크 깊이가 증가함에 따라 수렴과 최종 정확도가 향상되는 경우가 많습니다. 이는 COCO와 같은 데이터 세트로 작업할 때 유용합니다.

SiLU는 다음과 같은 주요 딥 러닝 프레임워크에서 쉽게 사용할 수 있습니다. PyTorch (as torch.nn.SiLU문서화 여기) 및 TensorFlow (as tf.keras.activations.swish문서화 여기). 다음과 같은 플랫폼 Ultralytics HUB 지원 교육배포 이러한 고급 구성 요소를 활용하는 모델의 비율입니다.

모두 보기