용어집

시그모이드

AI에서 시그모이드 함수의 힘을 알아보세요. 어떻게 비선형성을 구현하고, 이진 분류를 지원하며, ML의 발전을 이끄는지 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

시그모이드 함수는 머신러닝(ML), 특히 신경망(NN)에서 널리 사용되는 활성화 함수입니다. "S"자 모양의 곡선이 특징이며, 모든 입력 값을 0과 1 사이의 출력에 수학적으로 매핑합니다. 이 속성은 모델의 원시 출력(로그)을 해석하기 쉬운 확률로 변환하는 데 특히 유용합니다. 역사적으로 시그모이드는 NN의 숨겨진 레이어에 많이 사용되었지만, 특정 한계로 인해 최신 딥 러닝(DL) 아키텍처에서는 대부분 ReLU와 같은 함수로 대체되었습니다.

시그모이드 작동 방식

시그모이드 함수는 임의의 실수 값을 받아 (0, 1) 범위로 쪼갭니다. 음수 입력이 크면 0에 가까운 출력이, 양수 입력이 크면 1에 가까운 출력이, 0의 입력은 0.5의 출력이 됩니다. 이는 비선형 함수로, 비선형성이 없는 신경망에 여러 개의 선형 레이어를 쌓으면 단순히 또 다른 선형 함수가 되어 이미지나 텍스트와 같은 데이터에 존재하는 복잡한 패턴을 학습하는 모델의 능력이 제한되기 때문에 매우 중요한 요소입니다. 또한 시그모이드는 역전파 및 경사 하강과 같은 경사 기반 최적화 방법을 사용하여 신경망을 훈련하는 데 필요한 특성인 차별성을 갖습니다.

시그모이드의 응용

현재 시그모이드는 이진 분류 모델의 출력 레이어에 주로 사용됩니다. 시그모이드의 출력은 자연스럽게 0과 1 사이에 속하기 때문에 양수 클래스에 속하는 입력의 확률을 표현하는 데 이상적입니다.

  1. 의료 진단: 의료 이미지 분석에서 모델은 스캔(예: 뇌종양 데이터 세트)의 특징을 분석하고 시그모이드 출력 레이어를 사용하여 특정 상태(예: 악성 종양)가 존재할 확률을 예측할 수 있습니다. 특정 임계값(보통 0.5)을 초과하는 출력은 긍정적인 예측을 나타냅니다. 이 확률적 출력은 임상의가 모델의 신뢰도를 이해하는 데 도움이 됩니다. 방사선학 AI 연구의 사례를 참조하세요.
  2. 스팸 탐지: 자연어 처리(NLP)에서는 이메일이 스팸인지 아닌지를 식별하는 등 텍스트 분류를 위해 설계된 모델의 최종 계층에서 시그모이드 함수를 사용할 수 있습니다. 이 모델은 이메일의 콘텐츠를 처리하고 시그모이드를 통해 해당 이메일이 스팸일 확률을 출력합니다. 이는 NLP 애플리케이션에서 흔히 볼 수 있는 고전적인 이진 분류 문제입니다.

시그모이드는 입력이 여러 카테고리에 동시에 속할 수 있는 다중 레이블 분류 작업(예: '정치', '경제', '유럽' 태그가 붙은 뉴스 기사)에도 사용할 수 있습니다. 이 경우, 각 잠재적 레이블에 대해 별도의 시그모이드 출력 뉴런이 사용되어 다른 레이블과 독립적으로 특정 레이블이 관련성이 있을 확률을 추정합니다. 이는 일반적으로 Softmax 함수를 사용하는 다중 클래스 분류(이미지를 '고양이', '개' 또는 '새'로 분류하는 것과 같이 하나의 레이블만 적용되는 경우)와 대조됩니다.

시그모이드 대 관련 활성화 함수

시그모이드를 이해하려면 다른 활성화 기능과 비교해야 하는 경우가 많습니다:

  • ReLU(정류 선형 단위): ReLU는 양수인 경우 입력을 직접 출력하고 그렇지 않으면 0을 출력합니다. 계산적으로 더 간단하고 양수 입력에 대한 소실 그라데이션 문제를 피할 수 있어 다음을 포함한 대부분의 최신 NN에서 히든 레이어에 선호되는 선택입니다. Ultralytics YOLO 모델과 같은 YOLOv8. Leaky ReLU와 같은 변형은 ReLU의 '죽어가는 뉴런' 문제를 해결합니다.
  • 탄(쌍곡탄젠트): 탄은 수학적으로 시그모이드와 관련이 있지만 입력을 (-1, 1) 범위로 쪼갭니다. 출력은 영점 중심이므로, 영점 중심이 아닌 출력(0~1)인 시그모이드에 비해 최적화에 도움이 될 수 있습니다. 하지만 시그모이드와 마찬가지로 소실 그라데이션 문제가 있습니다.
  • 소프트맥스: 다중 클래스 분류 문제의 출력 레이어에 사용됩니다. 이진 또는 다중 레이블 작업에 독립적인 확률을 제공하는 시그모이드와 달리 Softmax는 모든 클래스에 걸쳐 확률 분포를 출력하여 확률의 합이 1이 되도록 합니다. 따라서 클래스가 상호 배타적인 경우에 적합합니다.
  • SiLU(시그모이드 선형 단위)/스위시: 입력에 입력의 시그모이드를 곱하는 최신 활성화 함수입니다. 더 심층적인 모델에서 ReLU보다 더 나은 성능을 발휘하는 경우가 많으며, EfficientNet과 일부 YOLO 변형과 같은 아키텍처에서 사용됩니다. 이는 시그모이드가 최신 함수 내에서 구성 요소로서 어떻게 계속 관련성이 있는지 보여줍니다. SiLU 구현에 대한 PyTorch 설명서를 확인하세요.

장점과 한계

장점:

  • 확률적 해석: (0, 1) 출력 범위는 이진 분류에서 확률을 직관적으로 표현할 수 있습니다.
  • 부드러운 그라데이션: 단계 함수처럼 급격한 변화가 있는 함수와 달리 시그모이드는 부드럽고 잘 정의된 도함수를 가지고 있어 그라데이션 기반 학습을 용이하게 합니다.

제한 사항:

  • 소실 그라데이션: 입력 값이 매우 높거나 매우 낮은 경우 시그모이드 함수의 기울기는 극도로 작아집니다(0에 가까워짐). 역전파 중에 이러한 작은 기울기가 여러 레이어에 걸쳐 곱해지면 이전 레이어의 기울기가 사라져 학습이 효과적으로 중단될 수 있습니다. 이것이 바로 딥 히든 레이어에 선호되지 않는 주요 이유입니다.
  • 영점 중심 출력이 아닙니다: 출력 범위(0, 1)가 0을 중심으로 하지 않습니다. 이 경우 탄과 같은 영점 중심 함수에 비해 경사 하강 알고리즘의 수렴 속도가 느려질 수 있습니다.
  • 계산 비용: 지수 연산이 포함되므로 ReLU와 같은 간단한 함수보다 계산 비용이 약간 더 비쌉니다.

최신 사용 및 가용성

오늘날 딥 네트워크의 숨겨진 계층에서는 덜 일반적이지만, 시그모이드는 이진 분류와 다중 레이블 분류 작업에서 출력 계층의 표준 선택으로 남아 있습니다. 또한 순환신경망(RNN)의 게이팅 메커니즘에서 핵심 구성 요소로, LSTM이나 GRU와 같이 정보 흐름을 제어합니다.

시그모이드는 모든 주요 대학에서 쉽게 사용할 수 있습니다. 딥 러닝 프레임워크다음을 포함합니다. PyTorch (as torch.sigmoid) 및 TensorFlow (as tf.keras.activations.sigmoid). 다음과 같은 플랫폼 Ultralytics HUB 다양한 활성화 기능을 활용한 모델을 지원하여 사용자가 다음을 수행할 수 있도록 합니다. 기차배포 정교한 컴퓨터 비전 솔루션을 제공합니다.

모두 보기