용어집

활성화 기능

신경망에서 활성화 함수의 역할과 유형, AI 및 머신러닝의 실제 적용 사례에 대해 알아보세요.

활성화 함수는 신경망(NN)의 기본 구성 요소로, 신경망이 복잡한 패턴을 학습하고 정교한 예측을 할 수 있도록 하는 데 중요한 역할을 합니다. 생물학적 뉴런이 발화하는 방식에서 영감을 얻은 활성화 함수는 입력의 가중치 합계를 계산하고 편향을 추가하여 뉴런을 활성화할지 여부를 결정합니다. 활성화 함수의 주요 목적은 뉴런의 출력에 비선형성을 도입하는 것으로, 이는 딥러닝(DL) 모델이 단순한 선형 관계를 넘어 복잡한 작업을 처리하는 데 필수적입니다. 비선형 활성화 함수가 없으면 심층 신경망은 단일 계층 선형 모델처럼 작동하여 학습 기능이 심각하게 제한됩니다.

비선형성이 중요한 이유

이미지, 텍스트, 사운드와 같은 실제 데이터는 본질적으로 복잡하고 비선형적입니다. 선형 변환으로만 구성된 모델로는 이러한 복잡한 관계를 효과적으로 포착할 수 없습니다. 활성화 함수는 필요한 비선형성을 도입하여 신경망이 임의의 복잡한 함수에 근사치를 구할 수 있게 해줍니다. 이 기능은 최신 인공 지능(AI)의 초석으로, 컴퓨터 비전(CV) 및 자연어 처리(NLP)와 같은 분야에서 획기적인 발전을 가능하게 합니다. 학습 과정에는 이러한 함수에 의해 도입된 속성에 의존하는 역전파 및 경사 하강과 같은 방법을 통해 네트워크 가중치를 조정하는 것이 포함됩니다.

일반적인 활성화 기능 유형

다양한 활성화 기능이 존재하며, 각 활성화 기능은 각기 다른 시나리오에 적합한 고유한 특성을 가지고 있습니다. 몇 가지 일반적인 유형은 다음과 같습니다:

시그모이드: 이 함수는 입력 값을 0과 1 사이의 범위로 압축합니다. 역사적으로 인기가 있었지만 학습 속도를 늦추거나 중단시킬 수 있는 소실 그라데이션 문제와 같은 문제로 인해 오늘날 숨겨진 레이어에서는 잘 사용되지 않습니다. 위키백과에서 수학적 정의를 참조하세요.
탄(쌍곡탄젠트): 시그모이드와 유사하지만 -1에서 1 사이의 값을 출력합니다. 영점 중심이기 때문에 시그모이드에 비해 학습에 도움이 되는 경우가 많지만 여전히 소실 그라데이션 문제가 있습니다. Wolfram MathWorld에서 그 특성을 살펴봅니다.
ReLU(정류된 선형 단위): 양수이면 입력을 직접 출력하고, 그렇지 않으면 0을 출력합니다. 계산 효율이 높고 컨볼루션 신경망(CNN)에서 널리 사용됩니다. 하지만 뉴런이 비활성 상태가 되는 '다이잉 ReLU' 문제가 발생할 수 있습니다. ReLU 논문 원본을 읽어보세요.
누수 ReLU: 입력이 음수일 때 0이 아닌 작은 기울기를 허용하는 ReLU의 변형으로, 죽어가는 ReLU 문제를 해결합니다. 자세한 내용은 코드가 있는 논문에서 확인할 수 있습니다.
SiLU(시그모이드 리니어 유닛) /스위시: 자체 게이트 활성화 기능으로, 종종 ReLU보다 더 나은 성능을 발휘합니다. 다음을 비롯한 여러 최신 아키텍처에서 사용됩니다. Ultralytics YOLO 모델을 포함하여 여러 최신 아키텍처에서 사용됩니다. SiLU 연구 논문과 그 구현은 다음에서 확인하세요. PyTorch.
가우스 오차 선형 단위(GELU): 트랜스포머 모델에서 일반적으로 사용되는 GELU는 부호가 아닌 크기에 따라 입력에 가중치를 부여합니다. 자세한 내용은 GELU 백서에서 확인할 수 있습니다.
Softmax: 일반적으로 다중 클래스 분류 작업을 위해 네트워크의 출력 계층에서 사용됩니다. 원시 점수 벡터를 각 값이 0과 1 사이이고 모든 값의 합이 1이 되는 확률 분포로 변환합니다. 소프트맥스 함수에 대한 자세한 내용은 위키백과에서 확인하세요.

올바른 활성화 기능 선택

활성화 함수의 선택은 문제 유형(예: 분류, 회귀), 특정 레이어(숨김 대 출력), 네트워크 아키텍처, 정확도 및 추론 속도와 같은 원하는 성능 특성과 같은 요인에 따라 달라집니다. ReLU와 그 변형(Leaky ReLU, SiLU)은 효율성과 소실 기울기를 완화하는 능력으로 인해 CNN의 숨겨진 레이어에 일반적으로 선택됩니다. 시그모이드와 탄은 순환 신경망(RNN)에 자주 사용되며, 소프트맥스는 다중 클래스 분류 출력에 표준으로 사용됩니다. 특정 모델과 데이터 세트에 대한 최적의 활성화 함수를 찾으려면 하이퍼파라미터 튜닝과 같은 실험과 기술이 필요한 경우가 많습니다. 다양한 모델 훈련 팁을 참고하세요.

실제 애플리케이션

활성화 기능은 다양한 AI 애플리케이션에서 매우 중요합니다:

개체 감지: 다음과 같은 모델에서 YOLO11와 같은 모델에서는 이미지에서 특징(예: 가장자리, 텍스처, 모양)을 추출하기 위해 백본의 컨볼루션 레이어 내에서 SiLU 또는 ReLU와 같은 활성화 함수가 사용됩니다. 감지 헤드에서 활성화 함수는 클래스 확률을 예측하고 감지된 객체 주변의 경계 상자 좌표를 구체화하는 데 도움이 됩니다. 이 기술은 보행자나 다른 차량을 식별하는 자율주행 차량이나 감시를 위한 보안 시스템과 같은 분야에서 필수적인 기술입니다.
음성 인식: 음성 언어를 텍스트로 변환하는 시스템에서 종종 RNN이나 트랜스포머를 사용하는 경우, 네트워크 계층 내에서 Tanh 또는 GELU와 같은 활성화 함수가 사용됩니다. 이러한 함수는 모델이 오디오 신호의 시간적 종속성과 패턴을 포착하여 정확한 전사를 가능하게 합니다. 이는 가상 비서 (예: Siri, Alexa) 및 받아쓰기 소프트웨어와 같은 애플리케이션을 구동합니다. 주요 연구 기관의 음성 인식에 대해 자세히 알아보세요.

활성화 기능

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

비선형성이 중요한 이유

일반적인 활성화 기능 유형

올바른 활성화 기능 선택

실제 애플리케이션

관련 용어와의 비교

블로그 더 보기

Ultralytics 커뮤니티 가입하기

활성화 기능

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

비선형성이 중요한 이유

일반적인 활성화 기능 유형

올바른 활성화 기능 선택

실제 애플리케이션

관련 용어와의 비교

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련