용어집

ReLU(정류된 선형 단위)

딥러닝의 핵심 활성화 기능으로, 효율적인 신경망으로 AI와 ML을 위한 복잡한 패턴을 학습할 수 있게 해주는 ReLU의 강력한 기능을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

ReLU, 즉 정류 선형 단위는 딥러닝 및 신경망 분야의 기본 활성화 함수입니다. 네트워크가 데이터에서 복잡한 패턴을 학습할 수 있도록 하는 단순성과 효율성 때문에 널리 사용되고 있습니다. 비선형 함수인 ReLU는 신경망이 복잡한 관계를 모델링하는 데 중요한 역할을 하며, 최신 인공 지능(AI) 및 머신 러닝(ML) 애플리케이션의 초석이 됩니다.

정의

ReLU(정류 선형 단위)는 신경망에서 사용되는 활성화 함수입니다. f(x) = max(0, x)로 정의되며, 입력값이 양수이면 바로 출력하고 그렇지 않으면 0을 출력합니다. 이 간단하면서도 효과적인 함수는 네트워크에 비선형성을 도입하여 데이터의 복잡한 패턴을 학습하는 데 필수적입니다. ReLU는 부분 선형 함수로, 세그먼트 단위로 선형이며 x=0에서 동작이 변경됩니다.

ReLU 작동 방식

ReLU 활성화 함수는 음수 입력값은 모두 0으로 설정하고 양수 값은 변경하지 않고 통과시키는 방식으로 작동합니다. 신경망의 맥락에서 각 뉴런에 대해 ReLU는 수신되는 입력을 확인합니다. 뉴런에 대한 입력의 합이 양수이면 ReLU는 해당 값을 출력하여 뉴런을 활성화합니다. 합이 음수이면 ReLU는 0을 출력하여 뉴런을 비활성화합니다. 이 동작은 특정 시간에 뉴런의 하위 집합만 활성화되는 스파스 활성화를 생성하여 보다 효율적인 계산과 특징 학습으로 이어질 수 있습니다.

ReLU의 장점

ReLU는 인기 비결로 몇 가지 혜택을 제공합니다:

  • 계산 효율성: ReLU는 간단한 연산(비교 및 최대 함수)을 사용하기 때문에 계산 비용이 저렴하며, 시그모이드나 탄과 같은 복잡한 활성화 함수에 비해 훈련 및 추론 시간이 더 빠릅니다.
  • 소실 그라데이션 문제 해결: 딥 네트워크에서 그라데이션은 여러 레이어를 통해 역전파되기 때문에 매우 작아져 학습을 방해할 수 있습니다. ReLU는 양의 입력에 대해 일정한 기울기를 1로 유지함으로써 이 문제를 완화하여 더 깊은 네트워크에서 더 나은 기울기 흐름을 가능하게 합니다. 이는 물체 감지에 사용되는 Ultralytics YOLO 모델과 같은 매우 심층적인 신경망을 훈련할 때 특히 유용합니다.
  • 희소성: ReLU는 음수 입력에 대해 0을 출력함으로써 네트워크 활성화에 희소성을 생성합니다. 희소 표현은 종종 더 효율적이며 네트워크가 사소한 입력 변화에 덜 민감해지기 때문에 일반화 성능이 향상될 수 있습니다.
  • 더 빠른 수렴: 경험적 연구에 따르면 ReLU를 사용하는 네트워크는 시그모이드 또는 탄 함수를 사용하는 네트워크에 비해 훈련 중에 더 빠르게 수렴하는 경향이 있는 것으로 나타났습니다. 이는 양의 입력에 대해 선형적이고 포화되지 않은 형태의 ReLU를 사용하기 때문입니다.

ReLU의 단점

이러한 장점에도 불구하고 ReLU에는 몇 가지 한계가 있습니다:

  • 죽어가는 ReLU 문제: ReLU의 중요한 문제 중 하나는 "죽어가는 ReLU" 문제입니다. ReLU 뉴런에 큰 기울기가 흐르면서 뉴런의 입력이 지속적으로 음수가 되는 방식으로 가중치가 업데이트되면 뉴런은 0을 출력하고 뉴런을 통과하는 기울기 역시 0이 됩니다. 즉, 뉴런이 학습에 더 이상 기여하지 않게 되면서 뉴런이 사실상 '죽게' 되며, 이는 되돌릴 수 없는 상태가 될 수 있습니다.
  • 영점 중심이 아닌 출력: ReLU는 0이거나 양수인 값을 출력하므로 출력이 0을 중심으로 하지 않습니다. 이렇게 하면 이후 레이어의 뉴런이 항상 양수인 입력을 받게 되어 학습 속도가 느려질 수 있으며, 이로 인해 최적의 그라데이션 업데이트가 이루어지지 않을 수 있습니다. Tanh(쌍곡탄젠트 ) 또는 GELU(가우스 오차 선형 단위)와 같은 함수는 0을 중심으로 하는 출력을 제공하여 이러한 문제를 극복합니다.

ReLU의 애플리케이션

ReLU는 특히 컴퓨터 비전과 딥 러닝을 비롯한 다양한 AI 및 ML 애플리케이션에서 광범위하게 사용되고 있습니다:

  • 이미지 인식 및 객체 감지: ReLU는 이미지 분류객체 감지 작업에 사용되는 컨볼루션 신경망(CNN)의 표준 활성화 함수입니다. 다음과 같은 모델 Ultralytics YOLOv8 와 같은 모델은 실시간 객체 감지 분야에서 최첨단 성능을 달성하기 위해 아키텍처에 ReLU 또는 그 변형을 활용하는 경우가 많습니다. 예를 들어, 스마트 리테일 재고 관리에서는 YOLO 모델이 시각 데이터를 효율적으로 처리하여 제품을 식별하고 계산할 수 있도록 ReLU를 지원합니다.
  • 자연어 처리(NLP): 컴퓨터 비전보다는 덜 일반적이지만, ReLU와 그 변형은 비선형성을 도입하고 계산 효율성을 개선하기 위해 일부 NLP 모델, 특히 트랜스포머 아키텍처 내의 피드포워드 네트워크에서도 사용됩니다. 예를 들어, 감정 분석이나 텍스트 생성 작업에서는 텍스트 데이터를 처리하기 위해 신경망의 특정 계층에서 ReLU를 사용할 수 있습니다.

ReLU와 누수 ReLU 비교

누수 ReLU는 "죽어가는 ReLU" 문제를 해결하기 위해 고안된 ReLU의 변형입니다. 음수 입력에 대해 정확히 0을 출력하는 ReLU와 달리, 누수 ReLU는 입력이 음수일 때 입력의 작은 선형 성분(예: 0.01x)을 출력합니다. 음수 입력에 대한 이 작은 기울기는 뉴런이 완전히 "죽지"않고 입력이 음수인 경우에도 학습할 수 있도록 보장합니다. 누수 ReLU는 때때로 성능과 안정성을 향상시킬 수 있지만, 표준 ReLU는 단순성과 계산 효율성으로 인해 많은 애플리케이션에서 강력하고 널리 효과적인 선택으로 남아 있습니다.

관련 개념

  • 활성화 함수: ReLU는 일종의 활성화 함수로, 신경망에 비선형성을 도입하여 복잡한 관계를 학습할 수 있도록 합니다. 다른 일반적인 활성화 함수로는 시그모이드, , 소프트맥스 등이 있습니다.
  • 딥 러닝(DL): ReLU는 여러 계층으로 구성된 심층 신경망을 활용하여 데이터의 계층적 표현을 학습하는 딥러닝 모델의 기본 구성 요소입니다.
  • 신경망(NN): ReLU는 신경망의 구성 요소로, 뉴런이 입력 데이터를 처리하고 변환하는 활성화 기능의 역할을 합니다.
  • 경사 하강: ReLU의 특성, 특히 양의 입력에 대한 일정한 경사도는 신경망을 훈련하는 데 사용되는 경사 하강 최적화 알고리즘에 유용합니다.
  • 소실 그라디언트 문제: ReLU는 심층 신경망 훈련의 일반적인 문제인 소실 경사 문제를 완화하는 데 도움이 됩니다.
  • 죽어가는 ReLU 문제: ReLU는 사라지는 그라데이션을 해결하지만, 누수 ReLU와 같은 변형을 통해 완화되는 죽어가는 ReLU 문제가 발생합니다.
  • 누수 ReLU: 누수 ReLU는 음수 입력에 대해 0이 아닌 작은 기울기를 허용하여 뉴런이 비활성화되는 것을 방지하도록 설계된 ReLU의 수정 버전입니다.
모두 보기