용어집

ReLU(정류된 선형 단위)

딥러닝의 핵심 활성화 기능으로, 효율적인 신경망으로 AI와 ML을 위한 복잡한 패턴을 학습할 수 있게 해주는 ReLU의 강력한 기능을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

ReLU, 즉 정류 선형 단위는 딥러닝(DL) 및 신경망 영역에서 초석 역할을 하는 활성화 함수입니다. 이 함수가 널리 채택된 이유는 놀라운 단순성과 계산 효율성으로 인해 방대한 양의 데이터에서 복잡한 패턴을 학습하는 신경망(NN)을 크게 지원하기 때문입니다. 비선형성을 도입함으로써 네트워크가 복잡한 관계를 모델링할 수 있게 해주는 ReLU는 다음과 같은 프레임워크를 사용해 개발된 애플리케이션을 포함한 최신 인공 지능(AI)머신 러닝(ML) 애플리케이션에서 없어서는 안 될 필수 요소입니다. PyTorchTensorFlow.

ReLU 작동 방식

입력값이 양수이면 입력값을 바로 출력하고, 음수 또는 0이면 0을 출력하는 ReLU 함수의 핵심 작동 방식은 간단합니다. 이 간단한 임계값 설정 메커니즘은 신경망에 필수적인 비선형성을 도입합니다. ReLU와 같은 비선형 함수가 없다면 딥 네트워크는 단일 선형 계층처럼 작동하여 이미지 인식이나 자연어 처리(NLP)와 같은 작업에 필요한 복잡한 기능을 학습하는 능력이 크게 제한될 것입니다. 네트워크 레이어 내에서 각 뉴런은 가중치 입력 합계에 ReLU 함수를 적용합니다. 합이 양수이면 뉴런이 '발화'하고 값을 전달합니다. 합이 음수이면 뉴런은 0을 출력하여 해당 특정 입력에 대해 사실상 비활성 상태가 됩니다. 이는 희소 활성화로 이어지며, 이는 특정 시간에 뉴런의 하위 집합만 활성화되어 계산 효율성을 높이고 네트워크가 보다 강력한 특징 표현을 학습하는 데 도움이 될 수 있음을 의미합니다.

ReLU의 장점

ReLU는 딥 러닝 분야에서 인기를 굳힌 몇 가지 주요 이점을 제공합니다:

  • 계산 효율성: ReLU는 단순한 비교와 잠재적으로 값을 0으로 설정하는 것만 포함하므로 시그모이드나 탄과 같은 복잡한 활성화 함수보다 훨씬 빠르게 계산할 수 있습니다. 따라서 학습과 추론 단계의 속도가 모두 빨라집니다.
  • 소실 그라데이션을 완화합니다: 큰 양수 또는 음수 입력에 대해 기울기가 극도로 작아지는 시그모이드 및 탄 함수와 달리, ReLU는 양수 입력에 대해 일정한 1의 기울기를 갖습니다. 이는 소실 경사 문제를 완화하여 역전파 중에 경사가 더 효과적으로 흐르도록 하고 더 깊은 네트워크를 훈련할 수 있게 해줍니다.
  • 희소성을 촉진합니다: ReLU는 음수 입력에 대해 0을 출력함으로써 네트워크 내의 활성화에 희소성을 자연스럽게 유도합니다. 이러한 희소성은 생물학적 신경망에서 관찰되는 메커니즘을 반영하고 스파스 코딩과 같은 개념과 관련되어 보다 간결하고 강력한 모델을 만들 수 있습니다.

단점 및 과제

ReLU의 장점에도 불구하고 한계가 없는 것은 아닙니다:

  • 죽어가는 ReLU 문제: 뉴런은 때때로 훈련 중에 발생하는 모든 입력에 대해 지속적으로 0을 출력하는 상태에 갇힐 수 있습니다. 이는 큰 기울기 업데이트로 인해 가중치가 이동하여 뉴런의 입력이 항상 음수가 되는 경우 발생합니다. 이런 일이 발생하면 해당 뉴런을 통해 흐르는 기울기가 0이 되어 기울기 하강을 통한 가중치 업데이트가 더 이상 이루어지지 않습니다. 뉴런은 효과적으로 "죽어" 네트워크의 학습에 더 이상 기여하지 않게 됩니다.
  • 0이 아닌 중심 출력: ReLU의 출력은 항상 음수가 아닌 값(0 또는 양수)입니다. 이러한 영점 중심이 없기 때문에 영점 중심 활성화 함수에 비해 경사 하강 최적화 프로세스의 수렴 속도가 느려질 수 있습니다.

ReLU와 다른 활성화 기능 비교

ReLU는 종종 그 변형 및 다른 활성화 함수와 비교됩니다. 누수 ReLU는 입력이 음수일 때 0이 아닌 작은 기울기를 허용하여 죽어가는 ReLU 문제를 해결합니다. 지수 선형 단위(ELU)는 평균적으로 0에 가까운 출력을 생성하고 더 부드러운 그라데이션을 제공하는 것을 목표로 하는 또 다른 대안이지만 계산 비용이 더 높습니다. Swish라고도 하는 SiLU(시그모이드 선형 단위)는 다음과 같은 모델에 사용되는 또 다른 인기 있는 선택입니다. Ultralytics YOLOv8YOLOv10과 같은 모델에 사용되는 인기 있는 옵션으로, 종종 성능과 효율성 간에 좋은 균형을 제공합니다(활성화 함수 비교 참조). 최적의 선택은 종종 특정 신경망 아키텍처, 데이터 세트(예: 이미지넷), 경험적 결과에 따라 달라지며, 하이퍼파라미터 튜닝을 통해 결정되는 경우가 많습니다.

AI 및 ML 분야의 애플리케이션

ReLU는 특히 컴퓨터 비전(CV) 작업에 사용되는 컨볼루션 신경망(CNN) 에서 주로 사용되는 핵심 활성화 함수입니다. 비선형성을 효율적으로 처리할 수 있어 이미지 데이터를 처리하는 데 이상적입니다.

  • 의료 이미지 분석: 의료 분야의 AI에 사용되는 CNN은 종종 숨겨진 레이어에 ReLU를 사용합니다. 예를 들어, 종양이나 골절과 같은 이상 징후를 감지하기 위해 엑스레이나 MRI의 복잡한 시각 정보를 처리하여 방사선 전문의의 진단을 지원합니다(PubMed Central의 연구 사례). ReLU의 효율성은 대용량 의료 스캔을 빠르게 분석하는 데 매우 중요합니다.
  • 자율주행 차량: Waymo와 같은 회사에서 개발한 자율주행 차량용 시스템은 ReLU가 포함된 CNN에 크게 의존합니다. 이러한 네트워크는 실시간 물체 감지를 수행하여 보행자, 다른 차량, 교통 신호 및 차선 표시를 식별하여 안전한 내비게이션을 가능하게 합니다. 자율 주행 애플리케이션에 필요한 짧은 추론 지연 시간을 위해서는 ReLU의 속도가 매우 중요합니다.

CNN에서 널리 사용되는 ReLU는 다른 유형의 신경망에도 사용되지만, 텍스트 분류 및 기타 NLP 작업에 사용되는 Transform과 같은 아키텍처에서 변형이나 다른 기능으로 대체되기도 합니다. 다음과 같은 최신 모델 Ultralytics YOLO 와 같은 최신 모델은 종종 ReLU 변형이나 SiLU와 같은 기타 효율적인 활성화 기능을 활용합니다. 최적의 결과를 위해 모델 훈련 팁에 대한 가이드를 활용하여 Ultralytics HUB와 같은 플랫폼을 사용하여 이러한 모델을 훈련하고 배포할 수 있습니다.

모두 보기