용어집

확률적 그라디언트 하강(SGD)

확률적 경사 하강이 어떻게 머신러닝 모델을 최적화하여 대규모 데이터 세트와 딥러닝 작업을 효율적으로 학습할 수 있는지 알아보세요.

확률적 경사 하강(SGD)은 머신러닝(ML)에서 기본적이고 널리 사용되는 최적화 알고리즘입니다. 이는 손실 함수를 최소화하기 위해 가중치 및 편향과 같은 내부 파라미터를 조정하여 모델을 학습시키는 데 사용되는 반복적인 방법입니다. 각 업데이트에 대해 전체 데이터 세트를 처리하는 기존의 경사 하강과 달리 SGD는 무작위로 선택된 단일 훈련 샘플만을 사용하여 매개변수를 업데이트합니다. 이러한 "확률적" 접근 방식은 훈련 프로세스를 훨씬 더 빠르고 확장 가능하게 만들며, 이는 빅 데이터로 작업할 때 특히 중요합니다. 또한 노이즈 업데이트는 모델이 오류 환경의 열악한 로컬 최소값에서 벗어나 더 나은 전체 솔루션을 찾는 데 도움이 될 수 있습니다.

확률적 그라데이션 하강 작동 방식

SGD의 핵심 아이디어는 단일 샘플의 손실 기울기를 사용하여 전체 데이터 세트에 걸쳐 계산되는 손실 함수의 실제 기울기를 근사화하는 것입니다. 이 단일 샘플 기울기는 노이즈가 있는 추정치이지만, 계산 비용이 저렴하고 평균적으로 올바른 방향을 가리킵니다. 이 과정에는 각 훈련 샘플에 대해 간단한 2단계 사이클을 반복하는 것이 포함됩니다:

  1. 기울기를 계산합니다: 단일 학습 예제에 대한 모델의 매개 변수에 대한 손실 함수의 기울기를 계산합니다.
  2. 파라미터를 업데이트합니다: 학습 속도에 따라 기울기의 반대 방향으로 매개변수를 조정합니다. 이렇게 하면 특정 샘플에 대해 오차가 더 낮은 상태로 모델이 이동합니다.

이 주기는 에포크라고 하는 전체 데이터 세트에 대해 여러 차례 반복되며 모델의 성능을 점진적으로 향상시킵니다. SGD의 효율성은 최신 딥 러닝(DL)의 초석이 되었으며, PyTorchTensorFlow와 같은 모든 주요 프레임워크에서 지원됩니다.

다른 최적화 도구 대 비교

SGD는 여러 가지 그라데이션 기반 최적화 방법 중 하나이며, 각각 고유한 장단점이 있습니다.

  • 일괄 경사 하강: 이 방법은 전체 학습 데이터 세트를 사용하여 경사도를 계산합니다. 최소값에 대한 안정적이고 직접적인 경로를 제공하지만 대규모 데이터 세트의 경우 매우 느리고 메모리 집약적이므로 대부분의 최신 애플리케이션에는 비실용적입니다.
  • 미니 배치 그라디언트 하강: 배치 GD와 SGD의 절충안입니다. 데이터의 작은 무작위 하위 집합("미니 배치")을 사용하여 파라미터를 업데이트합니다. 배치 GD의 안정성과 SGD의 효율성이 균형을 이루며 실제로 가장 일반적으로 사용되는 접근 방식입니다.
  • 아담 옵티마이저: 아담은 각 매개변수에 대해 별도의 학습 속도를 유지하고 학습이 진행됨에 따라 이를 조정하는 적응형 최적화 알고리즘입니다. SGD보다 빠르게 수렴하는 경우가 많지만, SGD가 더 나은 최소값을 찾아내고 더 나은 일반화를 제공하여 과적합을 방지하는 데 도움이 될 수 있습니다.

실제 애플리케이션

SGD와 그 변형은 다양한 영역에 걸쳐 광범위한 AI 모델을 훈련하는 데 매우 중요합니다.

  • 실시간 객체 감지 훈련: 실시간 추론을 위해 설계된 Ultralytics YOLO와 같은 모델의 경우, 훈련이 효율적이어야 합니다. 개발자는 SGD를 통해 COCO와 같은 대규모 이미지 데이터 세트 또는 Ultralytics HUB와 같은 플랫폼을 통해 관리되는 사용자 정의 데이터 세트에서 이러한 모델을 훈련할 수 있습니다. 빠른 업데이트는 배치 GD에 비해 더 빠른 수렴을 가능하게 하며, 이는 모델 개발 및 하이퍼파라미터 튜닝 중에 빠르게 반복하는 데 매우 중요합니다. 이러한 효율성은 자율 주행 차량이나 로봇 공학 같은 분야의 애플리케이션을 지원합니다.
  • 대규모 언어 모델(LLM) 학습하기: 자연어 처리(NLP) 를 위한 모델 훈련에는 종종 방대한 텍스트 데이터 세트가 포함됩니다. SGD와 그 변형은 이러한 데이터를 효율적으로 반복 처리하는 데 필수적이며, 이를 통해 GPT-4나 Hugging Face와 같은 모델이 문법, 문맥, 의미를 학습할 수 있습니다. 확률적 특성은 대규모 신경망을 훈련할 때 흔히 발생하는 문제인 복잡한 손실 환경에서 열악한 국부 최소값을 피하는 데 도움이 됩니다. 이 과정은 기계 번역이나 감정 분석과 같은 작업의 기초가 됩니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨