용어집

아담 옵티마이저

아담 옵티마이저가 적응형 학습 속도, 모멘텀, AI의 실제 애플리케이션을 통해 효율적인 신경망 학습을 지원하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

Adam(적응형 순간 추정)은 딥러닝(DL)머신러닝(ML)에서 광범위하게 사용되는 최적화 알고리즘입니다. 각 매개변수에 대한 학습 속도를 개별적으로 조정하여 학습 과정에서 네트워크 가중치를 효율적으로 업데이트하도록 설계되었습니다. Diederik P. Kingma와 Jimmy Ba의 논문"Adam: 확률적 최적화를 위한 방법"에서 소개된 Adam은 다른 두 가지 인기 있는 최적화 기법의 장점을 결합한 것입니다: AdaGrad(적응형 그라디언트 알고리즘)와 RMSprop(루트 평균 제곱 전파)입니다. 이 조합은 수많은 매개변수와 복잡한 데이터 세트를 가진 대규모 신경망을 훈련하는 데 특히 효과적입니다.

아담의 작동 방식

Adam은 기울기의 첫 번째와 두 번째 모멘트의 추정치를 기반으로 각 파라미터에 대한 적응형 학습률을 계산합니다. 기본적으로 과거 기울기의 기하급수적으로 감소하는 평균(모멘텀과 유사)과 과거 제곱 기울기의 기하급수적으로 감소하는 평균(AdaGrad/RMSprop과 유사)을 추적합니다.

  • 모멘텀: 해당 방향으로 기울기 하강을 가속화하고 진동을 완화하여 더 빠른 수렴을 유도합니다.
  • 적응형 학습 속도: 과거 업데이트의 빈도와 크기에 따라 각 가중치에 대한 학습 속도를 조정합니다. 업데이트가 크거나 빈번한 매개변수는 학습 속도가 작아지고, 업데이트가 작거나 빈번하지 않은 매개변수는 학습 속도가 커집니다. 이 기능은 희박한 그라데이션이나 노이즈가 있는 데이터 문제에 특히 유용합니다.
  • 편향 보정: Adam에는 특히 감쇠 평균이 아직 초기화되는 훈련 초기 단계에서 순간 추정치의 0에 대한 초기 편향성을 상쇄하는 메커니즘이 포함되어 있습니다.

단일 고정 학습률(또는 일정에 따라 감쇠하는 학습률)을 사용하는 확률적 경사 하강(SGD)과 같은 단순한 알고리즘에 비해 아담의 파라미터별 적응은 특히 복잡한 손실 환경에서 좋은 솔루션을 더 빠르게 찾을 수 있도록 해줍니다.

아담의 장점

아담은 여러 가지 이유로 인기가 있습니다:

  • 계산 효율성: 상대적으로 적은 메모리를 필요로 하며 계산 효율이 높습니다.
  • 우수한 기본 성능: 기본 하이퍼파라미터는 다양한 문제에서 잘 작동하는 경우가 많으므로 광범위한 하이퍼파라미터 튜닝의 필요성을 줄여줍니다.
  • 대규모 문제에 적합: 컴퓨터 비전(CV)자연어 처리(NLP)에서 흔히 볼 수 있는 대규모 데이터 세트와 고차원 매개변수 공간의 문제에서 우수한 성능을 발휘합니다.
  • 비고정 목표를 처리합니다: 시간이 지남에 따라 목적 함수가 변하는 문제에 적합합니다.
  • 희박한 그라데이션에 효과적입니다: 적응형 학습 속도 덕분에 그라데이션이 희박한 시나리오에 적합합니다.

실제 사례

Adam은 많은 최신 모델의 최적화 전문가입니다:

예 1: 컴퓨터 비전

컴퓨터 비전에서 Adam은 이미지 분류, 물체 감지, 이미지 분할과 같은 작업을 위해 심층 컨볼루션 신경망(CNN)을 훈련하는 데 자주 사용됩니다. 예를 들어 Ultralytics YOLO 모델(예: COCO 데이터 세트에 있는 것과 같은 이미지에서 객체를 감지하거나 인스턴스 분할을 수행하기 위한 훈련 단계에서 효율적인 융합을 위해 Adam을 활용할 수 있습니다. 또한 종양 감지와 같은 작업을 위한 의료 이미지 분석에도 적용됩니다.

예 2: 자연어 처리

Adam은 BERTGPT 변형과 같은 대규모 언어 모델(LLM)을 훈련하기 위한 표준 최적화 프로그램입니다. 기계 번역, 텍스트 요약 또는 감정 분석과 같은 작업을 위한 모델을 학습할 때 Adam은 이러한 대규모(트랜스포머 기반) 모델과 관련된 복잡한 손실 함수 환경을 효율적으로 탐색하는 데 도움을 줍니다.

다음에서 사용 Ultralytics YOLO

Ultralytics 에코시스템 내에서, Adam과 그 변형인 AdamW(가중치 감쇠가 분리된 Adam)는 Ultralytics YOLO 모델 훈련에 사용할 수 있는 최적화 프로그램입니다. Adam의 적응형 학습 속도를 활용하면 다음과 같은 객체 감지, 인스턴스 세분화 또는 포즈 추정 모델을 학습하는 동안 수렴을 가속화할 수 있습니다. YOLO11 또는 YOLOv10과 같은 모델을 학습할 때 수렴을 가속화할 수 있습니다. SGD는 잠재적으로 더 나은 최종 일반화(과적합 방지)로 인해 일부 YOLO 모델의 기본 및 권장 최적화 도구이지만, Adam은 특정 시나리오에서 또는 초기 실험 및 모델 평가 중에 특히 유용한 강력한 대안을 제공합니다. 최적화 도구 및 기타 학습 설정을 쉽게 구성할 수 있습니다. 사용자는 로컬 또는 클라우드 트레이닝을 통해 Adam을 포함한 다양한 옵티마이저를 사용하여 모델을 트레이닝할 수 있으므로, Ultralytics HUB와 같은 도구를 사용하면 프로세스를 간소화할 수 있습니다. 다음과 같은 프레임워크 PyTorchTensorFlow 와 같은 프레임워크는 Adam의 표준 구현을 제공하며, 이러한 프레임워크는 Ultralytics 프레임워크 내에서 활용됩니다. 추가적인 성능 향상을 위해 지식 증류 또는 다양한 모델 아키텍처 탐색과 같은 기술을 고려해 보세요.

모두 보기