용어집

역전파

역전파가 어떻게 신경망을 훈련하고 오류율을 줄이며 이미지 인식 및 자연어 처리와 같은 AI 애플리케이션을 효율적으로 지원하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

'오류의 역전파'의 줄임말인 역전파는 특히 딥러닝(DL) 분야에서 인공 신경망(NN)을 훈련하기 위한 기본 알고리즘입니다. 이는 모델 훈련 과정에서 모델이 실수를 통해 학습할 수 있도록 하는 핵심 메커니즘 역할을 합니다. 이 알고리즘은 네트워크 내의 각 매개변수(예: 모델 가중치 및 편향)가 모델 예측에서 관찰되는 전체 오류에 기여하는 정도를 효율적으로 계산합니다. 그런 다음 이 기울기 정보를 최적화 알고리즘에 활용하여 매개변수를 반복적으로 조정함으로써 모델의 성능과 정확도를 점진적으로 개선합니다.

역전파의 작동 원리

역전파 프로세스는 일반적으로 입력 데이터가 네트워크를 통해 흐르면서 예측을 생성하는 초기 순방향 패스를 따릅니다. 손실 함수를 사용하여 예측값을 실제 목표 값과 비교한 후, 역전파 알고리즘은 두 가지 주요 단계로 실행됩니다:

  1. 포워드 패스: 입력 데이터는 출력 예측이 생성될 때까지 각각 가중치, 편향, 활성화 함수 (예: ReLU 또는 시그모이드)를 적용하는 뉴런 레이어를 통과하여 신경망에 공급됩니다.
  2. 백워드 패스: 알고리즘은 선택한 손실 함수를 사용하여 오차(예측값과 실제값의 차이)를 계산합니다. 그런 다음 이 오류 신호를 네트워크를 통해 계층별로 역방향으로 전파합니다. 미적분학의 연쇄 규칙을 사용하여 네트워크의 각 가중치와 편향에 대한 손실 함수의 기울기를 계산합니다. 이 기울기는 각 파라미터의 작은 변화가 전체 오류에 얼마나 영향을 미치는지를 나타냅니다. 시각적인 이해를 돕기 위해 '계산 그래프의 미적분'과 같은 리소스에서 유용한 설명을 제공합니다.

경사도가 계산되면 경사도 하강 또는 확률적 경 사도 하강(SGD) 또는 아담 최적화 도구와 같은 최적화 알고리즘이 이 경사도를 사용하여 네트워크의 weights and biases 업데이트합니다. 목표는 손실 함수를 최소화하여 네트워크가 연속적인 기간에 걸쳐 더 나은 예측을 하도록 효과적으로 학습시키는 것입니다.

딥 러닝의 중요성

역전파는 최신 딥 러닝에 없어서는 안 될 필수 요소입니다. 기울기를 계산하는 데 효율적이기 때문에 매우 깊고 복잡한 아키텍처의 학습을 계산적으로 실현할 수 있습니다. 여기에는 컴퓨터 비전(CV) 작업에 탁월한 컨볼루션 신경망(CNN)자연어 처리(NLP)에서와 같이 순차적 데이터에 일반적으로 사용되는 순환 신경망(RNN)과 같은 모델이 포함됩니다. 역전파가 없다면 GPT-4와 같은 대규모 모델이나 ImageNet과 같은 방대한 데이터 세트에서 훈련된 모델에서 수백만 개의 파라미터를 조정하는 것은 비현실적입니다. 딥러닝의 역사를 다루는 리소스에 자세히 설명되어 있듯이 딥러닝은 모델이 데이터에서 복잡한 특징과 계층적 표현을 자동으로 학습할 수 있도록 지원하며, 대중화 이후 많은 AI 발전을 뒷받침하고 있습니다. 다음과 같은 프레임워크 PyTorchTensorFlow 와 같은 프레임워크는 역전파를 구현하는 자동 차별화 엔진에 크게 의존합니다.

역전파 대 최적화 알고리즘

역전파와 최적화 알고리즘을 구별하는 것이 중요합니다. 역전파는 기울기(각 파라미터의 오류 기여도)를 계산하는 데 사용되는 방법입니다. 반면 최적화 알고리즘은 이렇게 계산된 기울기를 사용하여 손실을 최소화하기 위해 모델의 매개변수weights and biases를 업데이트하는 전략입니다. 역전파는 개선 방향을 제공하는 반면, 최적화 알고리즘은 업데이트의 단계 크기(학습 속도)방식을 결정합니다.

실제 애플리케이션

역전파는 딥러닝 모델이 학습을 거칠 때마다 암묵적으로 사용됩니다. 다음은 두 가지 구체적인 예입니다:

  1. Ultralytics YOLO 사용한 객체 감지: 교육 시 Ultralytics YOLO 모델( YOLOv8 또는 YOLO11 같은) COCO와 같은 데이터 세트에서 객체 감지를 위해 훈련할 때, 각 훈련 반복에서 역전파가 사용됩니다. 모델이 경계 상자와 클래스를 예측한 후 손실(예: 예측된 상자를 기준값과 비교)이 계산됩니다. 역전파는 모델의 백본과 탐지 헤드 전체에 걸쳐 모든 가중치에 대한 기울기를 계산합니다. 그런 다음 옵티마이저는 이러한 기울기를 사용하여 가중치를 조정함으로써 물체를 정확하게 찾고 분류하는 모델의 능력을 향상시킵니다. 사용자는 이 훈련 프로세스를 관리하기 위해 Ultralytics HUB와 같은 플랫폼을 활용하여 효율적인 역전파 구현의 이점을 누릴 수 있습니다. 이는 자율 주행 차량에서 보안 시스템에 이르는 다양한 애플리케이션에 매우 중요합니다.
  2. 자연어 처리 모델: BERTGPT 모델과 같은 대규모 언어 모델(LLM)은 역전파를 사용하여 학습됩니다. 예를 들어, 감정 분석 작업에서 모델은 주어진 텍스트의 감정(긍정, 부정, 중립)을 예측합니다. 예측된 감성과 실제 레이블의 차이는 오차 값이 됩니다. 역전파는 방대한 네트워크의 각 매개변수가 이 오류에 얼마나 기여했는지 계산합니다. 그런 다음 최적화 알고리즘이 이러한 매개변수를 업데이트하여 모델이 학습 과정에서 언어적 뉘앙스, 문맥 및 정서를 더 잘 이해할 수 있도록 합니다. 스탠포드 NLP 그룹과 같은 학술 연구 그룹은 이러한 기술을 지속적으로 탐구하고 개선하고 있습니다.
모두 보기