용어집

드롭아웃 레이어

드롭아웃 레이어가 일반화, 견고성, 모델 성능을 개선하여 신경망의 과적합을 방지하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

드롭아웃 레이어는 과적합 문제를 해결하기 위해 신경망(NN) 훈련에 사용되는 기본 기법입니다. Hinton 등이 2014년 영향력 있는 논문에서 소개한 드롭아웃은 딥러닝(DL)에서 널리 채택된 정규화 방법으로, 특히 매개변수가 많은 대규모 네트워크에서 효과적입니다. 드롭아웃의 주요 목표는 모델의 일반화 능력을 향상시켜 학습 데이터뿐만 아니라 보이지 않는 데이터에서도 잘 작동하도록 하는 것입니다.

드롭아웃 작동 방식

모델 훈련 과정에서 드롭아웃 레이어는 각 훈련 샘플에 대해 해당 레이어의 뉴런(단위)의 일부를 무작위로 "드롭아웃" 또는 비활성화합니다. 즉, 이렇게 선택된 뉴런의 출력은 0으로 설정되며, 해당 특정 샘플에 대한 포워드 패스에 기여하거나 역전파 단계에 참여하지 않습니다. 탈락할 뉴런의 비율은 일반적으로 0.2에서 0.5 사이로 설정되는 하이퍼파라미터인 드롭아웃 비율에 의해 결정됩니다.

결정적으로 드롭아웃은 훈련 중에만 활성화됩니다. 테스트 데이터에 대한 추론이나 예측 중에는 모든 뉴런이 활성화됩니다. 훈련 중보다 추론 중에 더 많은 뉴런이 활성화된다는 사실을 보완하기 위해 일반적으로 드롭아웃 비율만큼 레이어의 출력이 축소됩니다(역 드롭아웃이라고 하는 기법으로, 일반적으로 다음과 같은 프레임워크에서 구현됨). PyTorchTensorFlow).

드롭아웃 사용의 이점

드롭아웃 레이어를 사용하면 모델 일반화를 개선하고 과적합을 줄일 수 있다는 것이 핵심 이점입니다. 이는 몇 가지 메커니즘을 통해 달성됩니다:

  • 공동 적응 감소: 드롭아웃은 뉴런을 무작위로 삭제함으로써 레이어 내의 유닛이 훈련 중 오류를 수정하기 위해 서로 지나치게 의존(공동 적응)하는 것을 방지합니다. 이렇게 하면 각 뉴런이 스스로 유용한 더 강력하고 독립적인 기능을 학습할 수 있습니다.
  • 암시적 앙상블: 훈련 중에 드롭아웃을 적용하는 것은 가중치를 공유하는 여러 개의 서로 다른 "얇아진" 신경망을 훈련하는 것과 비슷합니다. 추론 시에는 활성화가 확장된 전체 네트워크를 사용하면 이 대규모 앙상블의 예측 평균을 근사화할 수 있으므로 일반적으로 성능과 견고성이 향상됩니다.
  • 계산 효율성: 개념적으로는 여러 모델을 훈련하는 것과 유사하지만, 드롭아웃은 단일 모델 훈련 주기 내에서 이러한 앙상블 효과를 달성하므로 명시적 모델 앙상블보다 계산 비용이 훨씬 저렴합니다.

실제 애플리케이션

드롭아웃은 인공지능(AI)머신러닝(ML)의 다양한 영역에서 널리 사용되고 있습니다:

  1. 컴퓨터 비전: 컴퓨터 비전(CV)에서 드롭아웃은 다음과 같은 모델에 도움이 됩니다. Ultralytics YOLO 와 같은 모델이 객체 감지, 이미지 분류, 인스턴스 세분화와 같은 작업을 더 잘 수행할 수 있도록 도와줍니다. 예를 들어 , 자율 주행 시스템에서 드롭아웃은 감지 모델을 조명, 날씨 또는 폐색의 변화에 더욱 강력하게 만들어 안전성과 신뢰성을 향상시킬 수 있습니다. 이러한 모델의 훈련은 Ultralytics HUB와 같은 플랫폼을 사용하여 효과적으로 관리할 수 있습니다.
  2. 자연어 처리(NLP): 드롭아웃은 일반적으로 TransformersBERT와 같은 NLP 모델에 적용됩니다. 기계 번역이나 감정 분석과 같은 애플리케이션에서 드롭아웃은 모델이 학습 데이터의 특정 구문이나 문장 구조를 암기하지 않도록 하여 더 나은 이해와 새로운 텍스트 생성으로 이어집니다. 이를 통해 챗봇과 텍스트 요약 도구의 성능이 향상됩니다.

관련 개념 및 차이점

드롭아웃은 딥러닝에서 정규화에 사용되는 여러 기술 중 하나입니다. 다른 기술로는 다음과 같은 것들이 있습니다:

  • L1 및 L2 정규화: 이 방법은 모델 가중치의 크기에 따라 손실 함수에 페널티를 추가하여 가중치가 작아지도록 유도합니다. L1/L2 정규화에 대해 자세히 알아보세요.
  • 배치 정규화: 배치 정규화(BN)는 레이어 내의 활성화를 정규화하여 학습을 안정화하고 때로는 가벼운 정규화 효과를 제공하여 잠재적으로 강력한 드롭아웃의 필요성을 줄일 수 있습니다. BN은 내부 공변량 이동을 처리하는 반면, 드롭아웃은 중복을 강제함으로써 모델 복잡성을 직접적으로 목표로 합니다.
  • 데이터 증강: 이미지 회전, 크기 조정 또는 자르기(데이터 증강)와 같은 기술은 훈련 데이터 세트의 다양성을 인위적으로 증가시켜 과적합을 방지하고 일반화를 개선하는 데 도움이 됩니다. 드롭아웃과 데이터 증강은 종종 함께 사용됩니다.

요약하면, 드롭아웃 레이어는 컴퓨터 비전부터 자연어 처리(NLP)에 이르기까지 다양한 애플리케이션에서 강력한 딥러닝 모델을 학습하는 데 필수적인 간단하면서도 강력한 정규화 기법입니다.

모두 보기