용어집

랜덤 포레스트

강력한 앙상블 학습 알고리즘인 랜덤 포레스트가 분류, 회귀 및 실제 AI 애플리케이션에서 어떻게 탁월한 성능을 발휘하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

랜덤 포레스트는 분류와 회귀 작업에 널리 사용되는 다재다능하고 강력한 머신 러닝(ML) 알고리즘입니다. 여러 개별 모델을 결합하여 단일 모델이 단독으로 달성할 수 있는 것보다 더 나은 예측 정확도와 견고성을 달성하는 앙상블 학습 방법군에 속합니다. 레오 브라이먼이 제안한 이 방법은 무작위성을 도입하여 의사 결정 트리의 개념을 기반으로 합니다.

랜덤 포레스트 작동 방식

랜덤 포레스트의 핵심은 훈련 단계에서 다수의 의사 결정 트리를 구성하는 방식으로 작동합니다. 각 트리는 학습 데이터의 서로 다른 무작위 하위 집합(배깅 또는 부트스트랩 집계라고 하는 기술)으로 학습되며 각 노드에서 최적의 분할을 결정하기 위해 무작위 기능 하위 집합만 사용합니다. 이러한 이중 무작위성은 트리를 데코레이션하여 앙상블을 더욱 견고하게 만드는 데 도움이 됩니다.

분류 문제의 경우, 랜덤 포레스트의 최종 출력은 모든 개별 트리의 다수결로 선택된 클래스입니다. 회귀 문제의 경우, 예측은 일반적으로 개별 트리의 평균 예측이 됩니다. 이 접근 방식은 '군중의 지혜'를 활용하여 다양한 모델 집합이 공동으로 더 정확한 예측을 내리고 단일 의사 결정 트리의 일반적인 문제인 과적합의 위험을 크게 줄입니다.

주요 특징

랜덤 포레스트를 정의하는 몇 가지 주요 측면이 있습니다:

  • 앙상블 방법: 여러 의사 결정 트리의 예측을 결합합니다.
  • 배깅: 각 트리는 원본 데이터 세트의 부트스트랩 샘플로 학습됩니다. 부트스트랩 집계(배깅)에 대해 자세히 알아보세요.
  • 특징 무작위성: 각 노드 분할 시 피처의 무작위 하위 집합만 고려합니다.
  • 분산 감소: 많은 장식 관련 트리에서 예측을 평균화하면 모델의 전체 분산이 낮아집니다.
  • 특징 중요도: 기능 중요도: 예측에 가장 큰 영향을 미치는 입력 변수를 나타내는 기능 중요도 추정치를 제공할 수 있습니다.

랜덤 포레스트의 응용

랜덤 포레스트는 정확성, 견고함, 사용 편의성으로 인해 다양한 도메인에 적용되고 있습니다. 다음은 몇 가지 구체적인 예시입니다:

  1. 금융: 금융 데이터의 복잡한 패턴을 식별하는 것이 중요한 신용 평가 및 사기 탐지 등의 업무에 광범위하게 사용됩니다.
  2. 헬스케어: 딥러닝은 이미지 기반 작업에서 주로 사용되지만, 환자 기록을 기반으로 한 질병 예측이나 이상 징후를 식별하기 위한 의료 이미지 분석과 같은 분야에도 적용되고 있습니다. 의료 분야의 AI 솔루션을 살펴보세요.

기술 및 도구

여러 유명 머신 러닝 라이브러리에서 랜덤 포레스트 알고리즘 구현을 제공합니다. 널리 사용되는 Python 라이브러리인 Scikit-learn은 하이퍼파라미터 튜닝 옵션이 포함된 포괄적인 랜덤 포레스트 구현을 제공합니다. XGBoostLightGBM과 같은 다른 라이브러리는 대규모 데이터 세트의 속도와 성능에 최적화된 트리 기반 앙상블 방법의 효율적인 구현을 제공합니다.

랜덤 포레스트는 정형 데이터나 표 형식의 데이터에는 탁월하지만, 일반적으로 딥 러닝 모델에 비해 이미지와 같은 비정형 데이터를 포함하는 작업에는 적합하지 않습니다. 객체 감지 또는 이미지 분할과 같은 최첨단 컴퓨터 비전 작업의 경우 다음과 같은 모델이 적합합니다. Ultralytics YOLO 와 같은 모델이 일반적으로 선호됩니다. 비전 AI 프로젝트의 MLOps 라이프사이클을 간소화하는 Ultralytics HUB와 같은 플랫폼을 사용하여 YOLO 모델을 훈련하고 배포할 수 있습니다. 실제 애플리케이션에 YOLO 모델을 활용하는 다양한 Ultralytics 솔루션을 살펴보세요.

모두 보기