용어집

의사 결정 트리

분류, 회귀, 의료 및 금융과 같은 실제 애플리케이션을 위한 머신 러닝에서 의사 결정 트리의 강력한 기능을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

의사 결정 트리는 머신 러닝(ML) 에서 분류와 회귀 작업 모두에 사용되는 다용도로 해석 가능한 모델입니다. 각 내부 노드는 속성(특징)에 대한 테스트를 나타내고, 각 분기는 테스트 결과를 나타내며, 각 리프 노드는 클래스 레이블(분류) 또는 연속형 값(회귀)을 나타내는 순서도와 같은 기능을 합니다. 이 구조는 인간의 의사 결정 과정을 모방하여 모델이 예측에 도달하는 과정을 쉽게 시각화하고 이해할 수 있게 해줍니다.

의사 결정 트리의 작동 방식

의사 결정 트리는 여러 입력 특징을 기반으로 목표 변수의 값을 예측하는 모델을 생성하여 데이터를 학습합니다. 이는 지도 학습의 한 형태이므로 레이블이 지정된 학습 데이터가 필요합니다. 트리는 목표 변수를 가장 잘 구분하는 특징을 기반으로 데이터를 재귀적으로 분할하여 구축됩니다. CART(분류 및 회귀 트리) 및 ID3와 같은 일반적인 알고리즘은 각 노드에서 최적의 분할을 결정하기 위해 지니 불순도 또는 정보 이득과 같은 기준을 사용합니다. 이 프로세스는 최대 깊이에 도달하거나 한 클래스의 샘플만 있는 노드가 있는 등 중지 기준이 충족될 때까지 계속됩니다.

유형 및 변형

두 가지 주요 유형은 분류 트리(불연속형 클래스 레이블 예측)와 회귀 트리(연속형 숫자 값 예측)입니다. 단일 의사 결정 트리는 유용하지만 때때로 오류나 불안정성이 발생할 수 있습니다. 이 문제를 해결하기 위해 랜덤 포레스트와 같은 앙상블 방법은 여러 의사 결정 트리를 결합하여 예측 성능과 과적합에 대한 견고성을 향상시킵니다.

장점과 단점

의사 결정 트리는 여러 가지 이점을 제공합니다:

  • 해석 가능성: 플로차트 구조는 시각화하고 설명하기 쉽습니다.
  • 최소한의 데이터 준비: 다른 기술에 비해 데이터 전처리가 덜 필요하며, 숫자 데이터와 범주형 데이터를 모두 자연스럽게 처리할 수 있습니다.
  • 기능 중요도: 암시적으로 기능 선택을 수행하여 의사 결정 프로세스에서 가장 영향력 있는 기능을 나타냅니다.

하지만 단점도 있습니다:

  • 과적합: 트리가 지나치게 복잡해지고 학습 데이터에 너무 밀착되어 새로운 데이터에 잘 일반화되지 않을 수 있습니다. 트리를 단순화하고 이를 방지하기 위해 가지 치기와 같은 기법이 사용됩니다.
  • 불안정성: 데이터의 작은 변화로 인해 트리 구조가 크게 달라질 수 있습니다.
  • 편향: 데이터 집합에서 일부 클래스가 우세한 경우 트리가 편향될 수 있습니다.

실제 애플리케이션

의사 결정 트리는 다양한 분야에서 활용되고 있습니다:

  • 의료 진단: 환자의 증상과 병력을 바탕으로 질병을 예측하여 의사를 돕고 명확한 의사 결정 경로를 제공합니다. 예를 들어, 임상 데이터를 기반으로 특정 질환의 위험 요인을 파악하는 데 도움을 줄 수 있습니다(의료 분야 적용 예시). 이는 의료 분야에서 AI의 광범위한 응용 분야와 일치합니다.
  • 재무 분석: 신용 평가: 신청자 정보를 기반으로 대출 신청 위험을 평가하거나 주식 시장 움직임을 예측하는 데 사용됩니다.
  • 고객 이탈 예측: 기업은 의사 결정 트리를 사용하여 사용 패턴, 인구 통계 및 상호 작용 기록을 기반으로 이탈할 가능성이 높은 고객을 식별하여 선제적인 고객 유지 전략을 수립할 수있습니다(Kaggle과 같은 플랫폼의 예시 참조).

다른 알고리즘과의 비교

  • 랜덤 포레스트: 의사 결정 트리로 구축된 랜덤 포레스트는 여러 트리의 예측을 평균화하여 일반적으로 단일 트리보다 더 높은 정확도와 더 나은 일반화를 제공합니다.
  • 서포트 벡터 머신(SVM): SVM은 클래스를 분리하는 최적의 초평면을 찾는 것을 목표로 하며, 종종 고차원 공간에서 잘 수행되지만 의사 결정 트리의 직접적인 해석 가능성이 부족합니다.
  • 신경망(NN): 신경망, 특히 다음과 같은 모델에 사용되는 심층 신경망은Ultralytics YOLO 와 같은 모델에 사용되는 심층 신경망은 매우 복잡한 비선형 관계를 모델링할 수 있지만 일반적으로 의사 결정 트리보다 해석하기('블랙박스')가 어렵습니다.

의사 결정 트리는 단순성, 해석 가능성, 더 복잡한 모델을 위한 빌딩 블록으로서의 유용성으로 인해 ML의 기본 알고리즘으로 남아 있습니다. 의사 결정 트리는 Scikit-learn과 같이 널리 사용되는 라이브러리에서 널리 구현되어 있습니다.

모두 보기