용어집

의사 결정 트리

분류, 회귀, 의료 및 금융과 같은 실제 애플리케이션을 위한 머신 러닝에서 의사 결정 트리의 강력한 기능을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

의사 결정 트리는 분류와 회귀 작업 모두에 사용되는 머신 러닝의 기본 알고리즘입니다. 각 내부 노드는 특징(또는 속성)을, 각 가지는 의사 결정 규칙을, 각 리프 노드는 결과를 나타내는 트리와 같은 구조입니다. 이 구조는 인간의 의사 결정 과정을 모방하도록 설계되어 직관적이고 이해하기 쉽습니다. 의사 결정 트리는 단순성, 해석 가능성, 수치 데이터와 범주형 데이터를 모두 처리할 수 있는 능력으로 인해 인기가 높습니다. 의료, 금융, 마케팅 등 다양한 분야에서 진단, 위험 평가, 고객 세분화 등의 업무에 널리 사용되고 있습니다.

주요 개념 및 구조

의사 결정 트리는 재귀적 파티셔닝이라는 프로세스를 통해 구축됩니다. 여기에는 다양한 특징의 값에 따라 데이터를 하위 집합으로 분할하는 작업이 포함됩니다. 목표는 목표 변수와 관련하여 가능한 한 동질적인 하위 집합을 만드는 것입니다.

  • 루트 노드: 트리의 최상위 노드로, 초기 결정 지점 또는 데이터를 가장 잘 분할하는 기능을 나타냅니다.
  • 내부 노드: 데이터 집합의 특징을 나타내는 노드 및 추가 노드로 분기하는 노드입니다.
  • 브랜치: 부모 노드에서 피처의 가능한 값을 나타내는 노드 간의 연결입니다.
  • 리프 노드: 최종 결과 또는 예측 값을 나타내는 터미널 노드입니다.

의사 결정 트리 구축

의사 결정 트리를 구축하는 과정에는 각 노드에서 데이터를 분할하는 데 가장 적합한 기능을 선택하는 작업이 포함됩니다. 이 선택은 결과 하위 집합의 동질성을 측정하는 기준에 따라 이루어집니다. 일반적인 기준은 다음과 같습니다:

  • 지니 불순물: 무작위로 선택한 요소를 잘못 분류할 확률을 측정한 값입니다.
  • 정보 획득: 엔트로피의 개념을 기반으로 기능에 대한 지식이 주어졌을 때 목표 변수에 대한 불확실성의 감소를 측정합니다.
  • 분산 감소: 회귀 작업에 사용되며, 대상 변수의 분산 감소를 측정합니다.

의사 결정 트리 및 기타 머신 러닝 모델의 성능을 최적화하기 위한 하이퍼파라미터 튜닝에 대해 자세히 알아보세요.

의사 결정 트리의 장점

의사 결정 트리는 해석 가능성과 사용 편의성 때문에 선호됩니다. 의사 결정 트리는 광범위한 데이터 전처리 없이 숫자 데이터와 범주형 데이터를 모두 처리할 수 있습니다. 또한 의사 결정 트리는 기능 간의 비선형 관계와 상호 작용을 포착할 수 있어 다양한 애플리케이션에 다용도로 사용할 수 있습니다. 의사 결정 트리의 시각적 특성 덕분에 의사 결정 과정을 쉽게 이해할 수 있으며, 이는 의료 이미지 분석이나 금융과 같이 투명성이 중요한 분야에서 특히 유용합니다.

실제 애플리케이션

의사 결정 트리는 다양한 실제 애플리케이션에서 활용되어 그 다양성과 효율성을 입증하고 있습니다.

의료 진단

의료 분야에서 의사 결정 트리는 환자의 증상과 검사 결과를 바탕으로 질병을 진단하는 데 사용됩니다. 예를 들어 의사 결정 트리는 나이, BMI, 가족력, 혈당 수치와 같은 요소를 바탕으로 환자의 당뇨병 가능성을 판단하는 데 도움이 될 수 있습니다. 의사들은 트리 구조를 통해 명확한 의사 결정 경로를 따라 진단을 내릴 수 있습니다. AI가 의료 영상을 어떻게 개선하고 있는지 살펴보세요.

신용 점수

금융 기관은 의사 결정 트리를 사용하여 신용 위험을 평가합니다. 의사 결정 트리는 소득, 신용 기록, 고용 상태, 대출 금액 등의 요소를 분석하여 대출자가 대출을 불이행할 확률을 예측할 수 있습니다. 이를 통해 은행은 정보에 입각한 대출 결정을 내리고 리스크를 효과적으로 관리할 수 있습니다. 금융 분야에서의 AI 활용에 대해 자세히 알아보세요.

의사 결정 트리와 다른 알고리즘 비교

의사 결정 트리는 강력하지만 다른 머신 러닝 알고리즘과 비교되는 경우가 많습니다.

도전 과제와 한계

의사 결정 트리는 장점에도 불구하고 한계가 있습니다. 특히 트리가 매우 깊을 경우 과적합이 발생하기 쉽습니다. 과적합은 트리가 학습 데이터의 노이즈를 포착하여 보이지 않는 새로운 데이터에 대한 일반화가 제대로 이루어지지 않을 때 발생합니다. 가지치기, 잎당 최소 샘플 수 설정 또는 트리의 최대 깊이 제한과 같은 기술을 사용하면 이 문제를 완화하는 데 도움이 될 수 있습니다. 과적합에 대해 자세히 알아보세요.

또한 의사 결정 트리는 각 노드의 단일 피처를 기반으로 의사 결정을 내리기 때문에 데이터의 가장 복잡한 관계를 항상 포착하지 못할 수도 있습니다. 랜덤 포레스트그라데이션 부스팅과 같은 앙상블 방법은 여러 의사 결정 트리를 결합하여 더 나은 예측 성능을 제공할 수 있습니다.

객체 감지 모델과 그 성능에 대해 자세히 알아보려면 Ultralytics YOLO 모델 설명서를 참조하세요.

모두 보기