용어집

의사 결정 트리

분류, 회귀, 의료 및 금융과 같은 실제 애플리케이션을 위한 머신 러닝에서 의사 결정 트리의 강력한 기능을 알아보세요.

의사 결정 트리는 지도 학습의 범주에 속하는 다용도로 널리 사용되는 머신 러닝(ML) 알고리즘입니다. 의사 결정 트리는 순서도와 유사한 트리 구조를 사용하여 의사 결정과 그에 따른 가능한 결과를 모델링합니다. 각 내부 노드는 속성(또는 특징)에 대한 테스트를 나타내고, 각 가지는 테스트의 결과를 나타내며, 각 리프 노드는 분류 작업에서 클래스 레이블 또는 연속값(회귀 작업에서)을 나타냅니다. 의사 결정 트리는 직관적인 구조로 인해 상대적으로 이해하고 해석하기 쉬운 것으로 알려져 있어 설명 가능한 AI(XAI)에 유용합니다.

의사 결정 트리의 작동 방식

핵심 아이디어는 입력된 특징의 값에 따라 데이터 집합을 점점 더 작은 하위 집합으로 분할하여 트리 구조를 만드는 것입니다. 이 프로세스는 전체 데이터 세트를 나타내는 루트 노드에서 시작됩니다. 각 노드에서 알고리즘은 대상 변수에 대한 결과 하위 집합의 순도 또는 동질성을 높이는 방식으로 데이터를 분할하기 위해 최적의 특징과 임계값을 선택합니다. 최적의 분할을 찾기 위한 일반적인 기준으로는 집합의 무질서 또는 무작위성을 측정하는 지니 불순도 및 정보 이득(엔트로피 기반)이 있습니다. 이 분할 프로세스는 최대 깊이에 도달하거나, 노드에 최소 샘플 수가 있거나, 순수 리프 노드(한 클래스의 샘플만 포함된 노드)에 도달하는 등 중지 기준이 충족될 때까지 재귀적으로 계속됩니다. 새 데이터 포인트에 대한 예측을 하기 위해 특징 테스트의 결과를 기반으로 루트에서 리프 노드까지 트리를 탐색하며 해당 리프의 다수 클래스 또는 평균값이 예측값이 됩니다. 신중한 데이터 전처리와 피처 엔지니어링은 의사 결정 트리의 성능에 큰 영향을 미칠 수 있습니다.

의사 결정 트리의 유형

의사 결정 트리는 크게 두 가지 유형으로 분류할 수 있습니다:

분류 트리: 대상 변수가 범주형일 때 사용됩니다(예: '스팸' 또는 '스팸 아님'을 예측하는 경우). 리프 노드는 클래스 레이블을 나타냅니다.
회귀 트리: 목표 변수가 연속적인 경우(예: 집값 예측) 사용됩니다. 리프 노드는 예측된 수치 값을 나타내며, 종종 해당 리프에 도달하는 훈련 샘플의 목표 값의 평균을 나타냅니다.

장점과 단점

의사 결정 트리는 여러 가지 이점을 제공합니다:

해석 가능성: 그래픽 구조로 시각화 및 이해가 쉽습니다.
최소한의 데이터 준비: 데이터 정규화가 덜 필요한 등 다른 알고리즘에 비해 데이터 정리가 덜 필요한 경우가 많습니다.
비선형 데이터를 처리합니다: 특징과 대상 변수 간의 비선형 관계를 캡처할 수 있습니다.
피처 중요도: 본질적으로 기능이 얼마나 일찍 또는 얼마나 자주 분할에 사용되는지에 따라 기능 중요도를 측정합니다.

하지만 단점도 있습니다:

과적합: 의사 결정 트리는 너무 복잡해지기 쉽고 학습 데이터에 노이즈를 포착하여 보이지 않는 테스트 데이터에 대한 일반화가 제대로 이루어지지 않을 수 있습니다. 가지 치기 또는 트리 성장에 대한 제약 조건 설정과 같은 기술은 과적합을 완화하는 데 도움이 됩니다.
불안정성: 데이터의 작은 변화로 인해 완전히 다른 트리가 생성될 수 있습니다.
편향: 데이터 집합이 불균형한 경우 트리가 더 많은 레벨 또는 지배적인 클래스를 가진 피처에 편향될 수 있습니다.

실제 애플리케이션

의사 결정 트리는 다양한 영역에서 사용됩니다:

의료 진단: 환자의 증상과 검사 결과를 바탕으로 진단을 제안하는 모델을 만들어 의사를 보조합니다. 예를 들어, 트리는 증상에 대해 순차적으로 질문하여 진단을 안내할 수 있습니다(의료 애플리케이션의 AI).
고객 이탈 예측: 기업은 의사 결정 트리를 사용하여 사용 패턴, 인구 통계 및 상호 작용 기록을 기반으로 서비스 사용을 중단할 가능성이 높은 고객을 식별하여 타겟팅된 고객 유지 노력을 기울일 수 있습니다(고객 이탈 예측).
재무 위험 평가: 소득, 부채, 신용 기록과 같은 요소를 분석하여 신용도를 평가합니다(금융 분야의 컴퓨터 비전 모델).
제조 품질 관리: 센서 판독값 또는 프로세스 매개변수를 기반으로 제품의 잠재적 결함 식별(컴퓨터 비전으로 제조 개선).

다른 모델과의 관계

의사 결정 트리는 랜덤 포레스트와 그라데이션 부스트 트리(예: XGBoost 또는 LightGBM)와 같은 더 복잡한 앙상블 방법의 기초를 형성합니다. 예를 들어, 랜덤 포리스트는 데이터와 특징의 서로 다른 하위 집합에 대해 여러 의사 결정 트리를 구축하고 예측을 집계하여 단일 트리에 비해 과적합에 대한 정확도와 견고성을 향상시키는 경우가 많습니다. 의사 결정 트리는 많은 표 형식 데이터 문제에 강력하지만, 컴퓨터 비전에서 사용되는 컨볼루션 신경망(CNN) 이나 비전 트랜스포머(ViT) 와 같은 모델과는 크게 다릅니다. 다음과 같은 모델 Ultralytics YOLO11 와 같은 모델은 단일 의사 결정 트리의 효율성이 떨어지는 영역인 이미지와 같은 복잡하고 고차원적인 데이터를 처리하는 객체 감지, 이미지 분류, 인스턴스 분할 등의 작업에 최적화된 딥 러닝 아키텍처를 활용합니다. 의사 결정 트리와 같은 기본 모델을 이해하면 AI 및 예측 모델링의 더 넓은 영역에서 중요한 맥락을 파악할 수 있습니다. Scikit-learn과 같은 도구는 의사 결정 트리를 위한 대중적인 구현을 제공하며, Ultralytics HUB와 같은 플랫폼은 고급 비전 모델의 개발과 배포를 간소화합니다.

의사 결정 트리

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

의사 결정 트리의 작동 방식

의사 결정 트리의 유형

장점과 단점

실제 애플리케이션

다른 모델과의 관계

블로그 더 보기

Ultralytics 커뮤니티 가입하기

의사 결정 트리

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

의사 결정 트리의 작동 방식

의사 결정 트리의 유형

장점과 단점

실제 애플리케이션

다른 모델과의 관계

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련