分類、回帰、そして医療や金融などの実世界での応用のための機械学習における決定木のパワーを発見してください。
決定木は、機械学習(ML)アルゴリズムの1つで、教師あり学習に分類される。決定木は、フローチャートに似た、決定とその可能な結果をモデル化するために木のような構造を使用します。各内部ノードは属性(または特徴)のテストを表し、各枝はテストの結果を表し、各葉ノードはクラスラベル(分類タスクの場合)または連続値(回帰タスクの場合)を表す。その直感的な構造により、決定木は比較的理解しやすく、解釈しやすいことで知られており、説明可能なAI(XAI)にとって価値がある。
核となるアイデアは、入力特徴の値に基づいてデータセットをより小さなサブセットに分割し、ツリー構造を作成することである。プロセスはデータセット全体を表すルートノードから始まる。各ノードで、アルゴリズムは最適な特徴量と閾値を選択し、結果として得られるサブセットのターゲット変数に関する純度または同質性を高める方法でデータを分割する。最適な分割を見つけるための一般的な基準には、集合の無秩序またはランダム性を測定するジニ不純度および情報利得(エントロピーに基づく)が含まれる。この分割プロセスは,最大深度に達する,ノード内のサンプル数が最小になる,純粋なリーフ・ノード(1つのクラスのサンプルだけを含むノード)を達成するなどの停止基準が満たされるまで,再帰的に続けられる.新しいデータ・ポイントの予測を行うには、特徴テストの結果に基づいて、ルートからリーフ・ノードまでツリーを走査し、予測はそのリーフにおける多数クラスまたは平均値となる。注意深いデータ前処理と 特徴エンジニアリングは、決定木の性能に大きな影響を与える。
決定木は大きく2つのタイプに分類できる:
決定木にはいくつかの利点がある:
しかし、欠点もある:
決定木は様々な領域で採用されている:
決定木は、ランダムフォレストや勾配ブースティング木(XGBoostや LightGBMなど)のような、より複雑なアンサンブル手法の基礎を形成する。例えばランダムフォレストは、データと特徴の異なるサブセットに対して複数の決定木を構築し、それらの予測を集約する。決定木は多くの表データの問題に対して強力であるが、コンピュータ・ビジョンで使用される畳み込みニューラルネットワーク(CNN)やビジョン・トランスフォーマー(ViT)のようなモデルとは大きく異なる。次のようなモデル Ultralytics YOLO11のようなモデルは、物体検出、画像分類、インスタンスセグメンテーションのようなタスクに最適化されたディープラーニングアーキテクチャを活用している。決定木のような基礎的なモデルを理解することは、AIや 予測モデリングの広い視野の中で貴重な文脈を提供する。Scikit-learnのようなツールは決定木の一般的な実装を提供し、Ultralytics HUBのようなプラットフォームは高度なビジョンモデルの開発と展開を合理化します。