用語集

デシジョンツリー

分類、回帰、そして医療や金融などの実世界での応用のための機械学習における決定木のパワーを発見してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

決定木は、機械学習(ML)アルゴリズムの1つで、教師あり学習に分類される。決定木は、フローチャートに似た、決定とその可能な結果をモデル化するために木のような構造を使用します。各内部ノードは属性(または特徴)のテストを表し、各枝はテストの結果を表し、各葉ノードはクラスラベル(分類タスクの場合)または連続値(回帰タスクの場合)を表す。その直感的な構造により、決定木は比較的理解しやすく、解釈しやすいことで知られており、説明可能なAI(XAI)にとって価値がある。

デシジョンツリーの仕組み

核となるアイデアは、入力特徴の値に基づいてデータセットをより小さなサブセットに分割し、ツリー構造を作成することである。プロセスはデータセット全体を表すルートノードから始まる。各ノードで、アルゴリズムは最適な特徴量と閾値を選択し、結果として得られるサブセットのターゲット変数に関する純度または同質性を高める方法でデータを分割する。最適な分割を見つけるための一般的な基準には、集合の無秩序またはランダム性を測定するジニ不純度および情報利得(エントロピーに基づく)が含まれる。この分割プロセスは,最大深度に達する,ノード内のサンプル数が最小になる,純粋なリーフ・ノード(1つのクラスのサンプルだけを含むノード)を達成するなどの停止基準が満たされるまで,再帰的に続けられる.新しいデータ・ポイントの予測を行うには、特徴テストの結果に基づいて、ルートからリーフ・ノードまでツリーを走査し、予測はそのリーフにおける多数クラスまたは平均値となる。注意深いデータ前処理と 特徴エンジニアリングは、決定木の性能に大きな影響を与える。

決定木の種類

決定木は大きく2つのタイプに分類できる:

  • 分類木:ターゲット変数がカテゴリカル(例えば、'spam'または'not spam'の予測)である場合に使用される。リーフ・ノードはクラス・ラベルを表す。
  • 回帰木:ターゲット変数が連続的なときに使用される(たとえば、住宅価格の予測)。リーフ・ノードは予測される数値を表し、多くの場合、そのリーフに到達するトレーニング・サンプルのターゲット値の平均である。

メリットとデメリット

決定木にはいくつかの利点がある:

  • 解釈しやすさ:グラフィカルな構造により、視覚化しやすく理解しやすい。
  • 最小限のデータ準備:他のアルゴリズムと比較して、データの 正規化が少なくて済むなど、データのクリーニングが少なくて済むことが多い。
  • 非線形データを扱う:特徴量とターゲット変数の間の非線形関係を捉えることができる。
  • 特徴の重要性:特徴量の重要度は、その特徴量がどの程度早く、あるいは頻繁に分割に使用されるかに基づいて決定される。

しかし、欠点もある:

  • オーバーフィッティング:決定木は簡単に複雑になりすぎ、学習データのノイズを取り込み、未知のテストデータでの汎化がうまくいかなくなる。枝刈りや木の成長に制約を設定するなどのテクニックは、オーバーフィッティングを軽減するのに役立ちます。
  • 不安定:データのわずかな変化により、まったく異なるツリーが生成されることがある。
  • バイアス:データセットが不均衡な場合、ツリーはより多くのレベルまたは支配的なクラスを持つ特徴に偏る可能性があります。

実世界での応用

決定木は様々な領域で採用されている:

  1. 医療診断:患者の症状や検査結果に基づいて診断を提案するモデルを作成し、医師を支援する。例えば、症状について逐次質問することで、ツリーが診断を導くことができる(ヘルスケアアプリケーションにおけるAI)。
  2. 顧客離れの予測:企業は決定木を使って、利用パターン、デモグラフィック、インタラクション履歴に基づいて、サービスの利用をやめる可能性の高い顧客を特定し、ターゲットを絞ったリテンション活動を可能にする(Predicting Customer Churn)。
  3. 金融リスク評価:収入、負債、信用履歴などの要因を分析することによって信用力を評価する(金融におけるコンピュータ・ビジョン・モデル)。
  4. 製造品質管理:センサーの読み取り値やプロセスパラメータに基づいて製品の潜在的な欠陥を特定する(Improving Manufacturing with Computer Vision)。

他のモデルとの関係

決定木は、ランダムフォレストや勾配ブースティング木(XGBoostや LightGBMなど)のような、より複雑なアンサンブル手法の基礎を形成する。例えばランダムフォレストは、データと特徴の異なるサブセットに対して複数の決定木を構築し、それらの予測を集約する。決定木は多くの表データの問題に対して強力であるが、コンピュータ・ビジョンで使用される畳み込みニューラルネットワーク(CNN)やビジョン・トランスフォーマー(ViT)のようなモデルとは大きく異なる。次のようなモデル Ultralytics YOLO11のようなモデルは、物体検出画像分類インスタンスセグメンテーションのようなタスクに最適化されたディープラーニングアーキテクチャを活用している。決定木のような基礎的なモデルを理解することは、AIや 予測モデリングの広い視野の中で貴重な文脈を提供する。Scikit-learnのようなツールは決定木の一般的な実装を提供し、Ultralytics HUBのようなプラットフォームは高度なビジョンモデルの開発と展開を合理化します。

すべて読む