用語集

デシジョンツリー

決定木は、その解釈可能性、特徴の重要性、医療、金融などでの応用により、機械学習をいかに簡素化するかを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

決定木は、分類と回帰の両方のタスクに使用される機械学習の基本的なアルゴリズムである。これは、特徴値に基づいてデータを再帰的に分割し、予測につながる決定の木のような構造を作成することで機能する。ツリーの各内部ノードは特定の特徴に基づく決定を表し、各ブランチは決定の結果を表し、各リーフノードは最終的な予測または結果を表す。決定木はその解釈のしやすさと視覚化のしやすさで好まれ、データの根本的なパターンを理解するための一般的な選択肢となっている。

デシジョンツリーの仕組み

決定木は、再帰的分割と呼ばれるプロセスを通じて構築される。これは、ターゲット変数に従ってデータを最もよく分離する最も重要な特徴に基づいて、データセットをサブセットに繰り返し分割することを含む。アルゴリズムは、各ステップで情報利得を最大化するか、不純物を最小化する特徴と分割ポイントを選択する。不純度を測定するための一般的な指標としては、ジニ不純度やエントロピーがある。プロセスは、最大深度に達する、葉ごとの最小サンプル数を持つ、またはあるレベルの純度を達成するなどの停止基準が満たされるまで続けられる。

決定木の主要概念

決定木にはいくつかの重要な概念がある:

  • ルートノード:ツリーの一番上のノードで、最も重要な特徴に基づく最初の決定を表す。
  • 内部ノード:特徴に基づく決定を表すノードで、さらなる分岐につながる。
  • 枝:ノード間の接続で、決定の可能な結果を表す。
  • リーフノード:最終的な予測や結果を提供する終端ノード。
  • 分割:特徴量に基づいてノードを2つ以上のサブノードに分割するプロセス。
  • 枝刈り:重要度の低い枝を削除することで、ツリーのサイズを小さくする手法。オーバーフィッティングを防ぎ、モデルの新しいデータへの汎化能力を向上させるのに役立つ。

決定木の応用

決定木は、さまざまな業界で幅広い用途に使用されています。具体的な例を2つ紹介しよう:

  1. 医療診断:医療では、患者の症状や病歴に基づいて病気の診断を支援するために決定木が使われることがある。例えば、決定木はまず発熱の有無を尋ね、次に咳、頭痛、疲労などの他の症状を考慮して潜在的な病気を分類する。決定木の解釈可能性は、医師が診断の背後にある理由を理解することを可能にするため、医療アプリケーションにおいて特に価値がある。ヘルスケアにおけるAIの詳細については、こちらをご覧ください。
  2. クレジットスコアリング金融機関は融資の申し込みの際に、デシジョンツリーを使って信用リスクを評価する。ディシジョン・ツリーは、収入、クレジット・ヒストリー、雇用状況、既存の債務などの要因を考慮し、ローンの不履行の可能性を予測する。これは、銀行がローンの承認や金利について十分な情報に基づいた決定を下すのに役立つ。

決定木と他のアルゴリズムとの比較

決定木は強力で汎用性が高いが、しばしば他の機械学習アルゴリズムと比較される:

  • ランダムフォレスト ランダムフォレストは、複数の決定木を組み合わせて予測精度を向上させ、オーバーフィッティングを減らすアンサンブル手法である。個々の決定木は解釈しやすいが、ランダムフォレストはより複雑である。
  • サポート・ベクトル・マシン(SVM): サポートベクターマシンは、特に高次元空間での分類タスクに威力を発揮する。決定木とは異なり、SVMは超平面を作成してデータ・ポイントを異なるクラスに分離する。SVMは場合によっては決定木よりも正確だが、解釈しにくい。
  • ニューラルネットワーク: ニューラルネットワーク、特にディープラーニングモデルは、データ中の非常に複雑なパターンを捉えることができる。精度の面では決定木を上回ることが多いが、ニューラルネットワークはその解釈可能性の欠如から「ブラックボックス」とみなされている。決定木は意思決定プロセスの透明なビューを提供し、これは予測の背後にある根拠を理解することが重要なアプリケーションでは非常に重要です。より高度な技術については、ディープラーニングを探求してください。

決定木の利点と欠点

利点がある:

  • 解釈のしやすさ:決定木は、専門家でなくても理解しやすく、解釈しやすい。
  • ノンパラメトリック:基礎となるデータ分布を仮定しない。
  • 特徴の重要性:決定木は、データセットの中で最も重要な特徴を特定することができる。
  • 汎用性:カテゴリーデータも数値データも扱える。

デメリット

  • オーバーフィット:決定木は過度に複雑になり、訓練データにフィットしすぎるため、汎化がうまくいかなくなることがある。
  • 不安定:データのわずかな変化で、ツリー構造が大きく変わることがある。
  • 局所最適:再帰的分割プロセスは、大域的に最適なツリーではなく、局所的に最適な解を見つけることがある。

決定木と関連する機械学習の概念に関する詳細については、決定木に関するScikit-learnのドキュメントなどのリソースを参照するか、Ultralytics'AI glossaryで他のアルゴリズムを調べることができます。Ultralytics はコンピュータ・ビジョンと Ultralytics YOLO のような最先端のモデルを専門としていますが、決定木のような基礎的なアルゴリズムを理解することは、より高度なテクニックにとって貴重なコンテキストを提供します。物体検出の最新の進歩についてもっと知りたい方は、以下のページをご覧ください。 Ultralytics YOLO.

すべて読む