用語集

ライトGBM

機械学習アプリケーションで高い精度を実現する、大規模データセット向けの高速で効率的な勾配ブースティング・フレームワーク、LightGBMをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

LightGBMはLight Gradient Boosting Machineの略で、Microsoft Researchによって開発された高性能なオープンソースの勾配ブースティング・フレームワークである。機械学習(ML)において、特に大規模なデータセット(ビッグデータ)を扱う場合に、分類、回帰、ランキングなどのタスクに広く使用されている。LightGBMはその速度と効率性で有名で、他のブースティング・アルゴリズムに比べて少ないメモリ消費で高い精度を達成することが多い。LightGBMは決定木アルゴリズムに見られる概念を基に構築され、勾配ブースティング法のファミリーの一部であり、強力な予測モデルを作成するために弱い学習者のアンサンブルを繰り返し構築する。

LightGBMはいかにしてスピードと効率を実現したか

LightGBMは、パフォーマンスを最適化し、大規模データを効率的に処理するために、いくつかの革新的な技術を採用している:

  • 勾配ベースの片側サンプリング(GOSS):この方法は、勾配が大きいデータ・インスタンス(現在の予測精度が低いもの)に焦点を当て、勾配が小さいインスタンスはランダムに削除する。これにより、精度を維持しながら、各ツリーの学習に必要なデータ量を大幅に削減することができます。
  • 排他的特徴バンドル(EFB):この手法は、互いに排他的な特徴(同時に非ゼロ値をとることが少ない特徴)を束ねることで、重要な情報を失うことなく、特徴数を効果的に削減(次元削減)する。これにより、最適な分割点を見つける複雑さが軽減され、学習が高速化される。
  • 葉ごとの木の成長:レイヤーごとにツリーを拡張する従来のレベルごとの成長とは異なり、LightGBMはリーフごとにツリーを成長させる。適切な制約がない場合、オーバーフィッティングにつながることもありますが、より早く収束し、より複雑な木になる可能性があります。葉ごとの成長についての詳細は公式ドキュメントをご覧ください。

これらの最適化と、ヒストグラムベースのアルゴリズムのような技術を活用した効率的な実装を組み合わせることで、LightGBMは非常に高速でメモリ効率に優れ、標準的な最適化アルゴリズムを使用する他のフレームワークでは不可能な大規模データセットでの学習が可能になる。

LightGBMの主な特徴

LightGBMは、MLの実務者にとっていくつかの利点がある:

  • スピードと効率:他の多くのブーストフレームワークと比較して、トレーニング速度が大幅に速く、メモリ使用量が少ない。
  • 高精度:多くの場合、表形式のデータ・タスクで最先端の結果をもたらします。
  • GPU サポート: GPUでのトレーニングをサポートし、さらなる高速化を実現。
  • 並列分散トレーニング:複数のマシンに分散してトレーニングすることで、非常に大きなデータセットを扱うことができる。
  • カテゴリカル・フィーチャー処理:カテゴリフィーチャーを直接扱うことができるため、ワンホットエンコーディングのような大規模なフィーチャーエンジニアリングが不要になる場合が多い。
  • 正則化:オーバーフィッティングを防ぐための正則化(L1やL2など)のパラメータを含む。
  • 大規模データ処理:メモリに収まらないような非常に大きなデータセットを効率的に扱うように設計されています。
  • ハイパーパラメーター・チューニング: ハイパーパラメータ・チューニングによって調整できるさまざまなパラメータを提供し、特定のタスクのパフォーマンスを最適化します。

詳しい使い方や高度な機能については、LightGBMの公式ドキュメントや GitHubリポジトリを参照してください。最適な結果を得るためには、適切なデータ前処理が引き続き重要です。

他のブースト・フレームワークとの比較

LightGBMは、XGBoostや CatBoostといった他の一般的なグラデーション・ブースト・ライブラリとよく比較されます。主な違いは以下のとおりです:

  • スピード:LightGBMは、GOSSとEFB技術により、特に大規模なデータセットでは、XGBoostより速いと一般的に考えられている。CatBoostの速度は、特にカテゴリ特徴量では競合する可能性がある。
  • メモリ使用量:LightGBM は通常、XGBoost よりも少ないメモリを使用します。
  • カテゴリ特徴:CatBoostはカテゴリ特徴に対する洗練された処理を内蔵しており、多くのカテゴリ変数を持つデータセットにおいて、しばしばLightGBMやXGBoost(ワンホットエンコーディングのような前処理を必要とする)を凌駕する。LightGBMは直接的な処理を提供するが、CatBoostのアプローチよりもロバストでない可能性がある。
  • 木の成長:XGBoostとCatBoostは通常レベルごとの成長を使用しますが(XGBoostは葉ごとの成長も選択できます)、LightGBMは葉ごとの成長を使用します。
  • ハイパーパラメータ:各ライブラリには、チューニングを必要とするハイパーパラメータのセットがある。CatBoostでは、良い結果を得るためにチューニングをあまり必要としないことが多い。

これらの選択は、多くの場合、特定のデータセットの特性(サイズ、フィーチャータイプ)とプロジェクトの要件に依存します。この比較記事のようなリソースは、さらなる洞察を提供します。

実世界での応用

LightGBMの強みは、構造化データや表形式データを含む様々なアプリケーションに適していることです:

  1. 不正行為の検知金融分野(金融におけるAI)では、LightGBMは何百万もの取引記録を素早く処理し(予測モデリング)、不正行為を示す微妙なパターンをほぼリアルタイムで特定することができる。そのスピードは、タイムリーな介入にとって極めて重要である。不正検知システムは、その効率性から大きな恩恵を受けている。
  2. 予知保全:製造業者(製造業におけるAI)は、LightGBMを使用して機械からのセンサーデータを分析する。機器の性能と故障の履歴データで学習することで、モデルは潜在的な故障を事前に予測することができ、予防的なメンテナンスが可能になり、ダウンタイムが短縮されます。予知保全のコンセプトについて詳しく知る。

その他の一般的な用途としては、顧客離反予測、推薦システム、クリックスルー率予測、信用スコアリング、需要予測などがある。その性能から、Kaggleで開催されるようなデータサイエンスコンテストでも人気がある。

LightGBMは古典的なMLタスクの表データを得意としていますが、以下のようなモデルとは異なります。 Ultralytics YOLO.YOLO モデルは、非構造化画像やビデオデータ上のオブジェクト検出画像分類画像セグメンテーションなどの コンピュータビジョン(CV)タスク用に設計された、特殊なディープラーニング(DL)アーキテクチャです。Ultralytics HUBのようなプラットフォームは、このようなCVモデルの開発と展開を容易にします。LightGBMは、大規模なデータセットでのスピードと効率が最重要である構造化データの問題にとって、依然として重要なツールです。技術的な詳細については、オリジナルのLightGBM研究論文をご覧ください。

すべて読む