Light Gradient Boosting Machine의 줄임말인 LightGBM은 다음에서 개발한 고성능 오픈 소스 그라데이션 부스팅 프레임워크입니다. Microsoft. 분류, 회귀, 순위 지정과 같은 작업을 위해 머신 러닝(ML) 에서 널리 사용됩니다. 특히 대규모 데이터 세트로 작업할 때 속도와 효율성이 뛰어나며, 다른 부스팅 알고리즘에 비해 메모리를 적게 사용하면서 높은 정확도를 제공하는 것으로 유명합니다. 의사 결정 트리 알고리즘에서 발견되는 개념을 기반으로 하며 그라데이션 부스팅 방법 계열에 속합니다.
LightGBM이 속도와 효율성을 달성하는 방법
LightGBM은 성능을 최적화하기 위해 몇 가지 혁신적인 기술을 사용합니다:
- 그래디언트 기반 일측 샘플링(GOSS): 이 방법은 기울기가 큰 데이터 인스턴스(일반적으로 학습되지 않은 인스턴스)에 집중하고 기울기가 작은 인스턴스는 무작위로 삭제하여 정확도를 유지하면서 학습에 필요한 데이터 양을 크게 줄입니다.
- 배타적 특징 번들링(EFB): 이 기술은 상호 배타적인 특징(희박한 데이터에서 흔히 0이 아닌 값을 동시에 취하는 경우가 거의 없는 특징)을 함께 묶어 많은 정보를 잃지 않고 특징의 수를 줄입니다.
- 잎 단위 나무 성장: XGBoost와 같은 다른 많은 알고리즘에서 사용하는 기존의 레벨 단위 성장과 달리, LightGBM은 잎 단위(수직)로 트리를 성장시킵니다. 하이퍼파라미터 튜닝을 통해 적절히 조정하지 않으면 작은 데이터 세트에서 과적합이 발생할 수 있지만, 손실이 가장 크게 감소할 것으로 예상되는 잎을 선택하기 때문에 종종 더 빠른 수렴과 더 나은 정확도로 이어지지만, 이는 종종 더 작은 데이터 세트에서 과적합으로 이어질 수 있습니다.
이러한 최적화를 통해 LightGBM은 매우 빠르고 메모리 효율이 뛰어나 다른 프레임워크에서는 불가능할 수 있는 대규모 데이터 세트에 대한 학습이 가능합니다.
LightGBM의 주요 기능
LightGBM은 ML 실무자에게 몇 가지 이점을 제공합니다:
- 빠른 트레이닝 속도: GOSS와 EFB로 인해 다른 많은 부스팅 알고리즘에 비해 훨씬 빠른 트레이닝이 가능합니다.
- 메모리 사용량 감소: 최적화된 데이터 처리와 기능 번들링으로 메모리 사용량을 줄입니다.
- 높은 정확도: 표 형식의 데이터 작업에서 종종 최신의 결과를 얻습니다.
- GPU 지원: 활용 가능 GPU 가속을 활용하여 더욱 빠르게 훈련할 수 있습니다.
- 병렬 및 분산 훈련: 여러 머신에 걸쳐 매우 큰 데이터 세트를 처리하기 위한 분산 학습을 지원합니다. 자세한 내용은 LightGBM 공식 설명서를 참조하세요.
- 범주형 피처를 처리합니다: 범주형 기능을 직접 처리할 수 있어 데이터 전처리를 간소화할 수 있습니다.
다른 부스팅 프레임워크와의 비교
LightGBM, XGBoost, CatBoost는 모두 강력한 그라데이션 부스팅 라이브러리이지만, 주요 차이점이 있습니다:
- 나무 성장: LightGBM은 잎 단위 성장을 사용하는 반면, XGBoost는 일반적으로 레벨 단위 성장을 사용합니다. 캣부스트는 무의식적 의사 결정 트리(대칭)를 사용합니다.
- 범주형 기능: LightGBM과 CatBoost에는 범주형 기능에 대한 처리 기능이 내장되어 있어 일반적으로 원핫 인코딩 또는 유사한 전처리가 필요한 XGBoost에 비해 워크플로가 간소화되는 경우가 많습니다.
- 속도 및 메모리: LightGBM은 특히 대용량 데이터 세트에서 GOSS와 EFB로 인해 XGBoost보다 더 빠르고 메모리 사용량이 적습니다. CatBoost는 특히 범주형 기능 처리 성능에서 뛰어난 경쟁력을 갖추고 있습니다.
이 중 어떤 것을 선택할지는 특정 데이터 집합의 특성과 프로젝트 요구 사항에 따라 달라집니다.
실제 애플리케이션
LightGBM의 강점은 구조화된 데이터 또는 표 형식의 데이터를 다루는 다양한 애플리케이션에 적합하다는 점입니다:
- 사기 탐지: 금융 분야에서 LightGBM은 방대한 양의 거래 데이터를 신속하게 처리하여 속도와 정확성을 활용하여 거의 실시간으로 잠재적인 사기 행위를 식별할 수 있습니다. 이는 금융 분야의 광범위한 AI 트렌드에 부합하는 것입니다.
- 클릭률(CTR) 예측: 온라인 광고 플랫폼은 대규모 사용자 행동 데이터를 기반으로 사용자가 광고를 클릭할 가능성을 예측하여 광고 게재 위치와 수익 창출을 최적화하는 데 LightGBM을 사용합니다. Kaggle 대회에서 사용 사례를 확인할 수 있습니다.
- 예측 유지보수: 산업 기계의 센서 데이터를 분석하여 잠재적인 고장을 예측함으로써 사전 예방적 유지보수 일정을 수립하고 다운타임을 줄일 수 있습니다. 이는 제조업의 AI와 같은 분야에서 매우 중요합니다.
- 의료 진단 지원: 환자 데이터(구조화된 임상 정보)를 분석하여 질병의 위험이나 결과를 예측하는 데 도움을 주어 의료 분야의 AI에 기여합니다.
LightGBM은 표 형식 데이터에 탁월하지만, 다음과 같은 모델과는 차별화됩니다. Ultralytics YOLO와 같은 모델은 비정형 이미지 데이터에 대한 객체 감지 및 이미지 분할과 같은 컴퓨터 비전 작업을 위해 설계되었습니다. 이러한 컴퓨터 비전 모델의 수명 주기를 관리하는 데는 Ultralytics HUB와 같은 도구가 도움이 됩니다. LightGBM은 정형 데이터 세트와 관련된 고전적인 ML 문제에 여전히 중요한 도구입니다.