Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

LightGBM

Khám phá LightGBM, một framework tăng cường độ dốc hiệu năng cao dành cho dữ liệu có cấu trúc. Tìm hiểu cách nó mang lại tốc độ huấn luyện nhanh hơn và độ chính xác cao hơn cho các tác vụ học máy.

Light Gradient Boosting Machine, thường được gọi là LightGBM, là một khung phần mềm tăng cường độ dốc phân tán mã nguồn mở được phát triển bởi Microsoft , sử dụng các thuật toán học dựa trên cây. Nó được thiết kế để hoạt động phân tán và hiệu quả với các ưu điểm sau: tốc độ huấn luyện nhanh hơn và hiệu quả cao hơn, sử dụng bộ nhớ ít hơn, độ chính xác tốt hơn, hỗ trợ xử lý song song và... GPU Khả năng học hỏi và xử lý dữ liệu quy mô lớn. Trong bối cảnh rộng lớn hơn của học máy (ML) , nó đóng vai trò là một công cụ mạnh mẽ cho việc xếp hạng, phân loại và nhiều nhiệm vụ học máy khác. LightGBM đặc biệt được ưa chuộng trong các ứng dụng khoa học dữ liệu cạnh tranh và công nghiệp, nơi tốc độ và hiệu suất trên dữ liệu có cấu trúc là tối quan trọng.

Cách thức hoạt động của LightGBM

Về bản chất, LightGBM là một phương pháp kết hợp các dự đoán từ nhiều cây quyết định để đưa ra dự đoán cuối cùng. Không giống như các thuật toán boosting truyền thống phát triển cây theo từng cấp độ (theo chiều ngang), LightGBM sử dụng chiến lược phát triển theo từng lá (theo chiều dọc). Điều này có nghĩa là nó chọn lá có tổn thất delta lớn nhất để phát triển. Cách tiếp cận này có thể giảm tổn thất đáng kể hơn so với thuật toán theo từng cấp độ, dẫn đến độ chính xác cao hơn và hội tụ nhanh hơn.

Để duy trì tốc độ mà không làm giảm độ chính xác, LightGBM sử dụng hai kỹ thuật mới: Lấy mẫu một phía dựa trên độ dốc (Gradient-based One-Side Sampling - GOSS) và Gom nhóm đặc trưng độc quyền (Exclusive Feature Bundling - EFB). GOSS loại bỏ một phần đáng kể các trường hợp dữ liệu có độ dốc nhỏ, tập trung quá trình huấn luyện vào các ví dụ khó học hơn. EFB gom nhóm các đặc trưng loại trừ lẫn nhau để giảm số lượng đặc trưng một cách hiệu quả. Những tối ưu hóa này cho phép khung phần mềm xử lý lượng lớn dữ liệu huấn luyện một cách nhanh chóng trong khi vẫn duy trì mức tiêu thụ bộ nhớ thấp.

Phân biệt LightGBM với các mô hình khác

Để chọn được công cụ phù hợp, việc so sánh LightGBM với các framework phổ biến khác trong lĩnh vực học máy là rất hữu ích.

  • So sánh LightGBM và XGBoost : Cả hai đều là thư viện tăng cường gradient mạnh mẽ. Tuy nhiên, XGBoost thường sử dụng chiến lược tăng trưởng theo từng cấp độ, thường ổn định hơn nhưng chậm hơn. Phương pháp tăng trưởng theo từng lá của LightGBM nhìn chung nhanh hơn và tiết kiệm bộ nhớ hơn, mặc dù có thể cần điều chỉnh siêu tham số cẩn thận để tránh hiện tượng quá khớp trên các tập dữ liệu nhỏ.
  • So sánh LightGBM và Ultralytics YOLO : LightGBM là tiêu chuẩn cho dữ liệu có cấu trúc (dạng bảng), trong khi Ultralytics YOLO26 là một khung học sâu (DL) được thiết kế cho dữ liệu phi cấu trúc như hình ảnh và video. Mặc dù LightGBM có thể dự đoán xu hướng bán hàng, YOLO Các mô hình xử lý các tác vụ như phát hiện đối tượngphân loại hình ảnh . Các nhà phát triển thường kết hợp các công cụ này trên Nền tảng Ultralytics để xây dựng các giải pháp AI toàn diện, tận dụng cả dữ liệu hình ảnh và dữ liệu số.

Các Ứng dụng Thực tế

LightGBM rất linh hoạt và được sử dụng rộng rãi trong nhiều ngành công nghiệp để giải quyết các bài toán dự đoán phức tạp bằng cách sử dụng dữ liệu có cấu trúc .

  1. Đánh giá rủi ro tài chính: Các ngân hàng và công ty fintech sử dụng LightGBM để chấm điểm tín dụng và phát hiện gian lận. Bằng cách phân tích lịch sử giao dịch, thông tin nhân khẩu học người dùng và các mô hình hành vi, mô hình này có thể chính xác. classify Phân biệt giao dịch hợp pháp hay gian lận trong thời gian thực, giúp giảm đáng kể tổn thất tài chính.
  2. Dự báo nhu cầu bán lẻ: Các nhà bán lẻ sử dụng khung phân tích này để dự đoán nhu cầu hàng tồn kho. Bằng cách xử lý dữ liệu bán hàng trong quá khứ, tính mùa vụ và chi tiêu tiếp thị, LightGBM giúp tối ưu hóa chuỗi cung ứng, đảm bảo sản phẩm luôn có sẵn khi khách hàng cần mà không bị tồn kho quá mức. Điều này phù hợp với các thực tiễn sản xuất thông minh hiện đại.

Ví dụ mã

Sau đây Python Đoạn mã này minh họa cách huấn luyện một bộ phân loại LightGBM cơ bản trên dữ liệu tổng hợp. Giả định rằng bạn đã thực hiện các bước tiền xử lý dữ liệu cơ bản.

import lightgbm as lgb
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Generate synthetic binary classification data
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Initialize and train the LightGBM model
model = lgb.LGBMClassifier(learning_rate=0.05, n_estimators=100)
model.fit(X_train, y_train)

# Display the accuracy score
print(f"Test Accuracy: {model.score(X_test, y_test):.4f}")

Để tìm hiểu sâu hơn về các thông số cụ thể và hướng dẫn cài đặt, bạn có thể truy cập tài liệu chính thức của LightGBM . Việc tích hợp các mô hình này vào các quy trình lớn hơn thường bao gồm các bước như đánh giá mô hình để đảm bảo độ tin cậy trong môi trường sản xuất.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay