Glossar

LichtGBM

Entdecke LightGBM, das schnelle, effiziente Gradient-Boosting-Framework für große Datensätze, das eine hohe Genauigkeit bei Anwendungen des maschinellen Lernens liefert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

LightGBM, kurz für Light Gradient Boosting Machine, ist ein leistungsstarkes Open-Source-Framework für Gradient Boosting, das von Microsoft. Es wird häufig beim maschinellen Lernen (ML) für Aufgaben wie Klassifizierung, Regression und Ranking eingesetzt. LightGBM ist vor allem für seine Schnelligkeit und Effizienz bekannt, insbesondere bei der Arbeit mit großen Datensätzen, da es im Vergleich zu anderen Boosting-Algorithmen oft eine hohe Genauigkeit bei geringem Speicherbedarf liefert. LightGBM basiert auf den Konzepten der Entscheidungsbaum-Algorithmen und gehört zur Familie der Gradient-Boosting-Methoden.

Wie LightGBM Geschwindigkeit und Effizienz erreicht

LightGBM setzt mehrere innovative Techniken ein, um die Leistung zu optimieren:

  • Gradientenbasiertes One-Side-Sampling (GOSS): Diese Methode konzentriert sich auf Dateninstanzen mit größeren Gradienten (die in der Regel nicht trainiert werden) und lässt Instanzen mit kleinen Gradienten nach dem Zufallsprinzip aus, wodurch die Genauigkeit beibehalten und gleichzeitig das Datenvolumen für das Training erheblich reduziert wird.
  • Exclusive Feature Bundling (EFB): Diese Technik bündelt sich gegenseitig ausschließende Merkmale (Merkmale, die selten gleichzeitig Nicht-Null-Werte annehmen, was bei spärlichen Daten häufig der Fall ist) und reduziert so die Anzahl der Merkmale, ohne dass viel Information verloren geht.
  • Blattweises Baumwachstum: Im Gegensatz zum traditionellen Wachstum nach Ebenen, das von vielen anderen Algorithmen wie XGBoost verwendet wird, wächst der LightGBM-Baum blattweise (vertikal). Er wählt das Blatt, von dem er glaubt, dass es die größte Verlustreduzierung bringt, was oft zu einer schnelleren Konvergenz und besseren Genauigkeit führt, obwohl es manchmal zu einer Überanpassung bei kleineren Datensätzen führen kann, wenn die Hyperparameter nicht richtig eingestellt werden.

Diese Optimierungen machen LightGBM außergewöhnlich schnell und speichereffizient und ermöglichen das Training auf großen Datensätzen, die für andere Frameworks unerschwinglich wären.

Hauptmerkmale von LightGBM

LightGBM bietet mehrere Vorteile für ML-Praktiker:

  • Schnelle Trainingsgeschwindigkeit: Deutlich schnelleres Training im Vergleich zu vielen anderen Boosting-Algorithmen dank GOSS und EFB.
  • Geringerer Speicherbedarf: Optimierte Datenverarbeitung und Funktionsbündelung reduzieren den Speicherbedarf.
  • Hohe Genauigkeit: Erzielt oft die besten Ergebnisse bei Aufgaben mit tabellarischen Daten.
  • GPU : Kann die Vorteile von GPU Beschleunigung für noch schnelleres Training nutzen.
  • Paralleles und verteiltes Training: Unterstützt verteiltes Training für die Bearbeitung extrem großer Datensätze auf mehreren Rechnern. Weitere Einzelheiten findest du in der offiziellen LightGBM-Dokumentation.
  • Verarbeitet kategorische Merkmale: Kann kategorische Merkmale direkt verarbeiten, was die Vorverarbeitung der Daten vereinfacht.

Vergleich mit anderen Boosting-Frameworks

LightGBM, XGBoost und CatBoost sind zwar allesamt leistungsstarke Gradient-Boosting-Bibliotheken, haben aber entscheidende Unterschiede:

  • Baumwachstum: LightGBM verwendet blattweises Wachstum, während XGBoost typischerweise stufenweises Wachstum verwendet. CatBoost verwendet vergessene Entscheidungsbäume (symmetrisch).
  • Kategorische Merkmale: LightGBM und CatBoost verfügen über integrierte Funktionen für kategoriale Merkmale, die den Arbeitsablauf im Vergleich zu XGBoost, das in der Regel eine One-Hot-Kodierung oder eine ähnliche Vorverarbeitung erfordert, oft vereinfachen.
  • Geschwindigkeit und Speicherplatz: LightGBM ist aufgrund von GOSS und EFB oft schneller und benötigt weniger Speicher als XGBoost, insbesondere bei großen Datensätzen. CatBoost ist ebenfalls konkurrenzfähig, insbesondere bei der Verarbeitung kategorischer Merkmale.

Die Wahl zwischen ihnen hängt oft von den spezifischen Eigenschaften des Datensatzes und den Projektanforderungen ab.

Anwendungen in der realen Welt

Die Stärken von LightGBM machen es für verschiedene Anwendungen geeignet, die mit strukturierten oder tabellarischen Daten arbeiten:

  1. Betrugsaufdeckung: Im Finanzwesen kann LightGBM große Mengen an Transaktionsdaten schnell verarbeiten, um potenziell betrügerische Aktivitäten nahezu in Echtzeit zu erkennen und dabei seine Geschwindigkeit und Genauigkeit zu nutzen. Dies entspricht dem allgemeinen Trend der KI im Finanzwesen.
  2. Click-Through-Rate (CTR) Vorhersage: Online-Werbeplattformen nutzen LightGBM, um die Wahrscheinlichkeit vorherzusagen, dass Nutzer/innen auf Anzeigen klicken, und optimieren so die Anzeigenplatzierung und Umsatzgenerierung auf der Grundlage umfangreicher Daten zum Nutzerverhalten. Beispiele für den Einsatz von LightGBM findest du in Kaggle-Wettbewerben.
  3. Vorausschauende Wartung: Analyse von Sensordaten von Industriemaschinen, um potenzielle Ausfälle vorherzusagen, eine proaktive Wartungsplanung zu ermöglichen und Ausfallzeiten zu reduzieren. Dies ist in Bereichen wie der KI in der Fertigung von entscheidender Bedeutung.
  4. Unterstützung bei medizinischen Diagnosen: Unterstützung bei der Analyse von Patientendaten (strukturierte klinische Informationen) zur Vorhersage von Krankheitsrisiken oder -ergebnissen als Beitrag zur KI im Gesundheitswesen.

LightGBM eignet sich zwar hervorragend für tabellarische Daten, unterscheidet sich aber von Modellen wie Ultralytics YOLOdie für Computer Vision-Aufgaben wie Objekterkennung und Bildsegmentierung auf unstrukturierten Bilddaten entwickelt wurden. Tools wie Ultralytics HUB helfen dabei, den Lebenszyklus solcher Computer-Vision-Modelle zu verwalten. LightGBM bleibt ein wichtiges Werkzeug für klassische ML-Probleme mit strukturierten Datensätzen.

Alles lesen