Glosario

LuzGBM

Descubre LightGBM, el rápido y eficaz marco de refuerzo de gradiente para grandes conjuntos de datos, que proporciona una gran precisión en aplicaciones de aprendizaje automático.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

LightGBM, abreviatura de Light Gradient Boosting Machine (máquina de refuerzo de gradiente ligero), es un marco de refuerzo de gradiente de código abierto y alto rendimiento desarrollado por Microsoft. Se utiliza ampliamente en el Aprendizaje Automático (AM ) para tareas como la clasificación, la regresión y la clasificación. LightGBM es especialmente conocido por su velocidad y eficacia, sobre todo cuando trabaja con grandes conjuntos de datos, y suele ofrecer una gran precisión consumiendo menos memoria que otros algoritmos de refuerzo. Se basa en conceptos de los algoritmos de árboles de decisión y forma parte de la familia de métodos de refuerzo de gradiente.

Cómo consigue LightGBM velocidad y eficacia

LightGBM emplea varias técnicas innovadoras para optimizar el rendimiento:

  • Muestreo unilateral basado en gradientes (GOSS): Este método se centra en las instancias de datos con gradientes más grandes (las que suelen estar poco entrenadas) y descarta aleatoriamente las instancias con gradientes pequeños, manteniendo la precisión y reduciendo significativamente el volumen de datos para el entrenamiento.
  • Agrupación de rasgos exclusivos (EFB): Esta técnica agrupa rasgos mutuamente excluyentes (rasgos que rara vez toman valores distintos de cero simultáneamente, algo común en datos dispersos), reduciendo el número de rasgos sin perder mucha información.
  • Crecimiento del árbol por hojas: A diferencia del crecimiento tradicional por niveles utilizado por muchos otros algoritmos como XGBoost, LightGBM hace crecer los árboles por hojas (verticalmente). Elige la hoja que cree que producirá la mayor reducción de pérdidas, lo que a menudo conduce a una convergencia más rápida y a una mayor precisión, aunque a veces puede llevar a un ajuste excesivo en conjuntos de datos más pequeños si no se ajusta adecuadamente mediante el ajuste de hiperparámetros.

Estas optimizaciones hacen que LightGBM sea excepcionalmente rápido y eficiente en memoria, permitiendo el entrenamiento en conjuntos de datos masivos que podrían ser prohibitivos para otros marcos.

Características principales de LightGBM

LightGBM ofrece varias ventajas a los profesionales del ML:

  • Rápida velocidad de entrenamiento: Entrenamiento significativamente más rápido en comparación con muchos otros algoritmos de refuerzo gracias a GOSS y EFB.
  • Menor uso de memoria: El tratamiento optimizado de los datos y la agrupación de funciones reducen el consumo de memoria.
  • Alta precisión: A menudo consigue resultados punteros en tareas con datos tabulares.
  • Compatibilidad conGPU : Puede aprovechar GPU para un entrenamiento aún más rápido.
  • Entrenamiento paralelo y distribuido: Admite el entrenamiento distribuido para manejar conjuntos de datos extremadamente grandes en varias máquinas. Puedes explorar la documentación oficial de LightGBM para más detalles.
  • Maneja características categóricas: Puede manejar directamente características categóricas, simplificando el preprocesamiento de datos.

Comparación con otros marcos de refuerzo

Aunque LightGBM, XGBoost y CatBoost son potentes bibliotecas de aumento de gradiente, tienen diferencias clave:

  • Crecimiento del árbol: LightGBM utiliza el crecimiento por hojas, mientras que XGBoost suele utilizar el crecimiento por niveles. CatBoost utiliza árboles de decisión oblícuos (simétricos).
  • Características categóricas: LightGBM y CatBoost llevan incorporado el tratamiento de las características categóricas, lo que a menudo simplifica los flujos de trabajo en comparación con XGBoost, que suele requerir la codificación en un solo paso o un preprocesamiento similar.
  • Velocidad y memoria: LightGBM suele ser más rápido y utilizar menos memoria que XGBoost, especialmente en grandes conjuntos de datos, gracias a GOSS y EFB. CatBoost también es competitivo, destacando especialmente en el rendimiento del manejo de rasgos categóricos.

La elección entre ellos suele depender de las características específicas del conjunto de datos y de los requisitos del proyecto.

Aplicaciones en el mundo real

Los puntos fuertes de LightGBM lo hacen adecuado para diversas aplicaciones que tratan con datos estructurados o tabulares:

  1. Detección de fraudes: En finanzas, LightGBM puede procesar rápidamente grandes cantidades de datos de transacciones para identificar actividades potencialmente fraudulentas casi en tiempo real, aprovechando su velocidad y precisión. Esto se alinea con las tendencias más amplias de la IA en las finanzas.
  2. Predicción del porcentaje de clics (CTR): Las plataformas de publicidad online utilizan LightGBM para predecir la probabilidad de que los usuarios hagan clic en los anuncios, optimizando la ubicación de los anuncios y la generación de ingresos basándose en datos a gran escala del comportamiento de los usuarios. Puedes encontrar ejemplos de su uso en los concursos de Kaggle.
  3. Mantenimiento Predictivo: Analizar los datos de los sensores de la maquinaria industrial para predecir posibles fallos, lo que permite programar el mantenimiento de forma proactiva y reducir el tiempo de inactividad. Esto es crucial en áreas como la IA en la fabricación.
  4. Apoyo al diagnóstico médico: Asistencia en el análisis de los datos del paciente (información clínica estructurada) para predecir el riesgo de enfermedad o los resultados, contribuyendo a la IA en la asistencia sanitaria.

Aunque LightGBM destaca con datos tabulares, es distinto de modelos como Ultralytics YOLOque están diseñados para tareas de visión por ordenador como la detección de objetos y la segmentación de imágenes en datos de imágenes no estructurados. Herramientas como Ultralytics HUB ayudan a gestionar el ciclo de vida de tales modelos de visión por ordenador. LightGBM sigue siendo una herramienta vital para los problemas clásicos de ML que implican conjuntos de datos estructurados.

Leer todo