Glosario

CatBoost

Impulsa tus proyectos de aprendizaje automático con CatBoost, una potente biblioteca de refuerzo de gradiente que destaca en el manejo de datos categóricos y en aplicaciones del mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

CatBoost es una biblioteca de refuerzo de gradiente de código abierto y alto rendimiento desarrollada por Yandex. Destaca en el campo del aprendizaje automático (AM ) por su excepcional manejo de características categóricas, su robustez frente al sobreajuste y su precisión a menudo superior con un ajuste mínimo de los parámetros. Basado en el concepto de refuerzo de gradiente en árboles de decisión, CatBoost implementa algoritmos novedosos para procesar datos categóricos de forma eficaz y eficiente, lo que lo convierte en una opción popular para tareas que implican datos estructurados o tabulares.

Conceptos y técnicas fundamentales

CatBoost se basa en los fundamentos del refuerzo de gradiente, una técnica de conjunto en la que se añaden secuencialmente nuevos modelos para corregir los errores cometidos por los modelos anteriores. Las innovaciones clave de CatBoost son:

  • Refuerzo ordenado: Un enfoque del entrenamiento basado en permutaciones que ayuda a combatir el cambio de predicción causado por la fuga de objetivos, un problema común en las implementaciones estándar del refuerzo de gradiente cuando se trata de características categóricas. Esto contribuye a una mejor generalización del modelo.
  • Manejo de rasgos categóricos: En lugar de requerir un amplio preprocesamiento como la codificación de un solo punto, CatBoost utiliza técnicas como la estadística ordenada de objetivos y combinaciones de características categóricas para convertirlas en representaciones numéricas durante el entrenamiento. Esto suele dar mejores resultados y simplifica el proceso de preprocesamiento de datos.
  • Árboles simétricos: CatBoost suele utilizar árboles de decisión oblícuos (árboles simétricos) como aprendices base, lo que puede dar lugar a tiempos de predicción más rápidos y ayudar a evitar el sobreajuste.

Distinguir CatBoost de algoritmos similares

CatBoost pertenece a la familia de las máquinas de refuerzo de gradiente (GBM), junto con bibliotecas populares como XGBoost y LightGBM. Aunque los tres son potentes algoritmos para el aprendizaje supervisado de datos tabulares, el principal diferenciador de CatBoost es su sofisticado manejo integrado de características categóricas. Esto reduce a menudo la necesidad de ingeniería manual de características y el ajuste exhaustivo de hiperparámetros en comparación con XGBoost o LightGBM, especialmente en conjuntos de datos con muchas variables categóricas. Sin embargo, es importante señalar que estos algoritmos destacan principalmente con datos estructurados y tabulares. Para las tareas de visión por ordenador (VC), como la clasificación de imágenes o la detección de objetos, las arquitecturas especializadas como las Redes Neuronales Convolucionales (CNN) y los modelos como Ultralytics YOLO a menudo gestionados y entrenados mediante plataformas como Ultralytics HUB.

Aplicaciones en el mundo real

CatBoost se utiliza ampliamente en diversos sectores debido a su rendimiento y facilidad de uso, sobre todo con conjuntos de datos diversos:

  • Detección de fraudes: Las instituciones financieras utilizan CatBoost para identificar transacciones fraudulentas utilizando eficazmente características categóricas como tipos de transacción, ID de comerciantes, ubicaciones de usuarios e información de dispositivos sin necesidad de un preprocesamiento complejo. Más información sobre la IA en las finanzas.
  • Sistemas de Recomendación: Las plataformas de comercio electrónico y streaming aprovechan CatBoost para crear sistemas de recomendación. Maneja eficazmente identificadores categóricos de usuarios y artículos, historial de interacciones e información contextual para predecir las preferencias de los usuarios o los porcentajes de clics.
  • Predicción del abandono de clientes: Las empresas utilizan CatBoost para predecir qué clientes es probable que dejen de utilizar su servicio, incorporando varios puntos de datos categóricos como planes de suscripción, patrones de uso e información demográfica.

Herramientas y recursos

La biblioteca CatBoost ofrece una fácil integración con los flujos de trabajo habituales de la ciencia de datos, principalmente a través de su paquetePython . También proporciona interfaces para R y el uso de la línea de comandos. En el sitio web oficial de CatBoost hay documentación y tutoriales completos, que guían a los usuarios a través de la formación, la evaluación y el despliegue de modelos.

Leer todo