Glossário

CatBoost

Impulsiona os teus projectos de aprendizagem automática com o CatBoost, uma poderosa biblioteca de gradiente de reforço que se destaca no tratamento de dados categóricos e em aplicações do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A CatBoost é uma biblioteca de reforço de gradiente de alto desempenho e de código aberto desenvolvida pela Yandex. Destaca-se no domínio da aprendizagem automática (ML) pelo seu tratamento excecional de caraterísticas categóricas, robustez contra o sobreajuste e, muitas vezes, precisão superior com um ajuste mínimo dos parâmetros. Com base no conceito de gradient boosting em árvores de decisão, a CatBoost implementa novos algoritmos para processar dados categóricos de forma eficaz e eficiente, tornando-a uma escolha popular para tarefas que envolvem dados estruturados ou tabulares.

Conceitos e técnicas fundamentais

O CatBoost baseia-se nos fundamentos do gradient boosting, uma técnica de conjunto em que novos modelos são adicionados sequencialmente para corrigir os erros cometidos pelos modelos anteriores. As principais inovações do CatBoost incluem:

  • Reforço ordenado: Uma abordagem de treinamento orientada por permutação que ajuda a combater a mudança de previsão causada pelo vazamento de alvo, um problema comum em implementações de reforço de gradiente padrão ao lidar com caraterísticas categóricas. Isso contribui para uma melhor generalização do modelo.
  • Manipulação de caraterísticas categóricas: Em vez de exigir um pré-processamento extenso, como a codificação de um ponto, o CatBoost usa técnicas como estatísticas de destino ordenadas e combinações de caraterísticas categóricas para convertê-las em representações numéricas durante o treinamento. Isso geralmente leva a melhores resultados e simplifica o pipeline de pré-processamento de dados.
  • Árvores Simétricas: O CatBoost normalmente usa árvores de decisão esquecidas (árvores simétricas) como aprendizes de base, o que pode levar a tempos de previsão mais rápidos e ajudar a evitar o sobreajuste.

Distingue o CatBoost de algoritmos semelhantes

O CatBoost pertence à família das máquinas de aumento de gradiente (GBMs), juntamente com bibliotecas populares como XGBoost e LightGBM. Embora os três sejam algoritmos poderosos para aprendizagem supervisionada em dados tabulares, o principal diferencial do CatBoost é o seu tratamento sofisticado e integrado de caraterísticas categóricas. Isso geralmente reduz a necessidade de engenharia manual de recursos e ajuste extensivo de hiperparâmetros em comparação com o XGBoost ou o LightGBM, especialmente em conjuntos de dados com muitas variáveis categóricas. No entanto, é importante notar que estes algoritmos se destacam principalmente com dados estruturados e tabulares. Para tarefas em visão computacional (CV), como classificação de imagens ou deteção de objetos, arquiteturas especializadas como Redes Neurais Convolucionais (CNNs) e modelos como Ultralytics YOLO são normalmente empregados, muitas vezes gerenciados e treinados usando plataformas como o Ultralytics HUB.

Aplicações no mundo real

O CatBoost é amplamente utilizado em várias indústrias devido ao seu desempenho e facilidade de utilização, particularmente com diversos conjuntos de dados:

  • Deteção de fraudes: As instituições financeiras utilizam o CatBoost para identificar transacções fraudulentas, utilizando eficazmente caraterísticas categóricas como tipos de transação, IDs de comerciantes, localizações de utilizadores e informações de dispositivos sem pré-processamento complexo. Lê mais sobre a IA nas finanças.
  • Sistemas de recomendação: As plataformas de comércio eletrónico e de streaming utilizam o CatBoost para criar sistemas de recomendação. Lida eficazmente com identificadores categóricos de utilizadores e itens, histórico de interação e informações contextuais para prever as preferências dos utilizadores ou as taxas de cliques.
  • Previsão da rotatividade de clientes: As empresas utilizam o CatBoost para prever quais os clientes que provavelmente deixarão de utilizar o seu serviço, incorporando vários pontos de dados categóricos como planos de subscrição, padrões de utilização e informações demográficas.

Ferramentas e recursos

A biblioteca CatBoost oferece fácil integração com fluxos de trabalho populares de ciência de dados, principalmente através do seu pacotePython . Também fornece interfaces para R e uso de linha de comando. A documentação e os tutoriais abrangentes estão disponíveis no site oficial da CatBoost, orientando os utilizadores na formação, avaliação e implementação de modelos.

Lê tudo