Glossário

Árvore de decisão

Descobre o poder das árvores de decisão na aprendizagem automática para classificação, regressão e aplicações do mundo real, como cuidados de saúde e finanças.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Uma árvore de decisão é um modelo versátil e interpretável utilizado na aprendizagem automática (ML) para tarefas de classificação e regressão. Funciona como um fluxograma, em que cada nó interno representa um teste num atributo (caraterística), cada ramo representa o resultado do teste e cada nó folha representa uma etiqueta de classe (na classificação) ou um valor contínuo (na regressão). Esta estrutura facilita a visualização e a compreensão de como o modelo chega a uma previsão, imitando os processos humanos de tomada de decisão.

Como funcionam as árvores de decisão

As árvores de decisão aprendem com os dados criando um modelo que prevê o valor de uma variável alvo com base em várias caraterísticas de entrada. É uma forma de aprendizagem supervisionada, o que significa que requer dados de treinamento rotulados. A árvore é construída dividindo recursivamente os dados com base nas caraterísticas que melhor separam a variável alvo. Algoritmos comuns como o CART (Classification and Regression Trees) e o ID3 utilizam critérios como a impureza de Gini ou o ganho de informação para determinar a divisão óptima em cada nó. O processo continua até que seja cumprido um critério de paragem, como atingir uma profundidade máxima ou ter nós com amostras de apenas uma classe.

Tipos e variações

Os dois tipos principais são as árvores de classificação (que prevêem rótulos de classes discretas) e as árvores de regressão (que prevêem valores numéricos contínuos). Embora as árvores de decisão individuais sejam úteis, podem por vezes ser propensas a erros ou instabilidade. Para resolver este problema, os métodos Ensemble, como o Random Forest, combinam várias árvores de decisão para melhorar o desempenho de previsão e a robustez contra o sobreajuste.

Vantagens e desvantagens

As árvores de decisão oferecem várias vantagens:

  • Interpretabilidade: A sua estrutura em fluxograma é fácil de visualizar e explicar.
  • Preparação mínima dos dados: Frequentemente requerem menos pré-processamento de dados em comparação com outras técnicas, lidando naturalmente com dados numéricos e categóricos.
  • Importância das caraterísticas: Efectua implicitamente a seleção de caraterísticas, indicando quais as caraterísticas mais influentes no processo de decisão.

No entanto, também têm os seus inconvenientes:

  • Sobreajuste: As árvores podem tornar-se demasiado complexas e ajustar-se demasiado aos dados de treino, não conseguindo generalizar bem para novos dados. Técnicas como Pruning são usadas para simplificar a árvore e combater esse problema.
  • Instabilidade: Pequenas variações nos dados podem levar a estruturas de árvore significativamente diferentes.
  • Enviesamento: As árvores podem tornar-se enviesadas se algumas classes forem dominantes no conjunto de dados.

Aplicações no mundo real

As árvores de decisão são aplicadas em vários domínios:

  • Diagnóstico médico: Ajuda os médicos a prever doenças com base nos sintomas e no historial do doente, proporcionando um caminho de decisão claro. Por exemplo, podem ajudar a determinar factores de risco para determinadas doenças com base em dados clínicos(exemplo de aplicação nos cuidados de saúde). Isto alinha-se com as aplicações mais amplas da IA nos cuidados de saúde.
  • Análise financeira: Utilizada na pontuação de crédito para avaliar o risco do pedido de empréstimo com base nas informações do requerente ou na previsão dos movimentos do mercado de acções.
  • Previsão da rotatividade de clientes: As empresas utilizam árvores de decisão para identificar os clientes que provavelmente sairão com base nos seus padrões de utilização, dados demográficos e histórico de interação, permitindo estratégias de retenção proactivas(ver exemplos em plataformas como o Kaggle).

Comparação com outros algoritmos

  • Florestas aleatórias: Embora construídas a partir de árvores de decisão, as Random Forests calculam a média das previsões de muitas árvores, oferecendo geralmente maior precisão e melhor generalização do que uma única árvore.
  • Máquinas de vectores de apoio (SVM): As SVMs têm como objetivo encontrar o hiperplano ótimo que separa as classes, tendo muitas vezes um bom desempenho em espaços de elevada dimensão, mas não têm a capacidade de interpretação direta das árvores de decisão.
  • Redes neurais (NN): Redes neurais, especialmente as profundas usadas em modelos como Ultralytics YOLO para a Visão por Computador (CV), podem modelar relações altamente complexas e não lineares, mas são normalmente menos interpretáveis ("caixas negras") do que as árvores de decisão.

As árvores de decisão continuam a ser um algoritmo fundamental em ML devido à sua simplicidade, interpretabilidade e utilidade como blocos de construção para modelos mais complexos. São amplamente implementadas em bibliotecas populares como Scikit-learn.

Lê tudo