Glossário

Árvore de decisão

Descobre o poder das árvores de decisão na aprendizagem automática para classificação, regressão e aplicações do mundo real, como cuidados de saúde e finanças.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Uma árvore de decisão é um algoritmo de aprendizagem automática (ML) versátil e amplamente utilizado que se enquadra na categoria de aprendizagem supervisionada. Utiliza uma estrutura em forma de árvore para modelar decisões e as suas possíveis consequências, semelhante a um fluxograma. Cada nó interno representa um teste sobre um atributo (ou caraterística), cada ramo representa o resultado do teste e cada nó folha representa uma etiqueta de classe (em tarefas de classificação) ou um valor contínuo (em tarefas de regressão). Devido à sua estrutura intuitiva, as árvores de decisão são conhecidas por serem relativamente fáceis de compreender e interpretar, o que as torna valiosas para a IA explicável (XAI).

Como funcionam as árvores de decisão

A ideia central é dividir o conjunto de dados em subconjuntos cada vez mais pequenos com base nos valores das caraterísticas de entrada, criando uma estrutura em árvore. O processo começa no nó raiz, que representa todo o conjunto de dados. Em cada nó, o algoritmo seleciona a melhor caraterística e o melhor limiar para dividir os dados de forma a aumentar a pureza ou a homogeneidade dos subconjuntos resultantes em relação à variável-alvo. Os critérios comuns para encontrar a melhor divisão incluem a impureza de Gini e o ganho de informação (com base na entropia), que medem a desordem ou a aleatoriedade de um conjunto. Este processo de divisão continua recursivamente até ser cumprido um critério de paragem, como atingir uma profundidade máxima, ter um número mínimo de amostras num nó ou atingir nós de folha pura (nós que contêm amostras de apenas uma classe). Para fazer uma previsão para um novo ponto de dados, percorre a árvore desde a raiz até um nó folha com base nos resultados dos testes de caraterísticas, e a previsão é a classe maioritária ou o valor médio nessa folha. O pré-processamento cuidadoso dos dados e a engenharia de caraterísticas podem afetar significativamente o desempenho de uma árvore de decisão.

Tipos de árvores de decisão

As árvores de decisão podem ser classificadas em dois tipos principais:

  • Árvores de classificação: Usadas quando a variável de destino é categórica (por exemplo, prever "spam" ou "não spam"). Os nós das folhas representam os rótulos das classes.
  • Árvores de regressão: Utilizadas quando a variável-alvo é contínua (por exemplo, previsão de preços de casas). Os nós das folhas representam um valor numérico previsto, geralmente a média dos valores-alvo das amostras de treinamento que chegam a essa folha.

Vantagens e desvantagens

As árvores de decisão oferecem várias vantagens:

  • Interpretabilidade: A sua estrutura gráfica torna-os fáceis de visualizar e compreender.
  • Preparação mínima dos dados: Frequentemente, requerem menos limpeza de dados em comparação com outros algoritmos, como a necessidade de menos normalização de dados.
  • Lida com dados não lineares: Consegue captar relações não lineares entre caraterísticas e a variável alvo.
  • Importância da caraterística: Fornecem inerentemente uma medida da importância da caraterística com base na antecedência ou frequência com que uma caraterística é utilizada para a divisão.

No entanto, também têm os seus inconvenientes:

  • Sobreajuste: As árvores de decisão podem facilmente tornar-se demasiado complexas e captar o ruído nos dados de treino, conduzindo a uma fraca generalização em dados de teste não vistos. Técnicas como a poda ou a definição de restrições ao crescimento da árvore ajudam a mitigar o sobreajuste.
  • Instabilidade: Pequenas variações nos dados podem resultar na criação de uma árvore completamente diferente.
  • Enviesamento: As árvores podem ser enviesadas para caraterísticas com mais níveis ou classes dominantes se o conjunto de dados for desequilibrado.

Aplicações no mundo real

As árvores de decisão são utilizadas em vários domínios:

  1. Diagnóstico médico: Ajuda os médicos através da criação de modelos que sugerem diagnósticos com base nos sintomas do doente e nos resultados dos testes. Por exemplo, uma árvore pode orientar o diagnóstico fazendo perguntas sobre os sintomas sequencialmente(IA em aplicações de cuidados de saúde).
  2. Previsão da rotatividade de clientes: As empresas utilizam árvores de decisão para identificar os clientes que provavelmente deixarão de utilizar o seu serviço com base em padrões de utilização, dados demográficos e histórico de interação, permitindo esforços de retenção orientados(Predicting Customer Churn).
  3. Avaliação do risco financeiro: Avalia a capacidade de crédito através da análise de factores como o rendimento, a dívida e o historial de crédito(Computer vision models in finance).
  4. Controlo de qualidade do fabrico: Identificação de potenciais defeitos em produtos com base em leituras de sensores ou parâmetros de processo(Improving Manufacturing with Computer Vision).

Relação com outros modelos

As árvores de decisão constituem a base para métodos de conjunto mais complexos, como as Random Forests e as Gradient Boosted Trees (como o XGBoost ou o LightGBM). As Random Forests, por exemplo, constroem várias árvores de decisão em diferentes subconjuntos de dados e caraterísticas e agregam as suas previsões, o que muitas vezes leva a uma melhor precisão e robustez contra o sobreajuste em comparação com uma única árvore. Embora poderosas para muitos problemas de dados tabulares, as árvores de decisão diferem significativamente de modelos como as Redes Neuronais Convolucionais (CNN) ou os Transformadores de Visão (ViT) utilizados na visão computacional. Modelos como Ultralytics YOLO11 tiram partido de arquitecturas de aprendizagem profunda optimizadas para tarefas como a deteção de objectos, a classificação de imagens e a segmentação de instâncias, que envolvem o processamento de dados complexos e de elevada dimensão, como as imagens, um domínio em que as árvores de decisão simples são menos eficazes. Compreender os modelos fundamentais, como as árvores de decisão, fornece um contexto valioso no panorama mais alargado da IA e da modelação preditiva. Ferramentas como o Scikit-learn fornecem implementações populares para árvores de decisão, enquanto plataformas como o Ultralytics HUB simplificam o desenvolvimento e a implantação de modelos de visão avançados.

Lê tudo