Glossário

Floresta aleatória

Descobre como o Random Forest, um poderoso algoritmo de aprendizagem de conjuntos, se destaca na classificação, regressão e aplicações de IA do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Random Forest é um método de aprendizagem de conjunto poderoso e amplamente utilizado na aprendizagem automática (ML). Funciona através da construção de uma multiplicidade de árvores de decisão durante o treino e produz a classe que é a moda das classes (classificação) ou a previsão média (regressão) das árvores individuais. Como um algoritmo de aprendizagem supervisionado, utiliza dados de treino rotulados para aprender padrões e fazer previsões. A ideia central, introduzida por Leo Breiman, é combinar as previsões de muitas árvores descorrelacionadas para obter maior precisão e robustez em comparação com uma única árvore de decisão, reduzindo significativamente o risco de sobreajuste.

Como funciona a floresta aleatória

O algoritmo constrói um conjunto, ou "floresta", de árvores de decisão utilizando duas técnicas-chave para garantir a diversidade entre as árvores:

  1. Bagging (Bootstrap Aggregating): Cada árvore na floresta é treinada numa amostra aleatória diferente do conjunto de dados original, extraída com substituição. Isto significa que alguns pontos de dados podem ser utilizados várias vezes no conjunto de treino de uma única árvore, enquanto outros podem não ser utilizados de todo. Este processo ajuda a reduzir a variação.
  2. Aleatoriedade das caraterísticas: Ao dividir um nó durante a construção de uma árvore, o Random Forest considera apenas um subconjunto aleatório das caraterísticas disponíveis, em vez de avaliar todas as caraterísticas. Isso descorrelaciona ainda mais as árvores, tornando o conjunto mais robusto.

Depois que a floresta é treinada, fazer uma previsão para um novo ponto de dados envolve passá-lo por todas as árvores da floresta. Para tarefas de classificação, a previsão final é determinada por uma maioria de votos entre todas as árvores. Para tarefas de regressão, a previsão final é a média das previsões de todas as árvores.

Conceitos-chave e vantagens

Compreender o Random Forest envolve vários conceitos fundamentais:

  • Árvores de decisão: O bloco de construção fundamental. O Random Forest aproveita a simplicidade e a interpretabilidade das árvores individuais, atenuando a sua tendência para o sobreajuste.
  • Método de conjunto: Combina vários modelos (árvores) para melhorar o desempenho geral, uma estratégia comum em ML.
  • Ajuste de hiperparâmetros: Parâmetros como o número de árvores na floresta e o número de caraterísticas consideradas em cada divisão precisam de um ajuste cuidadoso, muitas vezes através de técnicas como a validação cruzada ou guias especializados de ajuste de hiperparâmetros.
  • Importância da caraterística: As Random Forests podem estimar a importância de cada caraterística para fazer previsões, fornecendo informações valiosas sobre os dados. Calcula a importância com base no quanto uma caraterística contribui para reduzir a impureza em todas as árvores.

As vantagens incluem uma elevada precisão de previsão, robustez ao ruído e aos valores atípicos, tratamento eficiente de grandes conjuntos de dados com muitas caraterísticas e mecanismos integrados para evitar o sobreajuste. No entanto, a sua formação pode ser computacionalmente intensiva em comparação com modelos mais simples e são frequentemente considerados menos interpretáveis do que uma árvore de decisão simples.

Aplicações no mundo real

As florestas aleatórias são versáteis e utilizadas em muitos domínios:

  1. Modelação financeira: Os bancos utilizam Random Forests para avaliar o risco de crédito, determinando a probabilidade de incumprimento de um candidato a um empréstimo com base no seu historial financeiro e caraterísticas. Também é aplicado em sistemas de deteção de fraude. Explora mais sobre a IA nas finanças.
  2. Diagnóstico na área da saúde: Na análise de imagens médicas, as Random Forests podem ajudar a classificar imagens médicas (como exames de ressonância magnética) para detetar anomalias ou prever resultados de pacientes com base em dados clínicos, contribuindo para diagnósticos mais rápidos e precisos. Sabe mais sobre as soluções de IA nos cuidados de saúde.
  3. Comércio eletrónico: Utilizado em sistemas de recomendação para prever as preferências dos utilizadores e sugerir produtos.
  4. Agricultura: Prevê o rendimento das culturas com base em factores ambientais, contribuindo para a IA nas soluções agrícolas.

Comparação com outros modelos

  • vs. Árvores de decisão: Embora construído a partir de Árvores de Decisão, o Random Forest agrega muitas árvores para superar a alta variância e os problemas de sobreajuste comuns em árvores individuais.
  • vs. Gradient Boosting (XGBoost/LightGBM): Algoritmos como XGBoost e LightGBM também são conjuntos baseados em árvores, mas constroem árvores sequencialmente, com cada nova árvore tentando corrigir os erros das anteriores. O Random Forest constrói árvores de forma independente e em paralelo. Os métodos de boosting podem por vezes alcançar uma maior precisão, mas podem exigir uma afinação mais cuidadosa dos parâmetros.
  • vs. Aprendizado profundo: As florestas aleatórias normalmente se destacam em dados estruturados ou tabulares. Para dados não estruturados, como imagens ou sequências, os modelos de Aprendizagem Profunda (DL), como Redes Neurais Convolucionais (CNNs) ou Transformadores, geralmente são preferidos. Tarefas como deteção de objetos ou segmentação de imagens geralmente dependem de modelos como Ultralytics YOLOque podem ser treinados e gerenciados usando plataformas como o Ultralytics HUB.

Tecnologias e ferramentas

Várias bibliotecas populares de aprendizagem automática fornecem implementações do algoritmo Random Forest. Scikit-learn, uma biblioteca Python oferece uma implementação abrangente do Random Forest com opções de ajuste de hiperparâmetros. Embora potente para muitas tarefas tradicionais de ML, para aplicações de visão computacional de ponta, são frequentemente necessárias arquitecturas e plataformas especializadas que suportem o ciclo de vida dos MLOps. Explora várias soluçõesUltralytics que utilizam modelos YOLO para problemas de IA de visão do mundo real.

Lê tudo