Glossário

Regressão logística

Descobre o poder da Regressão Logística para a classificação binária. Aprende as suas aplicações, conceitos-chave e relevância na aprendizagem automática.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A regressão logística é um método estatístico fundamental e um algoritmo de base na aprendizagem automática (ML), utilizado principalmente para problemas de classificação binária. Apesar de o seu nome conter "regressão", é um algoritmo de classificação utilizado para prever a probabilidade de uma entrada pertencer a uma determinada categoria. Enquadra-se no âmbito da Aprendizagem Supervisionada, o que significa que aprende a partir de dados de treino rotulados. É amplamente utilizado devido à sua simplicidade, interpretabilidade e eficiência, especialmente como um modelo de base em muitas tarefas de modelagem preditiva.

Como funciona a regressão logística

Ao contrário da Regressão Linear, que prevê valores numéricos contínuos, a Regressão Logística prevê probabilidades. Modela a probabilidade de um resultado binário (por exemplo, Sim/Não, 1/0, Verdadeiro/Falso) com base em uma ou mais variáveis independentes (caraterísticas). Consegue-o aplicando uma função logística, frequentemente a função Sigmoide, a uma combinação linear das caraterísticas de entrada. A função sigmoide mapeia qualquer número de valor real num valor entre 0 e 1, que pode ser interpretado como uma probabilidade. Um limiar (normalmente 0,5) é então utilizado para converter esta probabilidade numa previsão de classe (por exemplo, se a probabilidade > 0,5, prevê a classe 1, caso contrário prevê a classe 0). O processo envolve a aprendizagem de pesos ou coeficientes do modelo para cada caraterística durante o treino, utilizando frequentemente técnicas de otimização como o Gradient Descent.

Tipos de regressão logística

Embora seja conhecida principalmente pela classificação binária, a Regressão Logística pode ser alargada:

  1. Regressão logística binária: O tipo mais comum, usado quando a variável dependente tem apenas dois resultados possíveis (por exemplo, spam/não spam, maligno/benigno).
  2. Regressão logística multinomial: Usada quando a variável dependente tem três ou mais categorias nominais (resultados não ordenados, por exemplo, prever o tipo de flor: Iris setosa, versicolor ou virginica). Mais detalhes podem ser encontrados nos recursos que discutem a classificação multinomial.
  3. Regressão logística ordinal: Aplicada quando a variável dependente tem três ou mais categorias ordinais (resultados ordenados, por exemplo, classificar a satisfação do cliente como "baixa", "média" ou "alta"). As técnicas de regressão ordinal fornecem mais informações.

Aplicações no mundo real

A regressão logística é utilizada em vários domínios:

  • Diagnóstico médico: Prevê a probabilidade de um paciente ter uma doença (por exemplo, diabetes, doença cardíaca) com base em medições de diagnóstico como a tensão arterial, o IMC ou a idade. É uma ferramenta comum na construção de modelos de diagnóstico no âmbito da IA nos cuidados de saúde e da análise de imagens médicas. Alguma investigação em IA de radiologia utiliza princípios semelhantes.
  • Deteção de e-mails de spam: Classifica os e-mails como "spam" ou "não spam" com base em caraterísticas extraídas do conteúdo do e-mail, informações do remetente ou dados do cabeçalho. Este é um exemplo clássico de classificação binária discutido em muitos tutoriais de PNL.
  • Pontuação de crédito: Avalia a probabilidade de um mutuário não pagar um empréstimo com base no seu historial e caraterísticas financeiras, ajudando os bancos nas decisões de empréstimo. Esta é uma aplicação fundamental da IA nas finanças.
  • Análise de sentimento: Determina o sentimento (por exemplo, positivo, negativo, neutro) expresso num texto, como uma avaliação de um cliente ou uma publicação nas redes sociais. Sabe mais sobre as aplicações da Análise de Sentimento.
  • Prever a rotatividade de clientes: Estima a probabilidade de um cliente deixar de utilizar um serviço ou produto.

Relevância e avaliação

No contexto mais alargado da Inteligência Artificial (IA), a Regressão Logística serve como um modelo de base importante para tarefas de classificação. Os seus coeficientes podem ser interpretados para compreender a influência de cada caraterística no resultado, contribuindo significativamente para a Explicabilidade do modelo (XAI). Enquanto modelos mais complexos como as Redes Neuronais (NN), as Máquinas de Vectores de Suporte (SVM), ou mesmo arquitecturas avançadas como a Ultralytics YOLO da Ultralytics para a deteção de objectos obtêm frequentemente um desempenho superior em conjuntos de dados complexos, em especial em áreas como a visão por computador (CV), a regressão logística continua a ser útil para problemas mais simples ou como passo inicial na modelação preditiva. Compara os modelos YOLO , como YOLO11 e YOLOv8, para realçar os avanços em tarefas complexas.

O desempenho do modelo é normalmente avaliado utilizando métricas como a exatidão, a precisão, a recuperação, a pontuação F1, a matriz de confusão e a área sob a curva ROC (AUC). Bibliotecas como Scikit-learn fornecem implementações robustas, muitas vezes construídas em estruturas como PyTorch ou TensorFlow. Compreender estas métricas de avaliação, incluindo as utilizadas para o YOLO YOLO guia de métricas de desempenhoYOLO ), é crucial no AM. Para gerir e implementar vários modelos de ML, plataformas como o Ultralytics HUB oferecem ferramentas abrangentes, incluindo opções de formação na nuvem.

Pontos fortes e pontos fracos

Pontos fortes:

  • Simplicidade e eficiência: Fácil de implementar, interpretar e computacionalmente pouco dispendioso para treinar.
  • Interpretabilidade: Os coeficientes do modelo estão diretamente relacionados com a importância e a direção da influência das caraterísticas de entrada no resultado (probabilidades logarítmicas).
  • Boa base de referência: Fornece um ponto de partida sólido para tarefas de classificação.
  • Probabilidades de resultados: Fornece pontuações de probabilidade para os resultados, que podem ser úteis para ajustes de classificação ou limiares.

Pontos fracos:

  • Pressuposto de linearidade: Assume uma relação linear entre as variáveis independentes e as probabilidades logarítmicas do resultado. Pode não captar bem padrões complexos e não lineares.
  • Sensibilidade a valores atípicos: Pode ser influenciado por valores atípicos nos dados.
  • Propenso a subadaptação: Pode não ser suficientemente potente para conjuntos de dados complexos em que os limites de decisão são altamente não lineares, levando potencialmente a uma subadaptação.
  • Requer engenharia de caraterísticas: O desempenho depende muitas vezes da engenharia eficaz das caraterísticas.

Em resumo, a regressão logística é um algoritmo de classificação fundamental e amplamente utilizado na aprendizagem automática, valorizado pela sua simplicidade e interpretabilidade, especialmente para problemas de classificação binária e como referência para modelos mais complexos.

Lê tudo