Glosario

Regresión logística

Descubre el poder de la Regresión Logística para la clasificación binaria. Aprende sus aplicaciones, conceptos clave y relevancia en el aprendizaje automático.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Regresión Logística es un método estadístico fundamental y un algoritmo de piedra angular en el Aprendizaje Automático (AM), utilizado principalmente para problemas de clasificación binaria. A pesar de que su nombre contiene "regresión", es un algoritmo de clasificación utilizado para predecir la probabilidad de que una entrada pertenezca a una categoría determinada. Forma parte del Aprendizaje Supervisado, lo que significa que aprende a partir de datos de entrenamiento etiquetados. Se emplea mucho debido a su sencillez, interpretabilidad y eficacia, especialmente como modelo de referencia en muchas tareas de modelado predictivo.

Cómo funciona la regresión logística

A diferencia de la Regresión Lineal, que predice valores numéricos continuos, la Regresión Logística predice probabilidades. Modela la probabilidad de un resultado binario (por ejemplo, Sí/No, 1/0, Verdadero/Falso) basándose en una o más variables independientes (características). Lo consigue aplicando una función logística, a menudo la función sigmoidea, a una combinación lineal de las características de entrada. La función sigmoide convierte cualquier número de valor real en un valor entre 0 y 1, que puede interpretarse como una probabilidad. A continuación, se utiliza un umbral (normalmente 0,5) para convertir esta probabilidad en una predicción de clase (por ejemplo, si la probabilidad es > 0,5, predice la clase 1; en caso contrario, predice la clase 0). El proceso implica el aprendizaje de los pesos o coeficientes del modelo para cada característica durante el entrenamiento, a menudo utilizando técnicas de optimización como el Descenso Gradiente.

Tipos de regresión logística

Aunque se conoce principalmente para la clasificación binaria, la Regresión Logística puede ampliarse:

  1. Regresión logística binaria: El tipo más común, utilizado cuando la variable dependiente sólo tiene dos resultados posibles (por ejemplo, spam/no spam, maligno/benigno).
  2. Regresión logística multinomial: Se utiliza cuando la variable dependiente tiene tres o más categorías nominales (resultados no ordenados, por ejemplo, predecir el tipo de flor: Iris setosa, versicolor o virginica). Puedes encontrar más detalles en los recursos que tratan sobre la clasificación multinomial.
  3. Regresión logística ordinal: Se aplica cuando la variable dependiente tiene tres o más categorías ordinales (resultados ordenados, por ejemplo, calificar la satisfacción del cliente como "baja", "media" o "alta"). Las técnicas de regresión ordinal proporcionan más información.

Aplicaciones en el mundo real

La Regresión Logística se utiliza en varios ámbitos:

  • Diagnóstico médico: Predicción de la probabilidad de que un paciente padezca una enfermedad (por ejemplo, diabetes, cardiopatía) a partir de mediciones diagnósticas como la tensión arterial, el IMC o la edad. Es una herramienta habitual en la construcción de modelos de diagnóstico dentro de la IA en Sanidad y el Análisis de Imágenes Médicas. Algunas investigaciones en IA radiológica utilizan principios similares.
  • Detección de correo basura: Clasificar los correos electrónicos como "spam" o "no spam" basándose en características extraídas del contenido del correo electrónico, la información del remitente o los datos del encabezado. Este es un ejemplo clásico de clasificación binaria que se trata en muchos tutoriales de PNL.
  • Calificación crediticia: Evaluar la probabilidad de que un prestatario incumpla un préstamo basándose en su historial y características financieras, ayudando a los bancos en las decisiones de préstamo. Se trata de una aplicación clave de la IA en las finanzas.
  • Análisis de Sentimiento: Determinar el sentimiento (por ejemplo, positivo, negativo, neutro) expresado en un texto, como una opinión de un cliente o una publicación en las redes sociales. Más información sobre las aplicaciones del Análisis de Sentimiento.
  • Predecir la pérdida de clientes: Estimación de la probabilidad de que un cliente deje de utilizar un servicio o producto.

Pertinencia y evaluación

En el contexto más amplio de la Inteligencia Artificial (IA), la Regresión Logística es un importante modelo de referencia para las tareas de clasificación. Sus coeficientes pueden interpretarse para comprender la influencia de cada característica en el resultado, lo que contribuye significativamente a la Explicabilidad del modelo (XAI). Mientras que modelos más complejos como las Redes Neuronales (NN), las Máquinas de Vectores de Soporte (SVM), o incluso arquitecturas avanzadas como Ultralytics YOLO para la Detección de Objetos suelen lograr un mayor rendimiento en conjuntos de datos complejos, sobre todo en campos como la Visión por Computador (VC), la Regresión Logística sigue siendo valiosa para problemas más sencillos o como paso inicial en el modelado predictivo. Comparar modelos YOLO como YOLO11 frente a YOLOv8 pone de manifiesto los avances en tareas complejas.

El rendimiento del modelo suele evaluarse utilizando métricas como la Exactitud, la Precisión, la Recuperación, la Puntuación F1, la Matriz de Confusión y el Área Bajo la Curva ROC (AUC). Bibliotecas como Scikit-learn proporcionan implementaciones robustas, a menudo construidas sobre marcos como PyTorch o TensorFlow. Comprender estas métricas de evaluación, incluidas las utilizadas para YOLO YOLO guía de métricas de rendimientoYOLO ), es crucial en ML. Para gestionar y desplegar varios modelos de ML, plataformas como Ultralytics HUB ofrecen herramientas completas, incluidas opciones de entrenamiento en la nube.

Puntos fuertes y débiles

Puntos fuertes:

  • Simplicidad y eficacia: Fácil de implementar, interpretar y computacionalmente barato de entrenar.
  • Interpretabilidad: Los coeficientes del modelo se relacionan directamente con la importancia y la dirección de la influencia de las características de entrada sobre el resultado (log-odds).
  • Buen punto de partida: Proporciona un punto de partida sólido para las tareas de clasificación.
  • Salidas Probabilidades: Proporciona puntuaciones de probabilidad para los resultados, que pueden ser útiles para la clasificación o los ajustes de umbral.

Puntos débiles:

  • Suposición de linealidad: Supone una relación lineal entre las variables independientes y las probabilidades logarítmicas del resultado. Puede que no capte bien los patrones complejos y no lineales.
  • Sensibilidad a los valores atípicos: Puede verse influida por valores atípicos en los datos.
  • Propenso al infraajuste: Puede no ser lo suficientemente potente para conjuntos de datos complejos en los que los límites de decisión son muy poco lineales, lo que puede llevar a un ajuste insuficiente.
  • Requiere ingeniería de características: El rendimiento suele depender en gran medida de una ingeniería de características eficaz.

En resumen, la Regresión Logística es un algoritmo de clasificación fundacional y muy utilizado en el aprendizaje automático, valorado por su sencillez e interpretabilidad, especialmente para problemas de clasificación binaria y como punto de referencia para modelos más complejos.

Leer todo