La regresión logística es el análisis de regresión apropiado para realizar cuando la variable dependiente es dicotómica (binaria). Como todos los análisis de regresión, la regresión logística es un análisis predictivo. La regresión logística se utiliza para describir los datos y explicar la relación entre una variable binaria dependiente y una o más variables independientes nominales, ordinales, de intervalo o de razón.
A veces las regresiones logísticas son difíciles de interpretar; la herramienta Intellectus Statistics le permite realizar fácilmente el análisis y, a continuación, interpreta el resultado en un inglés sencillo.
¿Cómo cambia la probabilidad de padecer cáncer de pulmón (sí frente a no) por cada kilo adicional que una persona tiene de sobrepeso y por cada paquete de cigarrillos que fuma al día?
¿Influyen el peso corporal, la ingesta de calorías, la ingesta de grasas y la edad en la probabilidad de tener un ataque al corazón (sí vs. no)?
Supuestos principales de la regresión logística binaria
- La variable dependiente debe ser de naturaleza dicotómica (por ejemplo, presencia frente a ausencia).
- No debe haber valores atípicos en los datos, lo que puede evaluarse convirtiendo los predictores continuos en puntuaciones estandarizadas y eliminando los valores inferiores a -3,29 o superiores a 3,29.
- No debe haber correlaciones elevadas (multicolinealidad) entre los predictores. Esto puede evaluarse mediante una matriz de correlación entre los predictores. Tabachnick y Fidell (2013) sugieren que mientras los coeficientes de correlación entre las variables independientes sean inferiores a 0,90 se cumple el supuesto.
En el centro del análisis de regresión logística está la tarea de estimar las probabilidades logarítmicas de un evento. Matemáticamente, la regresión logística estima una función de regresión lineal múltiple definida como:
logit(p)
para i = 1…n .
Sobreajuste. Al seleccionar el modelo para el análisis de regresión logística, otra consideración importante es el ajuste del modelo. La adición de variables independientes a un modelo de regresión logística siempre aumentará la cantidad de varianza explicada en las probabilidades logarítmicas (normalmente expresadas como R²). Sin embargo, añadir más y más variables al modelo puede dar lugar a un sobreajuste, lo que reduce la generalizabilidad del modelo más allá de los datos en los que se ajusta el modelo.
Informar sobre el R2. Se han desarrollado numerosos valores de pseudo-R2 para la regresión logística binaria. Estos deben ser interpretados con extrema precaución ya que tienen muchos problemas computacionales que hacen que sean artificialmente altos o bajos. Un mejor enfoque es presentar cualquiera de las pruebas de bondad de ajuste disponibles; Hosmer-Lemeshow es una medida de bondad de ajuste comúnmente utilizada basada en la prueba de Chi-cuadrado.