La régression logistique est l’analyse de régression appropriée à effectuer lorsque la variable dépendante est dichotomique (binaire). Comme toutes les analyses de régression, la régression logistique est une analyse prédictive. La régression logistique est utilisée pour décrire des données et pour expliquer la relation entre une variable binaire dépendante et une ou plusieurs variables indépendantes de niveau nominal, ordinal, intervalle ou rapport.
Parfois, les régressions logistiques sont difficiles à interpréter ; l’outil Intellectus Statistics vous permet facilement de réaliser l’analyse, puis en anglais simple d’interpréter le résultat.
Comment la probabilité de contracter un cancer du poumon (oui vs non) change-t-elle pour chaque kilo supplémentaire de surpoids d’une personne et pour chaque paquet de cigarettes fumé par jour ?
Le poids corporel, l’apport calorique, la consommation de graisses et l’âge ont-ils une influence sur la probabilité d’avoir une crise cardiaque (oui vs non) ?
Régression logistique binaire Hypothèses majeures
- La variable dépendante doit être de nature dichotomique (par ex, présence vs absence).
- Il ne doit pas y avoir de valeurs aberrantes dans les données, ce qui peut être évalué en convertissant les prédicteurs continus en scores standardisés et en éliminant les valeurs inférieures à -3,29 ou supérieures à 3,29.
- Il ne doit pas y avoir de corrélations élevées (multicollinéarité) entre les prédicteurs. Cela peut être évalué par une matrice de corrélation entre les prédicteurs. Tabachnick et Fidell (2013) suggèrent que tant que les coefficients de corrélation entre les variables indépendantes sont inférieurs à 0,90, l’hypothèse est satisfaite.
Au centre de l’analyse de régression logistique se trouve la tâche d’estimer les chances logarithmiques d’un événement. Mathématiquement, la régression logistique estime une fonction de régression linéaire multiple définie comme :
logit(p)
pour i = 1…n .
Surajustement. Lors de la sélection du modèle pour l’analyse de régression logistique, une autre considération importante est l’ajustement du modèle. L’ajout de variables indépendantes à un modèle de régression logistique augmentera toujours la quantité de variance expliquée dans la cote logarithmique (généralement exprimée en R²). Cependant, l’ajout de plus en plus de variables au modèle peut entraîner un surajustement, ce qui réduit la généralisation du modèle au-delà des données sur lesquelles il est ajusté.
Rapport du R2. De nombreuses valeurs de pseudo-R2 ont été développées pour la régression logistique binaire. Celles-ci doivent être interprétées avec une extrême prudence car elles présentent de nombreux problèmes de calcul qui les rendent artificiellement élevées ou faibles. Une meilleure approche consiste à présenter l’un des tests de qualité d’ajustement disponibles ; Hosmer-Lemeshow est une mesure couramment utilisée de la qualité d’ajustement basée sur le test du Khi-deux.