La regressione logistica è l’analisi di regressione appropriata da condurre quando la variabile dipendente è dicotomica (binaria). Come tutte le analisi di regressione, la regressione logistica è un’analisi predittiva. La regressione logistica è usata per descrivere i dati e per spiegare la relazione tra una variabile dipendente binaria e una o più variabili indipendenti a livello nominale, ordinale, di intervallo o di rapporto.
A volte le regressioni logistiche sono difficili da interpretare; lo strumento Statistiche Intellectus permette facilmente di condurre l’analisi, poi in un inglese semplice interpreta il risultato.
Come cambia la probabilità di ammalarsi di cancro ai polmoni (sì o no) per ogni chilo in più che una persona è in sovrappeso e per ogni pacchetto di sigarette fumato al giorno?
Il peso corporeo, l’assunzione di calorie, l’assunzione di grassi e l’età hanno un’influenza sulla probabilità di avere un attacco di cuore (sì o no)?
La regressione logistica binaria presupposti principali
- La variabile dipendente dovrebbe essere di natura dicotomica (es, presenza vs. assenza).
- Non ci dovrebbero essere outlier nei dati, che possono essere valutati convertendo i predittori continui in punteggi standardizzati, e rimuovendo i valori inferiori a -3.29 o superiori a 3.29.
- Non ci dovrebbero essere correlazioni elevate (multicollinearità) tra i predittori. Questo può essere valutato da una matrice di correlazione tra i predittori. Tabachnick e Fidell (2013) suggeriscono che finché i coefficienti di correlazione tra le variabili indipendenti sono inferiori a 0,90 l’ipotesi è soddisfatta.
Al centro dell’analisi di regressione logistica è il compito di stimare le probabilità logiche di un evento. Matematicamente, la regressione logistica stima una funzione di regressione lineare multipla definita come:
logit(p)
per i = 1…n .
Overfitting. Quando si seleziona il modello per l’analisi di regressione logistica, un’altra importante considerazione è l’adattamento del modello. L’aggiunta di variabili indipendenti a un modello di regressione logistica aumenterà sempre la quantità di varianza spiegata nelle probabilità logiche (tipicamente espressa come R²). Tuttavia, aggiungere sempre più variabili al modello può risultare in un overfitting, che riduce la generalizzabilità del modello al di là dei dati su cui il modello è adattato.
Reporting the R2. Sono stati sviluppati numerosi valori pseudo-R2 per la regressione logistica binaria. Questi dovrebbero essere interpretati con estrema cautela in quanto hanno molti problemi computazionali che li fanno essere artificialmente alti o bassi. Un approccio migliore è quello di presentare uno qualsiasi dei test di bontà dell’adattamento disponibili; Hosmer-Lemeshow è una misura comunemente usata di bontà dell’adattamento basata sul test del Chi-quadrato.