La regressione lineare in SPSS
La domanda di ricerca per l’analisi di regressione lineare è la seguente:
Nel nostro campione di 107 studenti possiamo prevedere il punteggio del test standardizzato di lettura quando conosciamo il punteggio del test standardizzato di scrittura?
Il primo passo è controllare se c’è una relazione lineare nei dati. Per questo controlliamo lo scatter plot (Graphs/Chart Builder…). Lo scatter plot indica una buona relazione lineare, che ci permette di condurre un’analisi di regressione lineare. Possiamo anche controllare la correlazione bivariata di Pearson (Analyze/Correlate/Bivariate…) e scoprire che entrambe le variabili sono fortemente correlate (r = .645 con p < 0.001).
In secondo luogo, dobbiamo controllare la normalità multivariata. Diamo un’occhiata ai Q-Q-Plots (Analyze/Descriptive statistics/Q-Q-Plots…) per entrambe le nostre variabili e vediamo che non sono perfetti, ma potrebbero essere abbastanza vicini.
Possiamo controllare il nostro test “a occhio” con il test Kolmogorov-Smirnov a 1 campione (Analyze/Non Paracontinuous-level Tests/Legacy Dialogs/1-Sample K-S…). Il test ha l’ipotesi nulla che la variabile approssimi una distribuzione normale. I risultati confermano che il punteggio di lettura può essere assunto come normale multivariato (p = 0,474) mentre il test di scrittura non lo è (p = 0,044). Per risolvere questo problema potremmo provare a trasformare i punteggi del test di scrittura usando una trasformazione non lineare (per esempio, log). Tuttavia, abbiamo un campione abbastanza grande, nel qual caso la regressione lineare è abbastanza robusta contro le violazioni della normalità. Potrebbe riportare valori T e F troppo ottimistici.
Ora possiamo condurre l’analisi di regressione lineare. La regressione lineare si trova in SPSS in Analyze/Regression/Linear…
Per rispondere alla nostra semplice domanda di ricerca dobbiamo solo aggiungere il punteggio del test di matematica come variabile dipendente e il punteggio del test di scrittura come variabile indipendente. Il menu Statistiche… ci permette di includere ulteriori informazioni di cui abbiamo bisogno per valutare la validità della nostra analisi di regressione lineare. Per valutare l’autocorrelazione (specialmente se abbiamo dati in serie temporali) aggiungiamo il test di Durbin-Watson, e per controllare la multicollinearità aggiungiamo la diagnostica di collinearità.
Infine, clicchiamo sul menu Plots… per aggiungere i grafici dei residui standardizzati all’output. I grafici dei residui standardizzati riportano ZPRED sull’asse x e ZRESID sull’asse y. Questo grafico standardizzato ci permette di controllare l’eteroscedasticità.
Lasciamo tutte le opzioni nei menu Salva… e Opzioni… così come sono e siamo ora pronti per eseguire il test.