Info sulla versione: Il codice di questa pagina è stato testato in Stata 12.
Come implica il nome, la regressione multivariata è una tecnica che stima un singolo modello di regressione con più di una variabile di risultato. Quando c’è più di una variabile predittiva in un modello di regressione multivariata, il modello è una regressione multipla multivariata.
Nota: Lo scopo di questa pagina è di mostrare come usare vari comandi di analisi dei dati e non copre tutti gli aspetti del processo di ricerca che i ricercatori devono fare. In particolare, non copre la pulizia e il controllo dei dati, la verifica delle ipotesi, la diagnosi dei modelli e le potenziali analisi di follow-up.
Esempi di regressione multivariata
Esempio 1. Un ricercatore ha raccolto dati su tre variabili psicologiche, quattro variabili accademiche (punteggi di test standardizzati) e il tipo di programma educativo che lo studente sta seguendo per 600 studenti delle scuole superiori. È interessato a sapere come l’insieme delle variabili psicologiche sia collegato alle variabili accademiche e al tipo di programma che lo studente sta seguendo.
Esempio 2. Un medico ha raccolto dati su colesterolo, pressione sanguigna e peso. Ha anche raccolto dati sulle abitudini alimentari dei soggetti (ad esempio, quanti etti di carne rossa, pesce, latticini e cioccolato consumati a settimana). Vuole studiare la relazione tra le tre misure di salute e le abitudini alimentari.
Esempio 3. Un ricercatore è interessato a determinare quali fattori influenzano la salute delle piante di Violetta africana. Raccoglie dati sul diametro medio delle foglie, la massa della zolla, e il diametro medio dei fiori, così come quanto tempo la pianta è stata nel suo contenitore attuale. Per le variabili predittive, misura diversi elementi nel terreno, così come la quantità di luce e di acqua che ogni pianta riceve.
Descrizione dei dati
Proseguiamo l’esempio 1 da sopra. Abbiamo un ipotetico set di dati con 600 osservazioni su sette variabili. Le variabili psicologiche sono il locus of control (locus_of_control), il concetto di sé (self_concept) e la motivazione (motivation). Le variabili accademiche sono i punteggi dei test standardizzati in lettura (read), scrittura (write), e scienze (science), così come una variabile categorica (prog) che dà il tipo di programma in cui si trova lo studente (generale, accademico o professionale).
Guardiamo i dati (si noti che non ci sono valori mancanti in questa serie di dati).
Metodi di analisi che potresti considerare
Di seguito è riportato un elenco di alcuni metodi di analisi che potresti aver incontrato. Alcuni dei metodi elencati sono abbastanza ragionevoli, mentre altri sono caduti in disgrazia o hanno delle limitazioni.
- Regressione multipla multivariata, l’obiettivo di questa pagina.
- Regressioni OLS separate – Si potrebbero analizzare questi dati usando analisi di regressione OLS separate per ogni variabile di risultato. I coefficienti individuali, così come i loro errori standard, saranno gli stessi di quelli prodotti dalla regressione multivariata. Tuttavia, le regressioni OLS non produrranno risultati multivariati, né permetteranno di testare i coefficienti tra le equazioni.
- L’analisi di correlazione canonica potrebbe essere fattibile se non si vuole considerare un set di variabili come variabili di risultato e l’altro set come variabili predittive.
Regressione multivariata
Per condurre una regressione multivariata in Stata, dobbiamo usare due comandi, manova e mvreg. Il comando manova indicherà se tutte le equazioni, prese insieme, sono statisticamente significative. Vengono forniti i rapporti F e i valori p per quattro criteri multivariati, tra cui la lambda di Wilks, la traccia di Lawley-Hotelling, la traccia di Pillai e la radice più grande di Roy. Successivamente, usiamo il comando mvreg per ottenere i coefficienti, gli errori standard, ecc. per ciascuno dei predittori in ogni parte del modello. Mostreremo anche l’uso del comando test dopo il comando mvreg. L’uso del comando test è una delle ragioni convincenti per condurre un’analisi di regressione multivariata.
Di seguito eseguiamo il comando manova. Notate l’uso di c. davanti ai nomi delle variabili predittrici continue – questo fa parte della sintassi delle variabili fattore introdotta in Stata 11. È necessario usare il c. per identificare le variabili continue, perché, per default, il comando manova assume che tutte le variabili predittrici siano categoriche.
- I test per la modalità complessiva, mostrati nella sezione etichettata Modello (sotto Fonte), indicano che il modello è statisticamente significativo, indipendentemente dal tipo di criterio multivariato che viene utilizzato (cioè tutti i p-valori sono inferiori a 0,0001). Se il modello complessivo non è statisticamente significativo, si potrebbe desiderare di modificarlo prima di eseguire mvreg.
- Sotto i test del modello complessivo, ci sono i test multivariati per ciascuna delle variabili predittrici. Ognuno dei predittori è statisticamente significativo nel complesso, indipendentemente dal test utilizzato.
Possiamo usare mvreg per ottenere le stime dei coefficienti del nostro modello. Normalmente mvreg richiede all’utente di specificare sia le variabili di risultato che quelle predittive, tuttavia, poiché abbiamo appena eseguito il comando manova, possiamo usare il comando mvreg, senza ulteriori input, per eseguire una regressione multivariata corrispondente al modello appena stimato da maova (notate che questa caratteristica è stata introdotta in Stata 11, se state usando una versione precedente di Stata, dovrete usare la sintassi completa per mvreg).
- L’output del comando mvreg è molto simile all’output del comando regress, eccetto che l’output è per tre equazioni (una per ogni misura di risultato) invece di una. Oltre ad apparire come l’output di una regressione OLS, l’output è interpretato in modo molto simile all’output di una regressione OLS.
- La prima tabella fornisce il numero di osservazioni, il numero di parametri, RMSE, R-squared, F-ratio e p-value per ciascuno dei tre modelli.
- Guardando la colonna etichettata P, vediamo che ognuno dei tre modelli univariati è statisticamente significativo.
- Nella colonna etichettata R-sq, vediamo che le cinque variabili predittrici spiegano rispettivamente il 19%, il 5% e il 15% della varianza nelle variabili di risultato locus_of_control, self_concept e motivazione. (Si noti che questo valore è un R-squared standard, non un R-squared aggiustato.)
- La seconda tabella contiene i coefficienti, i loro errori standard, la statistica di test (t), i valori p e l’intervallo di confidenza al 95%, per ogni variabile predittiva nel modello, raggruppati per risultato. Come menzionato sopra, i coefficienti sono interpretati nello stesso modo in cui sono interpretati i coefficienti di una regressione OLS. Per esempio, guardando la parte superiore della tabella, un cambiamento di una unità in lettura è associato a un cambiamento di 0,013 unità nel valore previsto di locus_of_control.
Se si eseguisse una regressione OLS separata per ogni variabile di risultato, si otterrebbero esattamente gli stessi coefficienti, errori standard, valori t e p, e intervalli di confidenza come mostrato sopra. Allora perché condurre una regressione multivariata? Come abbiamo detto prima, uno dei vantaggi di usare mvreg è che potete condurre test dei coefficienti tra le diverse variabili di risultato. (Si noti che molti di questi test possono essere eseguiti dopo il comando manova, anche se il processo può essere più difficile perché è necessario creare una serie di contrasti). Negli esempi che seguono, testiamo quattro diverse ipotesi.
Per il primo test, l’ipotesi nulla è che i coefficienti per la variabile lettura siano uguali a 0 in tutte e tre le equazioni. (Si noti che questo duplica il test per la variabile read nell’output della manova di cui sopra.)
test read ( 1) read = 0 ( 2) read = 0 ( 3) read = 0 F( 3, 594) = 4.78 Prob > F = 0.0027
I risultati di questo test rifiutano l’ipotesi nulla che i coefficienti per read nelle tre equazioni siano contemporaneamente uguali a 0, in altre parole, i coefficienti per read, presi per tutti e tre i risultati insieme, sono statisticamente significativi.
In secondo luogo, possiamo testare l’ipotesi nulla che i coefficienti per prog=2 (identificato come 2.prog) e prog=3 (identificato come 3.prog) siano contemporaneamente uguali a 0 nell’equazione per locus_of_control. Quando viene usato per testare i coefficienti per le variabili dummy che formano un singolo predittore categorico, questo tipo di test è talvolta chiamato un test globale per l’effetto del predittore categorico (cioè prog). Si noti che il nome della variabile tra parentesi (cioè locus_of_control) indica a quale equazione appartiene il coefficiente da testare, con l’equazione identificata dal nome della variabile di risultato.
test 2.prog 3.prog ( 1) 2.prog = 0 ( 2) 3.prog = 0 F( 2, 594) = 6.83 Prob > F = 0.0012
I risultati del test precedente indicano che i due coefficienti insieme sono significativamente diversi da 0, in altre parole, l’effetto complessivo di prog su locus_of_control è statisticamente significativo.
Il prossimo esempio testa l’ipotesi nulla che il coefficiente della variabile write nell’equazione con locus_of_control come risultato sia uguale al coefficiente di write nell’equazione con self_concept come risultato. L’ipotesi nulla stampata dal comando test è che la differenza nei coefficienti è 0, che è un altro modo di dire che due coefficienti sono uguali. Un altro modo di affermare questa ipotesi nulla è che l’effetto della scrittura sul locus_of_control è uguale all’effetto della scrittura sul concetto di sé.
test write = write ( 1) write - write = 0 F( 1, 594) = 11.89 Prob > F = 0.0006
I risultati di questo test indicano che la differenza tra i coefficienti per scrivere con locus_of_control e self_concept come risultato è significativamente diversa da 0, in altre parole, i coefficienti sono significativamente diversi.
Per l’ultimo esempio, testiamo l’ipotesi nulla che il coefficiente della scienza nell’equazione per il locus_of_control sia uguale al coefficiente della scienza nell’equazione per il self_concept, e che il coefficiente della variabile write nell’equazione con la variabile risultato locus_of_control sia uguale al coefficiente della write nell’equazione con la variabile risultato self_concept. Abbiamo testato la differenza dei coefficienti per scrivere nell’ultimo esempio, quindi possiamo usare l’opzione accum per aggiungere il test della differenza dei coefficienti per la scienza, permettendoci di testare entrambe le serie di coefficienti allo stesso tempo.
test science = science, accum ( 1) write - write = 0 ( 2) science - science = 0 F( 2, 594) = 6.39 Prob > F = 0.0018
I risultati del test di cui sopra indicano che prese insieme le differenze nei due gruppi di coefficienti sono statisticamente significative.
Cose da considerare
- I residui dei modelli di regressione multivariata si assume che siano normali multivariati.L’analisi di regressione multivariata non è raccomandata per i piccoli campioni.
- Le variabili di risultato dovrebbero essere almeno moderatamente correlate perché l’analisi di regressione multivariata abbia senso.
- Se le variabili di risultato sono dicotomiche, allora vorrete usare o mvprobit o biprobit.
Vedi anche
Manuale online diStata
- manova
- mvreg