Versionsinfo: Der Code für diese Seite wurde in Stata 12 getestet.
Wie der Name schon sagt, ist die multivariate Regression eine Technik, die ein einzelnes Regressionsmodell mit mehr als einer Ergebnisvariablen schätzt. Wenn es mehr als eine Prädiktorvariable in einem multivariaten Regressionsmodell gibt, handelt es sich um eine multivariate multiple Regression.
Bitte beachten Sie: Der Zweck dieser Seite ist es, zu zeigen, wie man verschiedene Befehle zur Datenanalyse verwendet.
Sie deckt nicht alle Aspekte des Forschungsprozesses ab, die von Forschern erwartet werden. Insbesondere deckt sie nicht die Datenbereinigung und -überprüfung, die Überprüfung der Annahmen, die Modelldiagnostik und mögliche Folgeanalysen ab.
Beispiele für multivariate Regression
Beispiel 1. Eine Forscherin hat für 600 High-School-Schüler Daten zu drei psychologischen Variablen, vier akademischen Variablen (standardisierte Testergebnisse) und der Art des Bildungsprogramms, in dem der Schüler ist, gesammelt. Sie ist daran interessiert, wie der Satz psychologischer Variablen mit den akademischen Variablen und der Art des Programms, an dem der Schüler teilnimmt, zusammenhängt.
Beispiel 2. Eine Ärztin hat Daten zu Cholesterin, Blutdruck und Gewicht gesammelt. Sie hat auch Daten über die Essgewohnheiten der Probanden gesammelt (z. B. wie viele Unzen rotes Fleisch, Fisch, Milchprodukte und Schokolade pro Woche konsumiert wurden). Sie möchte den Zusammenhang zwischen den drei Gesundheitsmaßen und den Essgewohnheiten untersuchen.
Beispiel 3. Eine Forscherin möchte herausfinden, welche Faktoren die Gesundheit der afrikanischen Veilchenpflanzen beeinflussen. Sie sammelt Daten über den durchschnittlichen Blattdurchmesser, die Masse des Wurzelballens und den durchschnittlichen Durchmesser der Blüten sowie darüber, wie lange die Pflanze schon in ihrem aktuellen Behälter ist. Als Prädiktorvariablen misst sie verschiedene Elemente im Boden, sowie die Menge an Licht und Wasser, die jede Pflanze erhält.
Beschreibung der Daten
Lassen Sie uns Beispiel 1 von oben weiterverfolgen. Wir haben einen hypothetischen Datensatz mit 600 Beobachtungen zu sieben Variablen. Die psychologischen Variablen sind Kontrollüberzeugung (locus_of_control), Selbstkonzept (self_concept) und Motivation (motivation). Die akademischen Variablen sind standardisierte Testergebnisse in den Bereichen Lesen (read), Schreiben (write) und Naturwissenschaften (science) sowie eine kategoriale Variable (prog), die den Typ des Studiengangs angibt, in dem sich der Schüler befindet (allgemein, akademisch oder beruflich).
Schauen wir uns die Daten an (beachten Sie, dass es in diesem Datensatz keine fehlenden Werte gibt).
Analysemethoden, die Sie in Betracht ziehen könnten
Nachfolgend finden Sie eine Liste einiger Analysemethoden, die Sie vielleicht schon kennen. Einige der aufgeführten Methoden sind durchaus sinnvoll, während andere entweder in Ungnade gefallen sind oder Einschränkungen haben.
- Multivariate multiple Regression, der Schwerpunkt dieser Seite.
- Separate OLS-Regressionen – Sie könnten diese Daten mit separaten OLS-Regressionsanalysen für jede Ergebnisvariable analysieren. Die einzelnen Koeffizienten sowie ihre Standardfehler werden die gleichen sein wie die, die durch die multivariate Regression erzeugt werden. Die OLS-Regressionen liefern jedoch keine multivariaten Ergebnisse und ermöglichen auch nicht das Testen von Koeffizienten über Gleichungen hinweg.
- Die kanonische Korrelationsanalyse könnte machbar sein, wenn Sie nicht einen Satz von Variablen als Ergebnisvariablen und den anderen Satz als Prädiktorvariablen betrachten möchten.
Multivariate Regression
Um eine multivariate Regression in Stata durchzuführen, müssen wir zwei Befehle verwenden, manova und mvreg. Der Befehl manova zeigt an, ob alle Gleichungen zusammengenommen statistisch signifikant sind. Es werden die F-Ratios und p-Werte für vier multivariate Kriterien angegeben, einschließlich Wilks‘ Lambda, Lawley-Hotelling Trace, Pillai’s Trace und Roy’s größte Wurzel. Als nächstes verwenden wir den Befehl mvreg, um die Koeffizienten, Standardfehler usw. für jeden der Prädiktoren in jedem Teil des Modells zu erhalten. Wir zeigen auch die Verwendung des Befehls test nach dem Befehl mvreg. Die Verwendung des Test-Befehls ist einer der zwingenden Gründe für die Durchführung einer multivariaten Regressionsanalyse.
Unten führen wir den Befehl manova aus. Beachten Sie die Verwendung von c. vor den Namen der kontinuierlichen Prädiktorvariablen – dies ist Teil der in Stata 11 eingeführten Faktorvariablensyntax. Es ist notwendig, das c. zu verwenden, um die kontinuierlichen Variablen zu identifizieren, da der manova-Befehl standardmäßig annimmt, dass alle Prädiktorvariablen kategorial sind.
- Die Tests für das Gesamtmodell, die im Abschnitt Modell (unterQuelle) angezeigt werden, zeigen an, dass das Modell statistisch signifikant ist, unabhängig von der Art der verwendeten multivariaten Kriterien (d. h. alle p-Werte sind kleiner als 0,0001). Wenn das Gesamtmodell nicht statistisch signifikant ist, sollten Sie es vor der Ausführung von mvreg modifizieren.
- Unter den Tests des Gesamtmodells befinden sich die multivariaten Tests für jede der Prädiktorvariablen. Jeder der Prädiktoren ist insgesamt statistisch signifikant, unabhängig davon, welcher Test verwendet wird.
Wir können mvreg verwenden, um Schätzungen für die Koeffizienten in unserem Modell zu erhalten. Normalerweise erfordert mvreg, dass der Benutzer sowohl Ergebnis- als auch Prädiktorvariablen angibt. Da wir jedoch gerade den Befehl manova ausgeführt haben, können wir den Befehl mvreg ohne zusätzliche Eingaben verwenden, um eine multivariate Regression auszuführen, die dem soeben mit maova geschätzten Modell entspricht (beachten Sie, dass diese Funktion in Stata 11 eingeführt wurde; wenn Sie eine frühere Version von Stata verwenden, müssen Sie die vollständige Syntax für mvreg verwenden).
- Die Ausgabe des mvreg-Befehls sieht ähnlich aus wie die Ausgabe des regress-Befehls, mit der Ausnahme, dass die Ausgabe für drei Gleichungen (eine für jedes Ergebnismaß) anstelle von einer erfolgt. Die Ausgabe sieht nicht nur wie die Ausgabe einer OLS-Regression aus, sondern wird auch ähnlich wie die Ausgabe einer OLS-Regression interpretiert.
- Die erste Tabelle gibt die Anzahl der Beobachtungen, die Anzahl der Parameter, den RMSE, das R-Quadrat, das F-Verhältnis und den p-Wert für jedes der drei Modelle an.
- In der Spalte „P“ sehen wir, dass jedes der drei univariaten Modelle statistisch signifikant ist.
- In der Spalte „R-sq“ sehen wir, dass die fünf Prädiktorvariablen 19 %, 5 % bzw. 15 % der Varianz in den Ergebnisvariablen „locus_of_control“, „self_concept“ bzw. „motivation“ erklären. (Beachten Sie, dass dieser Wert ein Standard-R-Quadrat ist, kein bereinigtes R-Quadrat.)
- Die zweite Tabelle enthält die Koeffizienten, ihre Standardfehler, die Teststatistik (t), die p-Werte und das 95%-Konfidenzintervall für jede Prädiktorvariable im Modell, gruppiert nach Ergebnis. Wie oben erwähnt, werden die Koeffizienten auf die gleiche Weise interpretiert wie die Koeffizienten aus einer OLS-Regression. Wenn man sich zum Beispiel den oberen Teil der Tabelle ansieht, ist eine Änderung um eine Einheit beim Lesen mit einer Änderung um 0,013 Einheiten beim vorhergesagten Wert von locus_of_control verbunden.
Wenn Sie eine separate OLS-Regression für jede Ergebnisvariable durchführen würden, würden Sie genau die gleichen Koeffizienten, Standardfehler, t- und p-Werte und Konfidenzintervalle wie oben gezeigt erhalten. Warum also eine multivariate Regression durchführen? Wie bereits erwähnt, ist einer der Vorteile der Verwendung von mvreg, dass Sie Tests der Koeffizienten über die verschiedenen Ergebnisvariablen hinweg durchführen können. (Bitte beachten Sie, dass viele dieser Tests nach dem manova-Befehl durchgeführt werden können, obwohl der Prozess schwieriger sein kann, da eine Reihe von Kontrasten erstellt werden muss). In den folgenden Beispielen testen wir vier verschiedene Hypothesen.
Für den ersten Test lautet die Nullhypothese, dass die Koeffizienten für die Variable „Lesen“ in allen drei Gleichungen gleich 0 sind. (Beachten Sie, dass dies ein Duplikat des Tests für die Variable read in der obigen Manova-Ausgabe ist.)
test read ( 1) read = 0 ( 2) read = 0 ( 3) read = 0 F( 3, 594) = 4.78 Prob > F = 0.0027
Die Ergebnisse dieses Tests weisen die Nullhypothese zurück, dass die Koeffizienten fürread in allen drei Gleichungen gleichzeitig gleich 0 sind, mit anderen Worten, die Koeffizienten für read sind für alle drei Ergebnisse zusammengenommen statistisch signifikant.
Zweitens können wir die Nullhypothese testen, dass die Koeffizienten für prog=2 (identifiziert als 2.prog) und prog=3 (identifiziert als 3.prog) in der Gleichung für locus_of_control gleichzeitig gleich 0 sind. Bei Verwendung zum Testen der Koeffizienten für Dummy-Variablen, die einen einzelnen kategorialen Prädiktor bilden, wird diese Art von Test manchmal als Gesamttest für den Effekt des kategorialen Prädiktors (d. h. prog) bezeichnet. Beachten Sie, dass der Variablenname in Klammern (d. h. locus_of_control) angibt, zu welcher Gleichung der getestete Koeffizient gehört, wobei die Gleichung durch den Namen der Ergebnisvariable identifiziert wird.
test 2.prog 3.prog ( 1) 2.prog = 0 ( 2) 3.prog = 0 F( 2, 594) = 6.83 Prob > F = 0.0012
Die Ergebnisse des obigen Tests zeigen, dass die beiden Koeffizienten zusammen signifikant von 0 verschieden sind, mit anderen Worten, der Gesamteffekt von prog auf locus_of_control ist statistisch signifikant.
Das nächste Beispiel testet die Nullhypothese, dass der Koeffizient für die Variable write in der Gleichung mit locus_of_control als Ergebnis gleich dem Koeffizienten für write in der Gleichung mit self_concept als Ergebnis ist. Die vom Testbefehl ausgegebene Nullhypothese ist, dass die Differenz der Koeffizienten 0 ist, was eine andere Art ist, zu sagen, dass zwei Koeffizienten gleich sind. Eine andere Art, diese Nullhypothese zu formulieren, ist, dass der Effekt von write auf locus_of_control gleich dem Effekt von write auf self_concept ist.
test write = write ( 1) write - write = 0 F( 1, 594) = 11.89 Prob > F = 0.0006
Die Ergebnisse dieses Tests zeigen, dass die Differenz zwischen den Koeffizienten für Schreiben mit locus_of_control und self_concept als Ergebnis signifikant verschieden von 0 ist, mit anderen Worten, die Koeffizienten sind signifikant verschieden.
Für das letzte Beispiel testen wir die Nullhypothese, dass der Koeffizient für Wissenschaft in der Gleichung für locus_of_control gleich dem Koeffizienten für Wissenschaft in der Gleichung für self_concept ist, und dass der Koeffizient für die Variable write in der Gleichung mit der Ergebnisvariable locus_of_control gleich dem Koeffizienten für write in der Gleichung mit der Ergebnisvariable self_concept ist. Wir haben die Differenz der Koeffizienten für write im letzten Beispiel getestet, also können wir die Option accum verwenden, um den Test der Differenz der Koeffizienten für science hinzuzufügen, so dass wir beide Koeffizientensätze gleichzeitig testen können.
test science = science, accum ( 1) write - write = 0 ( 2) science - science = 0 F( 2, 594) = 6.39 Prob > F = 0.0018
Die Ergebnisse des obigen Tests zeigen, dass die Unterschiede in den beiden Koeffizientensätzen zusammengenommen statistisch signifikant sind.
Bedenkenswertes
- Die Residuen aus multivariaten Regressionsmodellen werden als multivariat normalverteilt angenommen, analog zur Annahme normalverteilter Fehler bei der univariaten linearen Regression (d. h.Das ist analog zur Annahme normalverteilter Fehler bei der univariaten linearen Regression (z. B. ols-Regression).
- Die multivariate Regressionsanalyse wird für kleine Stichproben nicht empfohlen.
- Die Ergebnisvariablen sollten zumindest mäßig korreliert sein, damit die multivariate Regressionsanalyse sinnvoll ist.
- Wenn die Ergebnisvariablen dichotom sind, dann sollten Sie entweder mvprobit oder biprobit verwenden.
Siehe auch
Stata Online-Handbuch
- manova
- mvreg