Analiza regresji wielorakiej | Stata Data Analysis Examples

Informacja o wersji: Kod dla tej strony został przetestowany w Stata 12.

Jak sama nazwa wskazuje, regresja wieloraka jest techniką, która szacuje pojedynczy model regresji z więcej niż jedną zmienną wynikową. Gdy w modelu regresji wielorakiej występuje więcej niż jedna zmienna przewidywana, model ten jest regresją wieloraką.

Uwaga: Celem tej strony jest pokazanie, jak używać różnych poleceń do analizy danych.Nie obejmuje ona wszystkich aspektów procesu badawczego, których oczekuje się od badaczy. W szczególności, nie obejmuje czyszczenia i sprawdzania danych, weryfikacji założeń, diagnostyki modeli i potencjalnych dalszych analiz.

Przykłady regresji wielorakiej

Przykład 1. Badacz zebrał dane na temat trzech zmiennych psychologicznych, czterech zmiennych akademickich (wyniki testów standaryzowanych) oraz rodzaju programu edukacyjnego, w którym uczestniczy uczeń, dla 600 uczniów szkoły średniej. Interesuje ją, w jaki sposób zestaw zmiennych psychologicznych jest związany ze zmiennymi akademickimi i rodzajem programu, w którym uczestniczy uczeń.

Przykład 2. Lekarz zebrał dane na temat cholesterolu, ciśnienia krwi i wagi. Zebrała również dane na temat nawyków żywieniowych badanych (np. ile uncji czerwonego mięsa, ryb, produktów mlecznych i czekolady spożywali tygodniowo). Chcemy zbadać związek między tymi trzema miarami zdrowia a nawykami żywieniowymi.

Przykład 3. Badacz jest zainteresowany ustaleniem, jakie czynniki wpływają na zdrowotność roślin fiołka afrykańskiego. Zbiera dane o średniej średnicy liści, masie bryły korzeniowej i średniej średnicy kwiatów, a także o tym, jak długo roślina przebywa w obecnym pojemniku. Dla zmiennych predykcyjnych, mierzy kilka elementów w glebie, jak również ilość światła i wody, które otrzymuje każda roślina.

Opis danych

Prześledźmy przykład 1 z góry. Mamy hipotetyczny zbiór danych zawierający 600 obserwacji na siedmiu zmiennych. Zmienne psychologiczne to umiejscowienie kontroli (locus_of_control), samoakceptacja (self_concept) i motywacja (motivation). Zmienne akademickie to wyniki testów standaryzowanych w czytaniu (read), pisaniu (write) i naukach ścisłych (science), jak również zmienna kategoryczna (prog) określająca rodzaj programu, w którym uczeń jest (ogólny, akademicki lub zawodowy).

Przyjrzyjrzyjmy się danym (zauważ, że nie ma brakujących wartości w tym zestawie danych).

Metody analizy, które możesz rozważyć

Poniżej znajduje się lista niektórych metod analizy, z którymi mogłeś się zetknąć. Niektóre z wymienionych metod są całkiem rozsądne, podczas gdy inne albo wypadły z łask, albo mają ograniczenia.

Regresja wieloraka, główny temat tej strony.
Oddzielne regresje OLS – Można analizować te dane używając oddzielnych analiz regresji OLS dla każdej zmiennej wyniku. Poszczególne współczynniki, jak również ich błędy standardowe będą takie same jak te uzyskane w regresji wielorakiej. Jednak regresje OLS nie dadzą wyników wielowymiarowych, ani nie pozwolą na testowanie współczynników w różnych równaniach.
Kanoniczna analiza korelacji może być wykonalna, jeśli nie chcesz rozważać jednego zestawu zmiennych jako zmiennych wyniku, a drugiego zestawu jako zmiennych predykcyjnych.

Regresja wieloczynnikowa

Aby przeprowadzić regresję wieloczynnikową w Stacie, musimy użyć dwóch poleceń, manova i mvreg. Polecenie manova wskaże, czy wszystkie równania, razem wzięte, są statystycznie istotne. Podane są współczynniki F i wartości p dla czterech kryteriów wielowymiarowych, w tym lambda Wilks’a, ślad Lawley’a-Hotellinga, ślad Pillai’a i największy korzeń Roy’a. Następnie używamy polecenia mvreg, aby uzyskać współczynniki, błędy standardowe itd. dla każdego z predyktorów w każdej części modelu. Pokażemy również użycie polecenia test po poleceniu mvreg. Użycie polecenia test jest jednym z istotnych powodów przeprowadzania analizy regresji wielorakiej.

Poniżej uruchamiamy polecenie manova. Zwróć uwagę na użycie c. przed nazwami zmiennych ciągłych – jest to część składni zmiennych czynnikowych wprowadzonej w Stata 11. Konieczne jest użycie c. do identyfikacji zmiennych ciągłych, ponieważ domyślnie polecenie manova zakłada, że wszystkie zmienne predykcyjne są kategoryczne.

Testy dla modelu ogólnego, pokazane w sekcji oznaczonej jako Model (underSource), wskazują, że model jest statystycznie istotny, niezależnie od rodzaju zastosowanych kryteriów wielowymiarowych (tj. wszystkie wartości p są mniejsze niż 0,0001). Jeśli ogólny model nie był statystycznie istotny, możesz chcieć go zmodyfikować przed uruchomieniem mvreg.
Poniżej testów ogólnego modelu znajdują się testy wielowymiarowe dla każdej zmiennej predykcyjnej. Każdy z predyktorów jest ogólnie statystycznie istotny, niezależnie od tego, który test jest używany.

Możemy użyć mvreg do uzyskania oszacowań współczynników w naszym modelu. Normalnie mvreg wymaga od użytkownika podania zarówno zmiennych wynikowych jak i predyktorów, jednakże, ponieważ właśnie uruchomiliśmy polecenie manova, możemy użyć polecenia mvreg, bez dodatkowych danych wejściowych, aby uruchomić regresję wielowymiarową odpowiadającą modelowi właśnie oszacowanemu przez maova (zauważ, że ta funkcja została wprowadzona w Stata 11, jeśli używasz wcześniejszej wersji Stata, będziesz musiał użyć pełnej składni mvreg).

Wyjście z polecenia mvreg wygląda tak samo jak wyjście z polecenia regress, z wyjątkiem tego, że wyjście jest dla trzech równań (po jednym dla każdej miary wyniku) zamiast jednego. Oprócz wyglądu jak dane wyjściowe regresji OLS, dane wyjściowe są interpretowane podobnie jak dane wyjściowe regresji OLS.
Pierwsza tabela podaje liczbę obserwacji, liczbę parametrów, RMSE, R-kwadrat, współczynnik F i wartość p dla każdego z trzech modeli.
- Spoglądając na kolumnę oznaczoną P, widzimy, że każdy z trzech modeli jednoczynnikowych jest statystycznie istotny.
- W kolumnie oznaczonej R-sq widzimy, że pięć zmiennych predyktorów wyjaśnia 19%, 5% i 15% wariancji zmiennych wynikowych, odpowiednio: locus_of_control, self_concept i motivation. (Zwróć uwagę, że wartość ta jest standardowym kwadratem R, a nie skorygowanym kwadratem R.)
Druga tabela zawiera współczynniki, ich błędy standardowe, statystykę testową (t), wartości p i 95% przedział ufności, dla każdej zmiennej predykcyjnej w modelu, pogrupowane według wyniku. Jak wspomniano powyżej, współczynniki są interpretowane w taki sam sposób, w jaki interpretowane są współczynniki z regresji OLS. Na przykład, patrząc na górę tabeli, zmiana o jedną jednostkę w odczycie jest związana ze zmianą o 0,013 jednostki w przewidywanej wartości locus_of_control.

Jeśli przeprowadziłbyś oddzielną regresję OLS dla każdej zmiennej wyniku, otrzymałbyś dokładnie te same współczynniki, błędy standardowe, wartości t i p oraz przedziały ufności, jak pokazano powyżej. Po co więc przeprowadzać regresję wieloczynnikową? Jak wspomnieliśmy wcześniej, jedną z zalet używania mvreg jest to, że można przeprowadzić testy współczynników dla różnych zmiennych wynikowych. (Proszę zauważyć, że wiele z tych testów może być wykonanych po poleceniu manova, chociaż proces ten może być trudniejszy, ponieważ trzeba utworzyć serię kontrastów). W poniższych przykładach testujemy cztery różne hipotezy.

W przypadku pierwszego testu hipoteza zerowa brzmi, że współczynniki dla zmiennej czytanie są równe 0 we wszystkich trzech równaniach. (Zauważ, że jest to duplikat testu dla zmiennej read w powyższym wyjściu manova.)

test read ( 1) read = 0 ( 2) read = 0 ( 3) read = 0 F( 3, 594) = 4.78 Prob > F = 0.0027

Wyniki tego testu odrzucają hipotezę zerową, że współczynniki dlaread we wszystkich trzech równaniach są jednocześnie równe 0, innymi słowy, współczynniki dla read, wzięte dla wszystkich trzech wyników razem, są statystycznie istotne.

Po drugie, możemy przetestować hipotezę zerową, że współczynniki dla prog=2 (identyfikowane jako 2.prog) i prog=3 (identyfikowane jako 3.prog) są jednocześnie równe 0 w równaniu dla locus_of_control. Kiedy używa się go do testowania współczynników dla zmiennych dummy, które tworzą pojedynczy predyktor kategoryczny, ten rodzaj testu jest czasami nazywany ogólnym testem efektu predyktora kategorycznego (tj. prog). Zauważ, że nazwa zmiennej w nawiasie (np. locus_of_control) wskazuje, do którego równania należy testowany współczynnik, przy czym równanie to jest identyfikowane przez nazwę zmiennej wynikowej.

test 2.prog 3.prog ( 1) 2.prog = 0 ( 2) 3.prog = 0 F( 2, 594) = 6.83 Prob > F = 0.0012

Wyniki powyższego testu wskazują, że oba współczynniki łącznie są istotnie różne od 0, innymi słowy, ogólny wpływ prog na locus_of_control jest istotny statystycznie.

Kolejny przykład testuje hipotezę zerową, że współczynnik dla zmiennej pisać w równaniu z locus_of_control jako wynikiem jest równy współczynnikowi dla pisać w równaniu z self_concept jako wynikiem. Hipoteza zerowa wypisana przez polecenie test jest taka, że różnica współczynników wynosi 0, co jest innym sposobem powiedzenia, że dwa współczynniki są równe. Innym sposobem wyrażenia tej hipotezy zerowej jest stwierdzenie, że wpływ pisania na locus_of_control jest równy wpływowi pisania na self_concept.

test write = write ( 1) write - write = 0 F( 1, 594) = 11.89 Prob > F = 0.0006

Wyniki tego testu wskazują, że różnica między współczynnikami dla write z locus_of_control i self_concept jako wynikiem jest istotnie różna od 0, innymi słowy, współczynniki te są istotnie różne.

Dla ostatniego przykładu testujemy hipotezę zerową, że współczynnik dla nauki w równaniu dla locus_of_control jest równy współczynnikowi dla nauki w równaniu dla self_concept oraz że współczynnik dla zmiennej write w równaniu ze zmienną wynikową locus_of_control jest równy współczynnikowi dla write w równaniu ze zmienną wynikową self_concept. W ostatnim przykładzie przetestowaliśmy różnicę współczynników dla write, więc możemy użyć opcji accum, aby dodać test różnicy współczynników dla science, co pozwoli nam przetestować oba zestawy współczynników w tym samym czasie.

test science = science, accum ( 1) write - write = 0 ( 2) science - science = 0 F( 2, 594) = 6.39 Prob > F = 0.0018

Wyniki powyższego testu wskazują, że razem wzięte różnice w dwóch zestawach współczynników są istotne statystycznie.

Rzeczy do rozważenia

Zakłada się, że reszty z modeli regresji wielorakiej są wielowymiarowo normalne.Jest to analogiczne do założenia o normalnie rozłożonych błędach w jednoczynnikowej regresji liniowej (i.e. regresja ols).
Analiza regresji wielorakiej nie jest zalecana dla małych prób.
Zmienne wynikowe powinny być przynajmniej umiarkowanie skorelowane, aby analiza regresji wielorakiej miała sens.
Jeżeli zmienne wynikowe są dychotomiczne, to należy użyć mvprobit lub biprobit.

Zobacz także

Stata Online Manual

manova
mvreg