Informação de versão: O código para esta página foi testado em Stata 12.
Como o nome implica, a regressão multivariada é uma técnica que estima um único modelo de regressão com mais do que uma variável de resultado. Quando existe mais do que uma variável de previsão num modelo de regressão multivariada, o modelo é uma regressão multivariada múltipla.
Por favor, nota: O objectivo desta página é mostrar como usar vários comandos de análise de dados. Não cobre todos os aspectos do processo de investigação que se espera que os investigadores façam. Em particular, não cobre a limpeza e verificação de dados, verificação de suposições, diagnóstico de modelos e potenciais análises de seguimento.
Exemplos de regressão multivariada
Exemplo 1. Um investigador recolheu dados sobre três variáveis psicológicas, quatro variáveis académicas (resultados de testes padronizados), e o tipo de programa educativo em que o estudante se encontra para 600 estudantes do ensino secundário. Ela está interessada na forma como o conjunto de variáveis psicológicas está relacionado com as variáveis académicas e o tipo de programa em que o estudante se encontra.
Exemplo 2. Um médico recolheu dados sobre colesterol, pressão arterial, e peso. Também recolheu dados sobre os hábitos alimentares dos sujeitos (por exemplo, quantos gramas de carne vermelha, peixe, produtos lácteos, e chocolate consumidos por semana). Ela quer investigar a relação entre as três medidas de saúde e os hábitos alimentares.
Exemplo 3. Uma investigadora está interessada em determinar quais os factores que influenciam a saúde das plantas Violetas Africanas. Ela recolhe dados sobre o diâmetro médio das folhas, a massa do torrão, e o diâmetro médio das flores, bem como há quanto tempo a planta está no seu recipiente actual. Para variáveis preditoras, ela mede vários elementos no solo, bem como a quantidade de luz e água que cada planta recebe.
Descrição dos dados
P>Vamos prosseguir com o Exemplo 1 de cima. Temos um conjunto de dados hipotético com 600 observações sobre sete variáveis. variáveis psicológicas são locus_of_control (locus_of_control), autoconceito (self_concept), emotivação (motivação). As variáveis académicas são resultados de testes padronizados de leitura (leitura), escrita (escrita), e ciência (ciência), bem como uma variável categórica (prog) que dá o tipo de programa em que o estudante se encontra (geral, académico, ou profissional).
Vejamos os dados (note-se que não há valores em falta neste conjunto de dados).
Métodos de análise que poderá considerar
Below é uma lista de alguns métodos de análise que poderá ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros ou caíram em desuso ou têm limitações.
- Regressão múltipla multivariada, o foco desta página.
- Regressão OLS separada – Poderá analisar estes dados utilizando análises de regressão OLS separadas para cada variável de resultado. Os coeficientes individuais, assim como os seus erros padrão serão os mesmos que os produzidos pela regressão multivariada. No entanto, as regressões OLS não produzirão resultados multivariados, nem permitirão testar os coeficientes através de equações.
Análise de correlação canónica poderá ser viável se não quiser considerar um conjunto de variáveis como variáveis de resultado e o outro conjunto como variáveis preditoras.
Regessão multivariada
Para conduzir uma regressão multivariada em Stata, precisamos de usar dois comandos,manova e mvreg. O comando manova indicará se todas as equações, consideradas em conjunto, são estatisticamente significativas. São dados os valores F e p para quatro critérios multivariados, incluindo a lambda de Wilks, o traço de Lawley-Hotelling, o traço de Pillai, e a maior raiz de Roy. Em seguida, utilizamos o comando mvreg para obter os coeficientes, erros padrão, etc., para cada um dos preditores em cada parte do modelo. Mostraremos também o uso do comando de teste após o comando mvreg. A utilização do comando de teste é uma das razões imperiosas para conduzir uma análise de regressão multivariada.
Below, executamos o comando manova. Note-se a utilização de c. em frente dos nomes das variáveis preditoras contínuas – isto faz parte da sintaxe das variáveis de factores introduzida no Stata 11. É necessário usar o c. para identificar as variáveis contínuas, porque, por defeito, o comando manova assume que todas as variáveis preditoras são categóricas.
- Os testes para o modo global, mostrados na secção rotulada Modelo (underSource), indicam que o modelo é estatisticamente significativo, independentemente do tipo de critério multivariado que é usado (ou seja, todos os valores p são inferiores a 0,0001). Se o modelo global não era estatisticamente significativo, talvez se queira modificá-lo antes de executar mvreg.
li>Below the overall model tests, são os testes multivariados para cada uma das variáveis preditoras. Cada um dos preditores é estatisticamente significativo em geral, independentemente do teste utilizado.
Podemos utilizar mvreg para obter estimativas dos coeficientes no nosso modelo. Normalmente o mvreg requer que o utilizador especifique tanto as variáveis de resultado como as variáveis de previsão, contudo, como acabámos de executar o comando manova, podemos usar o comando mvreg, sem entrada adicional, para executar uma regressão multivariada correspondente ao modelo que acabou de ser estimado pelo maova (note que esta funcionalidade foi introduzida no Stata 11, se estiver a usar uma versão anterior do Stata, terá de usar a sintaxe completa para mvreg).
- A saída do comando mvreg parece-se muito com a saída do comando regress, excepto que a saída é para três equações (uma para cada medida de resultado) em vez de uma. Além de se assemelhar ao resultado de uma regressão OLS, o resultado é interpretado muito como o resultado de uma regressão OLS.
- A primeira tabela dá o número de observações, número de parâmetros, RMSE, R-quadrado, F-ratio, e p-valor para cada um dos três modelos.
- Li>Olhando para a coluna rotulada P, vemos que cada um dos três modelos univariados são estatisticamente significativos.
- Li>Na coluna rotulada R-sq, vemos que as cinco variáveis preditoras explicam 19%, 5%, e 15% da variância nas variáveis de resultado locus_of_control,self_concept, e motivação, respectivamente. (Note-se que este valor é um R-quadrado padrão, não um R-quadrado ajustado.)
- A segunda tabela contém os coeficientes, os seus erros padrão, a estatística de teste (t), os valores p, e o intervalo de confiança de 95%, para cada variável preditora no modelo, agrupados por resultado. Como mencionado acima, os coeficientes são interpretados da mesma forma que os coeficientes de uma regressão OLS são interpretados. Por exemplo, olhando para o topo da tabela, uma mudança de uma unidade em leitura está associada a uma mudança de 0,013 unidades no valor previsto de locus_of_control.
Se se executasse uma regressão OLS separada para cada variável de resultado, obteria exactamente os mesmos coeficientes, erros padrão, valores t e p, e intervalos de confiança como mostrado acima. Então, porquê conduzir uma regressão multivariada? Como mencionámos anteriormente, uma das vantagens de utilizar mvreg é que se pode realizar testes dos coeficientes através das diferentes variáveis de resultado. (Note-se que muitos destes testes podem ser realizados após o comando manova, embora o processo possa ser mais difícil porque é necessário criar uma série de contrastes). Nos exemplos abaixo, testamos quatro hipóteses diferentes.
Para o primeiro teste, a hipótese nula é que os coeficientes da variável lida são iguais a 0 em todas as três equações. (Note-se que isto duplica o teste para a variável lida na saída do manova acima.)
test read ( 1) read = 0 ( 2) read = 0 ( 3) read = 0 F( 3, 594) = 4.78 Prob > F = 0.0027
Os resultados deste teste rejeitam a hipótese nula de que os coeficientes lidos nas três equações são simultaneamente iguais a 0, por outras palavras, os coeficientes de leitura, tomados para as três equações em conjunto, são estatisticamente significativos.
Segundo, podemos testar a hipótese nula de que os coeficientes para prog=2 (identificados como 2.prog) e prog=3 (identificados como 3.prog) são simultaneamente iguais a 0 na equação para locus_of_control. Quando usado para testar os coeficientes para variáveis dummy que formam um único preditor categórico, este tipo de teste é por vezes chamado teste global para o efeito do preditor categórico (i.e. prog). Note-se que o nome da variável entre parênteses (i.e. locus_of_control) indica a que equação pertence o coeficiente a testar, com a equação identificada pelo nome da variável de resultado.
test 2.prog 3.prog ( 1) 2.prog = 0 ( 2) 3.prog = 0 F( 2, 594) = 6.83 Prob > F = 0.0012
Os resultados do teste acima indicado indicam que os dois coeficientes juntos são significativamente diferentes de 0, por outras palavras, o efeito global de prog no locus_of_control é estatisticamente significativo.
O exemplo seguinte testa a hipótese nula de que o coeficiente para a variável escreve na equação com locus_of_control como o resultado é igual ao coeficiente para escrever na equação com self_concept como o resultado. A hipótese nula impressa pelo comando teste é que a diferença nos coeficientes é 0, o que é outra forma de dizer que dois coeficientes são iguais. Outra forma de afirmar esta hipótese nula é que, que o efeito da escrita no locus_of_control é igual ao efeito da escrita no auto_conceito.
test write = write ( 1) write - write = 0 F( 1, 594) = 11.89 Prob > F = 0.0006
Os resultados deste teste indicam que a diferença entre os coeficientes para escrever com locus_of_control e self_concept como o resultado é significativamente diferente de 0, por outras palavras, os coeficientes são significativamente diferentes.
Para o exemplo final, testamos a hipótese nula de que o coeficiente da ciência na equação de locus_of_control é igual ao coeficiente da ciência na equação de auto_conceito, e que o coeficiente da variável escrever na equação com a variável de resultado locus_of_control é igual ao coeficiente da escrita na equação com a variável de resultado auto_conceito. Testamos a diferença dos coeficientes de escrita no último exemplo, pelo que podemos utilizar a opção de acumulação para adicionar o teste da diferença dos coeficientes para a ciência, permitindo-nos testar ambos os conjuntos de coeficientes ao mesmo tempo.
test science = science, accum ( 1) write - write = 0 ( 2) science - science = 0 F( 2, 594) = 6.39 Prob > F = 0.0018
Os resultados do teste acima indicado indicam que, em conjunto, as diferenças nos dois conjuntos de coeficientes são estatisticamente significativas.
Coisas a considerar
- Os resíduos dos modelos de regressão multivariada são assumidos como sendo multivariados normais, o que é análogo à hipótese de erros normalmente distribuídos em regressão linear univariada (i.e. ols regression).
- Análise de regressão multivariada não é recomendada para amostras pequenas.
- As variáveis de resultado devem ser pelo menos moderadamente correlacionadas para que a análise de regressão multivariada faça sentido.
- Se as variáveis de resultado forem dicotómicas, então deverá usar ou mvprobit ou biprobit.
See Also
Manual Online da Estatística
- manova
- mvreg