Información de la versión: El código de esta página fue probado en Stata 12.
Como su nombre lo indica, la regresión multivariada es una técnica que estima un solo modelo de regresión con más de una variable de resultado. Cuando hay más de una variable predictora en un modelo de regresión multivariante, el modelo es una regresión múltiple multivariante.
Nota: El propósito de esta página es mostrar cómo utilizar varios comandos de análisis de datos.No cubre todos los aspectos del proceso de investigación que se espera que hagan los investigadores. En particular, no cubre la limpieza y comprobación de los datos, la verificación de los supuestos, el diagnóstico del modelo y los posibles análisis de seguimiento.
Ejemplos de regresión multivariante
Ejemplo 1. Un investigador ha recogido datos sobre tres variables psicológicas, cuatro variables académicas (puntuaciones de pruebas estandarizadas) y el tipo de programa educativo en el que se encuentra el alumno para 600 estudiantes de secundaria. Le interesa saber cómo el conjunto de variables psicológicas está relacionado con las variables académicas y el tipo de programa en el que se encuentra el estudiante.
Ejemplo 2. Un médico ha recogido datos sobre el colesterol, la presión arterial y el peso. También ha recogido datos sobre los hábitos alimentarios de los sujetos (por ejemplo, cuántas onzas de carne roja, pescado, productos lácteos y chocolate consumen a la semana). Quiere investigar la relación entre las tres medidas de salud y los hábitos alimentarios.
Ejemplo 3. Un investigador está interesado en determinar qué factores influyen en la salud de las plantas de violeta africana. Recoge datos sobre el diámetro medio de las hojas, la masa del cepellón y el diámetro medio de las flores, así como el tiempo que la planta lleva en su contenedor actual. Para las variables predictoras, mide varios elementos del suelo, así como la cantidad de luz y agua que recibe cada planta.
Descripción de los datos
Sigamos con el Ejemplo 1 de arriba. Tenemos un hipotético conjunto de datos con 600 observaciones sobre siete variables. as variables psicológicas son el locus de control (locus_of_control), el autoconcepto (self_concept) y la motivación (motivation). Las variables académicas son las puntuaciones de las pruebas estandarizadas de lectura (read), escritura (write) y ciencias (science), así como una variable categórica (prog) que da el tipo de programa en el que se encuentra el estudiante (general, académico o vocacional).
Examinemos los datos (tenga en cuenta que no hay valores perdidos en este conjunto de datos).
Métodos de análisis que podría considerar
A continuación se presenta una lista de algunos métodos de análisis que puede haber encontrado. Algunos de los métodos enumerados son bastante razonables, mientras que otros han caído en desgracia o tienen limitaciones.
- Regresión múltiple multivariada, el enfoque de esta página.
- Regresiones OLS separadas: podría analizar estos datos utilizando análisis de regresión OLS separados para cada variable de resultado. Los coeficientes individuales, así como sus errores estándar, serán los mismos que los producidos por la regresión multivariante. Sin embargo, las regresiones OLS no producirán resultados multivariados, ni permitirán probar los coeficientes a través de las ecuaciones.
- El análisis de correlación canónica podría ser factible si no quiere considerar un conjunto de variables como variables de resultado y el otro conjunto como variables de predicción.
Regresión multivariante
Para realizar una regresión multivariante en Stata, necesitamos utilizar dos comandos,manova y mvreg. El comando manova indicará si todas las ecuaciones, tomadas en conjunto, son estadísticamente significativas. Se dan las razones F y los valores p para cuatro criterios multivariados, incluyendo el lambda de Wilks, la traza de Lawley-Hotelling, la traza de Pillai y la raíz mayor de Roy. A continuación, utilizamos el comando mvreg para obtener los coeficientes, los errores estándar, etc., para cada uno de los predictores de cada parte del modelo. También mostraremos el uso del comando test después del comando mvreg. El uso del comando test es una de las razones de peso para realizar un análisis de regresión multivariante.
A continuación ejecutamos el comando manova. Observe el uso de c. delante de los nombres de las variables predictoras continuas – esto es parte de la sintaxis de las variables factoriales introducida en Stata 11. Es necesario utilizar la c. para identificar las variables continuas, porque, por defecto, el comando manova asume que todas las variables predictoras son categóricas.
- Las pruebas para el modo global, que se muestran en la sección etiquetada Modelo (debajo de Fuente), indican que el modelo es estadísticamente significativo, independientemente del tipo de criterio multivariante que se utilice (es decir, todos los valores p son inferiores a 0,0001). Si el modelo global no era estadísticamente significativo, es posible que desee modificarlo antes de ejecutar mvreg.
- Debajo de las pruebas del modelo global, están las pruebas multivariantes para cada una de las variables predictoras. Cada uno de los predictores es estadísticamente significativo en general, independientemente de la prueba que se utilice.
- La salida del comando mvreg se parece mucho a la salida del comando regress, excepto que la salida es para tres ecuaciones (una para cada medida de resultado) en lugar de una. Además de parecerse a la salida de una regresión OLS, la salida se interpreta de forma muy parecida a la salida de una regresión OLS.
- La primera tabla da el número de observaciones, el número de parámetros, el RMSE, el R-cuadrado, la razón F y el valor p para cada uno de los tres modelos.
- Mirando la columna etiquetada como P, vemos que cada uno de los tres modelos univariantes son estadísticamente significativos.
- En la columna etiquetada como R-sq, vemos que las cinco variables predictoras explican el 19%, el 5% y el 15% de la varianza en las variables de resultado locus_of_control, autoconcepto y motivación, respectivamente. (Obsérvese que este valor es un R-cuadrado estándar, no un R-cuadrado ajustado.)
- La segunda tabla contiene los coeficientes, sus errores estándar, el estadístico de prueba (t), los valores p y el intervalo de confianza del 95%, para cada variable predictora del modelo, agrupada por resultado. Como se ha mencionado anteriormente, los coeficientes se interpretan de la misma manera que los coeficientes de una regresión OLS. Por ejemplo, observando la parte superior de la tabla, un cambio de una unidad en la lectura se asocia con un cambio de 0,013 unidades en el valor predicho de locus_of_control.
- Los residuos de los modelos de regresión multivariante se asumen como normales multivariantes.Esto es análogo a la suposición de que los errores se distribuyen normalmente en la regresión lineal univariante (es decir.e. regresión ols).
- El análisis de regresión multivariante no se recomienda para muestras pequeñas.
- Las variables de resultado deben estar al menos moderadamente correlacionadas para que el análisis de regresión multivariante tenga sentido.
- Si las variables de resultado son dicotómicas, entonces usted querrá usar mvprobit o biprobit.
- manova
- mvreg
Podemos utilizar mvreg para obtener estimaciones de los coeficientes de nuestro modelo. Normalmente, mvreg requiere que el usuario especifique tanto las variables de resultado como las predictoras, sin embargo, debido a que acabamos de ejecutar el comando manova, podemos utilizar el comando mvreg, sin entrada adicional, para ejecutar una regresión multivariada correspondiente al modelo que acaba de estimar maova (tenga en cuenta que esta característica se introdujo en Stata 11, si está utilizando una versión anterior de Stata, tendrá que utilizar la sintaxis completa para mvreg).
Si se realizara una regresión OLS por separado para cada variable de resultado, se obtendrían exactamente los mismos coeficientes, errores estándar, valores t y p e intervalos de confianza que se muestran arriba. Entonces, ¿por qué realizar una regresión multivariante? Como hemos mencionado anteriormente, una de las ventajas de utilizar mvreg es que puede realizar pruebas de los coeficientes a través de las diferentes variables de resultado. (Tenga en cuenta que muchas de estas pruebas pueden realizarse después del comando manova, aunque el proceso puede ser más difícil porque hay que crear una serie de contrastes). En los ejemplos siguientes, probamos cuatro hipótesis diferentes.
Para la primera prueba, la hipótesis nula es que los coeficientes de la variable leer son iguales a 0 en las tres ecuaciones. (Tenga en cuenta que esto duplica la prueba para la variable read en la salida del manova anterior.)
test read ( 1) read = 0 ( 2) read = 0 ( 3) read = 0 F( 3, 594) = 4.78 Prob > F = 0.0027
Los resultados de esta prueba rechazan la hipótesis nula de que los coeficientes pararead a través de las tres ecuaciones son simultáneamente iguales a 0, en otras palabras, los coeficientes para read, tomados para los tres resultados juntos, son estadísticamente significativos.
En segundo lugar, podemos probar la hipótesis nula de que los coeficientes para prog=2 (identificado como 2.prog) y prog=3 (identificado como 3.prog) son simultáneamente iguales a 0 en la ecuación para locus_of_control. Cuando se utiliza para probar los coeficientes de las variables ficticias que forman un único predictor categórico, este tipo de prueba se denomina a veces prueba global del efecto del predictor categórico (es decir, prog). Tenga en cuenta que el nombre de la variable entre paréntesis (es decir, locus_of_control) indica a qué ecuación pertenece el coeficiente que se está probando, con la ecuación identificada por el nombre de la variable de resultado.
test 2.prog 3.prog ( 1) 2.prog = 0 ( 2) 3.prog = 0 F( 2, 594) = 6.83 Prob > F = 0.0012
Los resultados de la prueba anterior indican que los dos coeficientes juntos son significativamente diferentes de 0, en otras palabras, el efecto global de prog en locus_of_control es estadísticamente significativo.
El siguiente ejemplo pone a prueba la hipótesis nula de que el coeficiente para la variable escribir en la ecuación con locus_of_control como resultado es igual al coeficiente para escribir en la ecuación con autoconcepto como resultado. La hipótesis nula impresa por el comando de prueba es que la diferencia en los coeficientes es 0, que es otra forma de decir que dos coeficientes son iguales. Otra forma de afirmar esta hipótesis nula es que, que el efecto de la escritura en el locus_of_control es igual al efecto de la escritura en el autoconcepto.
test write = write ( 1) write - write = 0 F( 1, 594) = 11.89 Prob > F = 0.0006
Los resultados de esta prueba indican que la diferencia entre los coeficientes de escribir con locus_of_control y autoconcepto como resultado es significativamente diferente de 0, es decir, los coeficientes son significativamente diferentes.
Para el ejemplo final, probamos la hipótesis nula de que el coeficiente de la ciencia en la ecuación de locus_of_control es igual al coeficiente de la ciencia en la ecuación de self_concept, y que el coeficiente de la variable write en la ecuación con la variable de resultado locus_of_control es igual al coeficiente de write en la ecuación con la variable de resultado self_concept. Probamos la diferencia de los coeficientes para write en el último ejemplo, así que podemos usar la opción accum para añadir la prueba de la diferencia de coeficientes para science, permitiéndonos probar ambos conjuntos de coeficientes al mismo tiempo.
test science = science, accum ( 1) write - write = 0 ( 2) science - science = 0 F( 2, 594) = 6.39 Prob > F = 0.0018
Los resultados de la prueba anterior indican que tomados en conjunto las diferencias en los dos conjuntos de coeficientes es estadísticamente significativa.
Aspectos a tener en cuenta
Vea también
Manual deStata en línea