Info de version : Le code de cette page a été testé dans Stata 12.
Comme son nom l’indique, la régression multivariée est une technique qui estime un seul modèle de régression avec plus d’une variable de résultat. Lorsqu’il y a plus d’une variable prédictive dans un modèle de régression multivariée, le modèle est une régression multiple multivariée.
Note : L’objectif de cette page est de montrer comment utiliser diverses commandes d’analyse de données.Elle ne couvre pas tous les aspects du processus de recherche que les chercheurs doivent effectuer. En particulier, elle ne couvre pas le nettoyage et la vérification des données, la vérification des hypothèses, les diagnostics de modèle et les analyses de suivi potentielles.
Exemples de régression multivariée
Exemple 1. Une chercheuse a recueilli des données sur trois variables psychologiques, quatre variables académiques (résultats de tests standardisés) et le type de programme éducatif dans lequel l’élève se trouve pour 600 élèves du secondaire. Elle s’intéresse à la façon dont l’ensemble des variables psychologiques est lié aux variables académiques et au type de programme dans lequel se trouve l’élève.
Exemple 2. Un médecin a recueilli des données sur le cholestérol, la pression artérielle et le poids. Elle a également recueilli des données sur les habitudes alimentaires des sujets (par exemple, combien d’onces de viande rouge, de poisson, de produits laitiers et de chocolat consommés par semaine). Elle veut étudier la relation entre les trois mesures de la santé et les habitudes alimentaires.
Exemple 3. Une chercheuse souhaite déterminer les facteurs qui influencent la santé des plants de Violettes africaines. Elle recueille des données sur le diamètre moyen des feuilles, la masse de la motte et le diamètre moyen des fleurs, ainsi que sur la durée pendant laquelle la plante est restée dans son contenant actuel. Pour les variables prédictives, elle mesure plusieurs éléments dans le sol, ainsi que la quantité de lumière et d’eau que reçoit chaque plante.
Description des données
Poursuivons l’exemple 1 ci-dessus. Nous avons un ensemble de données hypothétique avec 600 observations sur sept variables. es variables psychologiques sont le locus de contrôle (locus_of_control), le concept de soi (self_concept), et la motivation (motivation). Les variables académiques sont les scores aux tests standardisés en lecture (read), en écriture (write) et en sciences (science), ainsi qu’une variable catégorielle (prog) donnant le type de programme dans lequel se trouve l’élève (général, académique ou professionnel).
Examinons les données (notez qu’il n’y a pas de valeurs manquantes dans cet ensemble de données).
Méthodes d’analyse que vous pourriez envisager
Vous trouverez ci-dessous une liste de quelques méthodes d’analyse que vous avez peut-être rencontrées. Certaines des méthodes énumérées sont tout à fait raisonnables, tandis que d’autres sont tombées en désuétude ou présentent des limites.
- Régression multiple multivariée, objet de cette page.
- Régressions MCO distinctes – Vous pourriez analyser ces données en utilisant des analyses de régression MCO distinctes pour chaque variable de résultat. Les coefficients individuels, ainsi que leurs erreurs standard seront les mêmes que ceux produits par la régression multivariée. Cependant, les régressions MCO ne produiront pas de résultats multivariés et ne permettront pas de tester les coefficients entre les équations.
- L’analyse de corrélation canonique pourrait être réalisable si vous ne voulez pas considérer un ensemble de variables comme des variables de résultat et l’autre ensemble comme des variables prédictives.
Régression multivariée
Pour effectuer une régression multivariée dans Stata, nous devons utiliser deux commandes,manova et mvreg. La commande manova indiquera si toutes les équations, prises ensemble, sont statistiquement significatives. Les rapports F et les valeurs p pour quatre critères multivariés sont donnés, notamment le lambda de Wilks, la trace de Lawley-Hotelling, la trace de Pillai et la plus grande racine de Roy. Ensuite, nous utilisons la commande mvreg pour obtenir les coefficients, les erreurs standard, etc., pour chacun des prédicteurs dans chaque partie du modèle. Nous allons également montrer l’utilisation de la commande test après la commande mvreg. L’utilisation de la commande test est l’une des raisons impérieuses pour effectuer une analyse de régression multivariée.
Ci-après, nous exécutons la commande manova. Notez l’utilisation de c. devant les noms des variables prédicteurs continues – cela fait partie de la syntaxe des variables factorielles introduite dans Stata 11. Il est nécessaire d’utiliser le c. pour identifier les variables continues, car, par défaut, la commande manova suppose que toutes les variables prédicteurs sont catégoriques.
- Les tests pour le mode global, présentés dans la section intitulée Modèle (sousSource), indiquent que le modèle est statistiquement significatif, quel que soit le type de critère multivarié utilisé (c’est-à-dire que toutes les valeurs p sont inférieures à 0,0001). Si le modèle global n’était pas statistiquement significatif, vous pourriez vouloir le modifier avant d’exécuter mvreg.
- Sous les tests du modèle global, se trouvent les tests multivariés pour chacune des variables prédicteurs. Chacun des prédicteurs est statistiquement significatif dans l’ensemble, quel que soit le test utilisé.
Nous pouvons utiliser mvreg pour obtenir des estimations des coefficients de notre modèle. Normalement, mvreg exige que l’utilisateur spécifie à la fois les variables de résultat et les variables prédicteurs, cependant, comme nous venons d’exécuter la commande manova, nous pouvons utiliser la commande mvreg, sans entrée supplémentaire, pour exécuter une régression multivariée correspondant au modèle qui vient d’être estimé par maova (notez que cette fonctionnalité a été introduite dans Stata 11, si vous utilisez une version antérieure de Stata, vous devrez utiliser la syntaxe complète de mvreg).
- La sortie de la commande mvreg ressemble beaucoup à la sortie de la commande regress, sauf que la sortie concerne trois équations (une pour chaque mesure de résultat) au lieu d’une. En plus de ressembler à la sortie d’une régression MCO, la sortie est interprétée à peu près comme la sortie d’une régression MCO.
- Le premier tableau donne le nombre d’observations, le nombre de paramètres, le RMSE, le R-carré, le rapport F et la valeur p pour chacun des trois modèles.
- En regardant la colonne intitulée P, nous voyons que chacun des trois modèles univariés est statistiquement significatif.
- Dans la colonne intitulée R-sq, nous voyons que les cinq variables prédicteurs expliquent 19%, 5% et 15% de la variance des variables de résultat locus_of_control,self_concept et motivation, respectivement. (Notez que cette valeur est un R-carré standard, et non un R-carré ajusté.)
- Le deuxième tableau contient les coefficients, leurs erreurs standard, la statistique de test (t), les valeurs p, et l’intervalle de confiance à 95 %, pour chaque variable prédictive du modèle, regroupée par résultat. Comme mentionné ci-dessus, les coefficients sont interprétés de la même manière que les coefficients d’une régression MCO. Par exemple, en regardant le haut du tableau, une variation d’une unité de lecture est associée à une variation de 0,013 unité de la valeur prédite de locus_of_control.
Si vous effectuiez une régression MCO distincte pour chaque variable de résultat, vous obtiendriez exactement les mêmes coefficients, erreurs standard, valeurs t et p, et intervalles de confiance, comme indiqué ci-dessus. Alors pourquoi effectuer une régression multivariée ? Comme nous l’avons mentionné précédemment, l’un des avantages de l’utilisation de mvreg est que vous pouvez effectuer des tests des coefficients sur les différentes variables de résultat. (Veuillez noter que bon nombre de ces tests peuvent être effectués après la commande manova, bien que le processus puisse être plus difficile car une série de contrastes doit être créée). Dans les exemples ci-dessous, nous testons quatre hypothèses différentes.
Pour le premier test, l’hypothèse nulle est que les coefficients de la variable lire sont égaux à 0 dans les trois équations. (Notez que cela duplique le test pour la variable read dans la sortie manova ci-dessus.)
test read ( 1) read = 0 ( 2) read = 0 ( 3) read = 0 F( 3, 594) = 4.78 Prob > F = 0.0027
Les résultats de ce test rejettent l’hypothèse nulle selon laquelle les coefficients de read à travers les trois équations sont simultanément égaux à 0. En d’autres termes, les coefficients de read, pris pour les trois résultats ensemble, sont statistiquement significatifs.
Deuxièmement, nous pouvons tester l’hypothèse nulle selon laquelle les coefficients pour prog=2 (identifié comme 2.prog) et prog=3 (identifié comme 3.prog) sont simultanément égaux à 0 dans l’équation pour locus_of_control. Lorsqu’il est utilisé pour tester les coefficients des variables fictives qui forment un seul prédicteur catégorique, ce type de test est parfois appelé un test global pour l’effet du prédicteur catégorique (c’est-à-dire prog). Notez que le nom de la variable entre parenthèses (c’est-à-dire locus_of_control) indique à quelle équation appartient le coefficient testé, l’équation étant identifiée par le nom de la variable de résultat.
test 2.prog 3.prog ( 1) 2.prog = 0 ( 2) 3.prog = 0 F( 2, 594) = 6.83 Prob > F = 0.0012
Les résultats du test ci-dessus indiquent que les deux coefficients ensemble sont significativement différents de 0, en d’autres termes, l’effet global de prog sur locus_of_control est statistiquement significatif.
L’exemple suivant teste l’hypothèse nulle selon laquelle le coefficient de la variable write dans l’équation avec locus_of_control comme résultat est égal au coefficient de write dans l’équation avec self_concept comme résultat. L’hypothèse nulle imprimée par la commande test est que la différence entre les coefficients est égale à 0, ce qui est une autre façon de dire que deux coefficients sont égaux. Une autre façon d’énoncer cette hypothèse nulle est que, que l’effet de l’écriture sur le locus_of_control est égal à l’effet de l’écriture sur le self_concept.
test write = write ( 1) write - write = 0 F( 1, 594) = 11.89 Prob > F = 0.0006
Les résultats de ce test indiquent que la différence entre les coefficients de write avec locus_of_control et self_concept comme résultat est significativement différente de 0, autrement dit, les coefficients sont significativement différents.
Pour le dernier exemple, nous testons l’hypothèse nulle selon laquelle le coefficient de la science dans l’équation du locus_of_control est égal au coefficient de la science dans l’équation du self_concept, et que le coefficient de la variable write dans l’équation avec la variable locus_of_control comme résultat est égal au coefficient de la variable write dans l’équation avec la variable self_concept comme résultat. Nous avons testé la différence des coefficients pour write dans le dernier exemple, nous pouvons donc utiliser l’option accum pour ajouter le test de la différence des coefficients pour science, ce qui nous permet de tester les deux ensembles de coefficients en même temps.
test science = science, accum ( 1) write - write = 0 ( 2) science - science = 0 F( 2, 594) = 6.39 Prob > F = 0.0018
Les résultats du test ci-dessus indiquent que pris ensemble, les différences entre les deux ensembles de coefficients sont statistiquement significatives.
Considérations à prendre en compte
- Les résidus des modèles de régression multivariés sont supposés être normaux multivariés.Cela est analogue à l’hypothèse d’erreurs normalement distribuées dans la régression linéaire univariée (i.e. la régression ols).
- L’analyse de régression multivariée n’est pas recommandée pour les petits échantillons.
- Les variables de résultat doivent être au moins modérément corrélées pour que l’analyse de régression multivariée ait un sens.
- Si les variables de résultat sont dichotomiques, alors vous voudrez utiliser soit mvprobit soit biprobit.
Voir aussi
Manuel en ligne deStata
- manova
- mvreg
.