Comment utiliser la régression multiple dans Excel
Crédit d'image : fizkes/iStock/GettyImages
Excel est un outil puissant pour l'analyse de données, que vous travailliez avec une relation simple entre une variable indépendante et une variable dépendante ou il y a plusieurs variables indépendantes à envisager. Apprendre à effectuer une analyse multivariée dans Excel - sous la forme d'une régression multiple - et interpréter les résultats est essentiel si vous avez des données compliquées à traiter. La bonne nouvelle est qu'Excel est bien configuré pour gérer ces tâches, et il vous suffit d'apprendre comment fonctionne une fonction pour commencer à donner un sens à vos données.
Qu'est-ce que la régression multiple?
La régression multiple est un moyen de relier plusieurs variables indépendantes à une seule variable dépendante en trouvant une équation qui décrit comment la variable en question change avec chacune. Un outil plus basique mais similaire est la régression linéaire, qui vise à étudier le lien entre un variable, comme l'obésité, sur une variable dépendante comme le risque de cancer, mais les choses sont rarement aussi directe. Poursuivant avec l'exemple, le nombre de cigarettes fumées par jour est également lié au risque de cancer, tout comme la quantité d'alcool que vous buvez. Pour arriver à une prédiction fiable du risque de cancer pour un individu, vous devez prendre en compte tous ces facteurs (et plus).
Vidéo du jour
La forme générale de l'équation utilisée pour les régressions multiples est :
Oui^ = une + b1X1 + b2X2 + b3X3 …
Alors le Oui^ est la valeur attendue pour l'observation, le b1 et ainsi de suite représentent la pente de la relation linéaire entre X1 et Oui^, et le X1 et ainsi de suite sont les variables incluses dans l'analyse. Les une vous indique le point de la oui-intercepter. Une régression multiple consiste à choisir les valeurs des coefficients (b1 et ainsi de suite) qui minimisent la différence entre la valeur attendue Oui^ et la valeur observée Oui, vous donnant le meilleur ajustement entre le modèle et les données.
Que vous dit une régression multiple?
Les régressions multiples mettent des valeurs numériques sur l'association entre une multitude de variables et un résultat, vous pouvez donc l'utiliser pour des prédictions, pour estimer le contributions relatives des différentes variables au résultat, ou à quelques autres fins comme la sélection des variables les plus pertinentes à utiliser dans un calcul mathématique maquette.
Par exemple, supposons que vous ayez des données sur les prix des maisons dans une certaine ville (votre variable dépendante), ainsi que des informations telles que s'il a une piscine, combien de pieds carrés il occupe, combien de chambres il a, combien de salles de bain il a et combien de garages il a a. Une régression multiple vous permettrait de voir comment chacun de ces facteurs est lié au prix de la maison, donc - après vous avez regardé comment ils se rapportent au prix - vous pouvez utiliser votre équation pour prédire le prix d'une maison en fonction de ces points seul.
Vous pouvez également utiliser ce type d'analyse de régression dans Excel pour voir comment un facteur spécifique parmi plusieurs, tel que si la maison a une piscine – affecte la variable dépendante (prix des maisons) si toutes les autres variables restent constant. Si vous convertissez les coefficients (appelés "coefficients de régression partielle") en coefficients de régression partielle standard, qui représentent le nombre d'écarts types Oui changerait de si vous modifiiez la variable correspondante d'un écart type, l'équation vous indique également quels facteurs sont les plus importants pour déterminer le résultat.
Comment faire une régression multiple dans Excel
Vous pouvez effectuer une régression multivariée dans Excel à l'aide d'une fonction intégrée accessible via le L'analyse des données outil sous le Données onglet et le Analyse grouper. Cliquez sur L'analyse des données et trouvez l'option pour régression dans la fenêtre qui s'ouvre, mettez-le en surbrillance et cliquez sur d'accord. Clique sur le sélectionner des cellules icône à côté du Plage d'entrée Y puis sélectionnez la colonne contenant les résultats de votre variable dépendante. Ensuite, faites de même pour le Plage d'entrée X mais sélectionnez les colonnes multiples pour vos variables indépendantes. Ces colonnes doivent être côte à côte, donc si elles ne le sont pas, vous devez les déplacer avant de produire la régression.
La fenêtre Régression propose une gamme d'options supplémentaires que vous pouvez sélectionner pour adapter le processus à vos besoins. Par exemple, vous pouvez définir un niveau de confiance autre que 95 % si vous le souhaitez, choisir d'afficher les résidus et spécifier où la sortie est placée dans votre classeur. Cette dernière option est automatiquement définie sur Nouveau pli de feuille de calcul, les résultats s'affichent donc sur une nouvelle feuille, mais vous pouvez modifier cette option ou toute autre option en fonction de vos besoins. De plus, vérifiez le Étiquettes case si les colonnes de vos variables indépendantes ont des étiquettes en haut, de sorte qu'elles s'affichent dans la sortie.
Cliquez sur d'accord pour générer votre analyse de régression dans Excel et être redirigé vers la nouvelle feuille.
La sortie de régression d'Excel
Il y a trois sections principales à la sortie qui vous est présentée après avoir effectué une régression multiple dans Excel: statistiques de régression, ANOVA et détails sur la ligne de régression estimée. Les statistiques de régression incluent le coefficient de corrélation multiple ("Multiple R") qui montre la direction et la force de la corrélation, de -1 à +1. Le coefficient de détermination, « R Square », vous indique quel pourcentage (sous forme décimale) de la variation de la variable dépendante est expliqué par les variables indépendantes. Le "R carré ajusté" vous donne une indication du pouvoir explicatif, mais il n'est pas simple à interpréter, et l'"Erreur Standard" vous donne une mesure de la variation entre les résultats observés et votre régression ligne.
La section ANOVA contient des informations statistiques sur le montant de la variation expliquée par la droite de régression, avec "SS Regression" vous indiquant le montant expliqué par la ligne, et "SS Residual" représentant le montant non expliqué. Les sections « MS » signifient « Mean Square » et la « statistique F » est la statistique de test utilisée pour tester un résultat significatif, la section « Significance F » vous donnant la valeur P.
Enfin, la dernière section vous renseigne sur les caractéristiques de la droite de régression estimée, en particulier, les valeurs de la coefficients, s'ils sont significativement liés à la variable dépendante, et la quantité de variation qu'il pourrait y avoir en eux. Les coefficients positifs montrent une relation positive entre la variable en question et la variable dépendante, donc quand l'un augmente, l'autre augmente aussi. Les valeurs négatives signifient que la variable dépendante diminue à mesure que la variable indépendante augmente. Ainsi, si le coefficient de « pieds carrés » sur une régression multiple des prix d'une maison est de 300, cela signifie qu'un pied carré supplémentaire d'espace augmente le coût de la maison de 300 $ en moyenne.
Hypothèses et limites de la régression multiple
Il est important de se rappeler que la régression multiple n'est qu'un outil, et comme la plupart des outils, vous ne pouvez l'utiliser que dans certaines circonstances, et il y a certaines choses qu'elle ne peut tout simplement pas faire.
L'une des limitations les plus importantes est qu'il est difficile de conclure à la causalité sur la base des résultats. A titre d'exemple, si vous avez une régression multiple avec les dégâts causés par un incendie et de nombreux potentiellement facteurs pertinents, vous trouverez probablement un lien significatif entre le nombre de pompiers présents et le dommages causés. Cela ne veut pas dire que les pompiers causé les dommages car un autre facteur tel que la taille de l'incendie non inclus dans le modèle pourrait expliquer ces deux observations.
Deux hypothèses importantes d'une analyse multivariée dans Excel de ce type sont les hypothèses de linéarité et de normalité. Vous supposez une relation linéaire entre les variables dépendantes et indépendantes, vous devez donc vérifier que cela est susceptible d'être valide avant d'effectuer l'analyse. Vous pouvez examiner la relation entre chaque variable individuellement pour vérifier, mais ce n'est pas une stratégie parfaite. De même, le test suppose que les variables sont distribuées normalement, vous devez donc vérifier la normalité des résultats de chacune avant de procéder au test.