Sådan bruges multipel regression i Excel
Billedkredit: fizkes/iStock/GettyImages
Excel er et kraftfuldt værktøj til dataanalyse, uanset om du arbejder med et simpelt forhold mellem én uafhængig variabel og en afhængig variabel, eller der er flere uafhængige variable til overveje. At lære om, hvordan man udfører en multivariat analyse i Excel – i form af en multipel regression – og fortolker resultaterne er afgørende, hvis man har komplicerede data at arbejde igennem. Den gode nyhed er, at Excel er godt sat op til at håndtere disse opgaver, og du behøver kun at lære, hvordan én funktion fungerer for at begynde at give mening med dine data.
Hvad er multipel regression?
Multipel regression er en måde at relatere flere uafhængige variable til en enkelt afhængig variabel ved at finde en ligning, der beskriver, hvordan den pågældende variabel ændres med hver. Et mere grundlæggende men lignende værktøj er lineær regression, som har til formål at undersøge sammenhængen mellem én uafhængig variabel, såsom fedme, på en afhængig variabel som risikoen for kræft, men tingene er sjældent dette ligetil. Hvis vi fortsætter med eksemplet, er antallet af cigaretter, der ryges om dagen, også relateret til kræftrisiko, ligesom mængden af alkohol, du drikker. For at komme med en pålidelig forudsigelse af kræftrisiko for en person, skal du tage alle disse faktorer (og flere) i betragtning.
Dagens video
Den generelle form for ligningen, der bruges til flere regressioner, er:
Y^ = -en + b1x1 + b2x2 + b3x3 …
Så Y^ er den forventede værdi for observationen, den b1 og så videre repræsenterer hældningen af det retlinede forhold mellem x1 og Y^, og x1 og så videre indgår variablerne i analysen. Det -en fortæller dig pointen med y- opsnappe. En multipel regression involverer valg af værdier af koefficienterne (b1 og så videre), der minimerer forskellen mellem den forventede værdi Y^ og den observerede værdi Y, hvilket giver dig den bedste pasform mellem modellen og dataene.
Hvad fortæller en multipel regression dig?
Flere regressioner sætter numeriske værdier på sammenhængen mellem et væld af variabler og et udfald, så du kan bruge det til forudsigelser, til at estimere de forskellige variables relative bidrag til resultatet, eller til nogle få andre formål som at vælge de mest relevante variabler til brug i en matematisk model.
Lad os f.eks. sige, at du har data om priserne på huse i en bestemt by (din afhængige variabel) sammen med oplysninger som f.eks. om den har en pool, hvor mange kvadratmeter den fylder, hvor mange soveværelser den har, hvor mange badeværelser den har, og hvor mange garager den har har. En multipel regression ville gøre dig i stand til at se på, hvordan hver af disse faktorer er relateret til prisen på huset, så – efter du så på, hvordan de forholder sig til prisen – du kunne bruge din ligning til at forudsige prisen på et hus baseret på disse punkter alene.
Du kan også bruge denne type regressionsanalyse i Excel til at se på, hvordan en bestemt faktor af mange – som f.eks om huset har en pulje – påvirker den afhængige variabel (huspriser), hvis alle andre variabler forbliver konstant. Hvis du konverterer koefficienterne (kaldet "partielle regressionskoefficienter") til standard partielle regressionskoefficienter, som repræsenterer hvor mange standardafvigelser Y ville ændre sig med, hvis du ændrede den tilsvarende variabel med én standardafvigelse, så fortæller ligningen dig også, hvilke faktorer der er vigtigere for at bestemme resultatet.
Sådan laver du en multipel regression i Excel
Du kan udføre en multivariat regression i Excel ved hjælp af en indbygget funktion, der er tilgængelig via Dataanalyse værktøj under Data fanen og Analyse gruppe. Klik Dataanalyse og find muligheden for regression i vinduet, der dukker op, skal du fremhæve det og klikke Okay. Klik på vælg celler ikon ved siden af Indgang Y-område og vælg derefter den kolonne, der indeholder resultaterne for din afhængige variabel. Gør derefter det samme for Indgang X-område felt, men vælg de flere kolonner for dine uafhængige variabler. Disse kolonner skal være ved siden af hinanden, så hvis de ikke er det, skal du flytte dem, før du producerer regression.
Regression-vinduet har en række yderligere muligheder, du kan vælge for at skræddersy processen, så den passer til dine behov. For eksempel kan du indstille et andet konfidensniveau end 95 procent, hvis du vil, vælge at vise rester og angive, hvor outputtet er placeret i din projektmappe. Denne sidste mulighed indstilles automatisk til Nyt regnearklag, så resultaterne vises på et nyt ark, men du kan ændre denne eller enhver anden mulighed, så den passer til dine behov. Kontroller desuden Etiketter boks, hvis kolonnerne for dine uafhængige variabler har etiketter øverst, så disse vises i outputtet.
Klik Okay at generere din regressionsanalyse i Excel og blive ført til det nye ark.
Regressionsoutput fra Excel
Der er tre hovedafsnit til det output, du bliver præsenteret for efter at have udført en multipel regression i Excel: regressionsstatistik, ANOVA og detaljer på den estimerede regressionslinje. Regressionsstatistikken inkluderer den multiple korrelationskoefficient ("Multiple R"), som viser retningen og styrken af korrelationen, fra -1 til +1. Bestemmelseskoefficienten, "R Square", fortæller dig, hvilken procentdel (som en decimal) af variationen i den afhængige variabel, der forklares af de uafhængige variable. "Adjusted R Square" giver dig en indikation af forklaringskraft, men det er ikke ligetil at fortolke, og "Standardfejlen" giver dig et mål for variationen mellem de observerede resultater og din regression linje.
ANOVA sektionen indeholder statistisk information om størrelsen af variationen forklaret af regressionslinjen, med "SS Regression" fortæller dig mængden forklaret af linjen, og "SS Residual" repræsenterer beløbet ikke forklaret. "MS" sektionerne står for "Mean Square", og "F Statistic" er teststatistikken, der bruges til at teste for et signifikant resultat, hvor "Significance F" sektionen giver dig P-værdien.
Til sidst fortæller det sidste afsnit dig om karakteristikaene for den estimerede regressionslinje, især værdierne af koefficienter, om de er signifikant knyttet til den afhængige variabel, og mængden af variation, der kan være i dem. Positive koefficienter viser en positiv sammenhæng mellem den pågældende variabel og den afhængige variabel, så når den ene stiger, gør den anden det også. Negative værdier betyder, at den afhængige variabel falder, når den uafhængige variabel stiger. Så hvis "square footage"-koefficienten på en husprisers multiple regression er 300, betyder det, at en ekstra kvadratmeter plads øger husets omkostninger med $300 i gennemsnit.
Antagelser og begrænsninger af multipel regression
Det er vigtigt at huske, at multipel regression kun er et værktøj, og som de fleste værktøjer kan du kun bruge det under nogle omstændigheder, og der er nogle ting, det bare ikke kan.
En af de vigtigste begrænsninger er, at det er vanskeligt at konkludere kausalitet på baggrund af resultaterne. Som et eksempel, hvis du har en multipel regression med skaden forårsaget af en brand og mange potentielt relevante faktorer, vil du sandsynligvis finde en signifikant sammenhæng mellem antallet af tilstedeværende brandmænd og skade sket. Det betyder ikke, at brandmændene forårsaget skaden, fordi en anden faktor såsom størrelsen af branden, der ikke er inkluderet i modellen, kunne forklare begge disse observationer.
To vigtige antagelser for en multivariat analyse i Excel af denne type er antagelserne om linearitet og normalitet. Du antager et lineært forhold mellem de afhængige og uafhængige variable, så du bør kontrollere, at dette sandsynligvis er gyldigt, før du udfører analysen. Du kan se på forholdet mellem hver variabel individuelt for at kontrollere, men dette er ikke en perfekt strategi. På samme måde antager testen, at variablerne er normalfordelte, så du bør kontrollere resultaterne for hver for normalitet, før du udfører testen.