Hvordan bruke multippel regresjon i Excel

Afrikansk forretningskvinne som analyserer prosjektstatistikk på bærbar skjerm, nærbilde

Hvordan bruke multippel regresjon i Excel

Bildekreditt: fizkes/iStock/GettyImages

Excel er et kraftig verktøy for dataanalyse, enten du jobber med et enkelt forhold mellom én uavhengig variabel og en avhengig variabel eller det er flere uavhengige variabler til ta i betraktning. Å lære om hvordan du utfører en multivariat analyse i Excel – i form av en multippel regresjon – og tolker resultatene er avgjørende hvis du har kompliserte data å jobbe gjennom. Den gode nyheten er at Excel er godt konfigurert for å håndtere disse oppgavene, og du trenger bare å lære hvordan én funksjon fungerer for å begynne å forstå dataene dine.

Hva er multippel regresjon?

Multippel regresjon er en måte å relatere flere uavhengige variabler til en enkelt avhengig variabel ved å finne en ligning som beskriver hvordan den aktuelle variabelen endres med hver. Et mer grunnleggende men lignende verktøy er lineær regresjon, som tar sikte på å undersøke sammenhengen mellom en uavhengig variabel, som fedme, på en avhengig variabel som risikoen for kreft, men ting er sjelden dette rett fram. For å fortsette med eksemplet, er antall sigaretter som røykes per dag også relatert til kreftrisiko, og det samme gjelder mengden alkohol du drikker. For å komme med en pålitelig prediksjon av kreftrisiko for en person, må du ta alle disse faktorene (og flere) i betraktning.

Dagens video

Den generelle formen for ligningen som brukes for flere regresjoner er:

Y^ = en + b1x1 + b2x2 + b3x3

Y^ er forventet verdi for observasjonen, den b1 og så videre representerer stigningstallet til forholdet mellom rett linje x1 og Y^, og x1 og så videre er variablene inkludert i analysen. De en forteller deg poenget med y-avskjære. En multippel regresjon innebærer å velge verdier av koeffisientene (b1 og så videre) som minimerer forskjellen mellom forventet verdi Y^ og den observerte verdien Y, noe som gir deg den beste tilpasningen mellom modellen og dataene.

Hva forteller en multippel regresjon deg?

Flere regresjoner setter numeriske verdier på assosiasjonen mellom en mengde variabler og et utfall, slik at du kan bruke det til forutsigelser, for å estimere relative bidrag fra de forskjellige variablene til resultatet, eller for noen få andre formål som å velge de mest relevante variablene som skal brukes i en matematisk modell.

For eksempel, si at du har data om prisene på hus i en bestemt by (din avhengige variabel), sammen med informasjon som om det har et basseng, hvor mange kvadratmeter det opptar, hvor mange soverom det har, hvor mange bad det har og hvor mange garasjer det har har. En multippel regresjon vil gjøre deg i stand til å se på hvordan hver av disse faktorene er relatert til prisen på huset, så – etter du så på hvordan de forholder seg til prisen – du kan bruke ligningen din til å forutsi prisen på et hus basert på disse punktene alene.

Du kan også bruke denne typen regresjonsanalyse i Excel for å se på hvordan en spesifikk faktor av mange – som f.eks om huset har et basseng – påvirker den avhengige variabelen (boligpriser) hvis alle andre variabler består konstant. Hvis du konverterer koeffisientene (kalt "partielle regresjonskoeffisienter") til standard partielle regresjonskoeffisienter, som representerer hvor mange standardavvik Y ville endret med hvis du endret den tilsvarende variabelen med ett standardavvik, så forteller ligningen deg også hvilke faktorer som er viktigere for å bestemme resultatet.

Hvordan gjøre en multippel regresjon i Excel

Du kan utføre en multivariat regresjon i Excel ved å bruke en innebygd funksjon som er tilgjengelig via Dataanalyse verktøy under Data fanen og Analyse gruppe. Klikk Dataanalyse og finn alternativet for regresjon i vinduet som dukker opp, merk det og klikk OK. Klikk på velg celler ikonet ved siden av Inndata Y-område og velg deretter kolonnen som inneholder resultatene for den avhengige variabelen. Deretter gjør du det samme for Inngang X-område feltet, men velg de flere kolonnene for de uavhengige variablene dine. Disse kolonnene må være ved siden av hverandre, så hvis de ikke er det, må du flytte dem før du produserer regresjonen.

Regresjonsvinduet har en rekke tilleggsalternativer du kan velge for å skreddersy prosessen til dine behov. Du kan for eksempel angi et annet konfidensnivå enn 95 prosent hvis du vil, velge å vise rester og spesifisere hvor utdataene skal plasseres i arbeidsboken. Dette siste alternativet settes automatisk til Nytt regnearklag, så resultatene vises på et nytt ark, men du kan endre dette eller et hvilket som helst annet alternativ for å passe dine behov. Sjekk i tillegg Etiketter boksen hvis kolonnene for de uavhengige variablene dine har etiketter øverst, slik at disse vises i utdataene.

Klikk OK for å generere regresjonsanalysen din i Excel og bli ført til det nye arket.

Regresjonsutdata fra Excel

Det er tre hovedseksjoner til utdataene du blir presentert for etter å ha utført en multippel regresjon i Excel: regresjonsstatistikk, ANOVA og detaljer på den estimerte regresjonslinjen. Regresjonsstatistikken inkluderer den multiple korrelasjonskoeffisienten ("Multippel R") som viser retningen og styrken til korrelasjonen, fra -1 til +1. Bestemmelseskoeffisienten, "R Square," forteller deg hvilken prosentandel (som en desimal) av variasjonen i den avhengige variabelen som forklares av de uavhengige variablene. "Adjusted R Square" gir deg en indikasjon på forklaringskraft, men det er ikke lett å tolke, og "Standardfeil" gir deg et mål på variasjonen mellom de observerte resultatene og regresjonen din linje.

ANOVA-delen inneholder statistisk informasjon om mengden av variasjonen forklart av regresjonslinjen, med "SS Regression" som forteller deg beløpet forklart av linjen, og "SS Residual" representerer beløpet som ikke forklart. "MS"-seksjonene står for "Mean Square", og "F Statistic" er teststatistikken som brukes til å teste for et signifikant resultat, med "Significance F"-delen som gir deg P-verdien.

Til slutt, den siste delen forteller deg om egenskapene til den estimerte regresjonslinjen, spesielt verdiene til koeffisienter, om de er signifikant knyttet til den avhengige variabelen, og mengden variasjon det kan være i dem. Positive koeffisienter viser en positiv sammenheng mellom den aktuelle variabelen og den avhengige variabelen, så når den ene øker, gjør den andre det også. Negative verdier betyr at den avhengige variabelen avtar når den uavhengige variabelen øker. Så hvis "kvadratfot"-koeffisienten på en boligpris-multippel regresjon er 300, betyr dette at en ekstra kvadratfot med plass øker kostnaden for huset med $300 i gjennomsnitt.

Forutsetninger og begrensninger ved multippel regresjon

Det er viktig å huske at multippel regresjon bare er et verktøy, og som de fleste verktøy kan du bare bruke det under noen omstendigheter, og det er noen ting det bare ikke kan gjøre.

En av de viktigste begrensningene er at det er vanskelig å konkludere årsakssammenheng på grunnlag av resultatene. Som et eksempel, hvis du har en multippel regresjon med skaden gjort av en brann og mange potensielt relevante faktorer, vil du sannsynligvis finne en signifikant sammenheng mellom antall brannmenn som er tilstede og skade gjort. Dette betyr ikke at brannmennene forårsaket skaden fordi en annen faktor som størrelsen på brannen som ikke er inkludert i modellen kan forklare begge disse observasjonene.

To viktige forutsetninger for en multivariat analyse i Excel av denne typen er forutsetningene om linearitet og normalitet. Du antar et lineært forhold mellom de avhengige og uavhengige variablene, så du bør sjekke at dette sannsynligvis er gyldig før du utfører analysen. Du kan se på forholdet mellom hver variabel individuelt for å sjekke, men dette er ikke en perfekt strategi. På samme måte forutsetter testen at variablene er normalfordelte, så du bør sjekke resultatene for hver for normalitet før du utfører testen.