Hvordan bruke dummy-variabler i Excel-regresjon

click fraud protection

Last inn dataanalyseverktøyet fra Excel-tilleggene, inkludert i alle versjoner av Excel. Du må gjøre dette for å utføre en regresjon eller annen type dataanalyse. Ved å klikke på "Verktøy" åpnes en rullegardinmeny. Velg "Add-ins" og fra menyen som åpnes, sjekk "Analysis ToolPak" og klikk "OK". "Dataanalyse" skal vises i Verktøy-menyen.

Skriv inn dataene du skal bruke for regresjonen i et Excel-regneark, og koder eventuelle dummyvariabler med verdien 1 eller 0, avhengig av om emnet har den aktuelle egenskapen. Kjønn er et eksempel på en dummyvariabel, siden en studies emner bare kan være menn eller kvinner. En studie av opptaksprøver på høyskoler som inkluderte fagenes kjønn, for eksempel, kan kode kvinnelige studenter med 1. Å bruke dummyvariabler blant de uavhengige variablene krever ingen spesielle funksjoner i Excel. Husk at hvis en dummyvariabel bare har to kategorier (som mann eller kvinne), er det bare nødvendig med én variabel for å representere de to kategoriene.

Kod kategoriske variabler med mer enn to kategorier som flere dummyvariabler, og pass på at antallet variabler er én mindre enn antallet kategorier (n-1, i statistiske termer). For eksempel vil kategorien etnisitet uttrykt som fem nivåer (hvit, svart, latinamerikansk, asiatisk, amerikansk indisk) kreve fire separate dummyvariabler. Hvis du for eksempel studerte opptaksprøver på høyskoler, kan du lage følgende dummy variabler: svart, latinamerikansk, asiatisk og amerikansk indianer, koder hver en 1 hvis den aktuelle studenten passer til den etniske kategori.

Utvid Excels kapasitet for regresjon med dummyvariabler med et tillegg som lar programmet utføre regresjoner med dummyavhengige variabler. Et slikt program er XLStat, tilgjengelig for kjøp og nedlasting fra produsenten, Addinsoft. Programmer som dette lar deg utføre regresjoner der den avhengige variabelen tar verdiene eller enten 1 eller 0.

Advarsel

En vanlig feil blant nybegynnere er å bruke like mange dummyvariabler som det finnes kategorier (som for eksempel to dummyvariabler for mannlige og kvinnelige). En slik tilnærming ville skape multikollinearitet, der to uavhengige variabler er sterkt korrelerte, noe som gjør det nesten umulig å bestemme deres separate effekter på den avhengige variabelen. Husk at antall dummyvariabler alltid skal én mindre enn antallet kategorier.