Hur man använder multipel regression i Excel
Bildkredit: fizkes/iStock/GettyImages
Excel är ett kraftfullt verktyg för dataanalys, oavsett om du arbetar med en enkel relation mellan en oberoende variabel och en beroende variabel eller så finns det flera oberoende variabler till överväga. Att lära sig om hur man utför en multivariat analys i Excel – i form av en multipel regression – och tolkar resultaten är viktigt om du har komplicerade data att arbeta igenom. Den goda nyheten är att Excel är väl inställt för att hantera dessa uppgifter, och du behöver bara lära dig hur en funktion fungerar för att börja förstå dina data.
Vad är multipel regression?
Multipel regression är ett sätt att relatera flera oberoende variabler till en enda beroende variabel genom att hitta en ekvation som beskriver hur variabeln i fråga förändras med var och en. Ett mer grundläggande men liknande verktyg är linjär regression, som syftar till att undersöka kopplingen mellan en oberoende variabel, såsom fetma, på en beroende variabel som risken för cancer, men saker är sällan detta enkel. För att fortsätta med exemplet är antalet cigaretter som röks per dag också relaterat till cancerrisken, liksom mängden alkohol du dricker. För att komma med en tillförlitlig förutsägelse av cancerrisk för en individ, måste du ta hänsyn till alla dessa faktorer (och mer).
Dagens video
Den allmänna formen av ekvationen som används för flera regressioner är:
Y^ = a + b1x1 + b2x2 + b3x3 …
Så den Y^ är det förväntade värdet för observationen, den b1 och så vidare representerar lutningen av det rätlinjiga förhållandet mellan x1 och Y^, och x1 och så vidare ingår variablerna i analysen. De a berättar poängen med y-genskjuta. En multipel regression innebär att man väljer värden för koefficienterna (b1 och så vidare) som minimerar skillnaden mellan det förväntade värdet Y^ och det observerade värdet Y, vilket ger dig den bästa passformen mellan modellen och data.
Vad säger en multipel regression dig?
Flera regressioner sätter numeriska värden på sambandet mellan en mängd variabler och ett utfall, så du kan använda det för förutsägelser, för att uppskatta de olika variablernas relativa bidrag till resultatet, eller för några andra syften som att välja de mest relevanta variablerna att använda i en matematisk modell.
Säg till exempel att du har data om priserna på hus i en viss stad (din beroende variabel), tillsammans med information som om den har en pool, hur många kvadratmeter den upptar, hur många sovrum den har, hur många badrum den har och hur många garage den har. En multipel regression skulle göra det möjligt för dig att titta på hur var och en av dessa faktorer är relaterade till priset på huset, så – efter du tittade på hur de relaterar till priset – du kan använda din ekvation för att förutsäga priset på ett hus baserat på dessa punkter ensam.
Du kan också använda den här typen av regressionsanalys i Excel för att titta på hur en specifik faktor av många – som t.ex om huset har en pool – påverkar den beroende variabeln (huspriser) om alla andra variabler finns kvar konstant. Om du omvandlar koefficienterna (kallade "partiella regressionskoefficienter") till standard partiella regressionskoefficienter, som representerar hur många standardavvikelser Y skulle ändras med om du ändrade motsvarande variabel med en standardavvikelse, då berättar ekvationen också vilka faktorer som är viktigare för att bestämma resultatet.
Hur man gör en multipel regression i Excel
Du kan utföra en multivariat regression i Excel med en inbyggd funktion som är tillgänglig via Dataanalys verktyg under Data fliken och Analys grupp. Klick Dataanalys och hitta alternativet för regression i fönstret som dyker upp, markera det och klicka OK. Klicka på markera celler ikonen bredvid Ingång Y-intervall och välj sedan kolumnen som innehåller resultaten för din beroende variabel. Gör sedan samma sak för Ingång X-intervall men välj flera kolumner för dina oberoende variabler. Dessa kolumner måste ligga bredvid varandra, så om de inte är det måste du flytta dem innan du producerar regressionen.
Regressionsfönstret har en rad ytterligare alternativ som du kan välja för att skräddarsy processen för att passa dina behov. Du kan till exempel ställa in en annan konfidensnivå än 95 procent om du vill, välja att visa rester och ange var utdata ska placeras i din arbetsbok. Det sista alternativet ställs automatiskt in på Nytt arbetsbladslag, så resultaten visas på ett nytt ark, men du kan ändra detta eller något annat alternativ för att passa dina behov. Kontrollera dessutom Etiketter rutan om kolumnerna för dina oberoende variabler har etiketter överst, så att dessa visas i utdata.
Klick OK för att generera din regressionsanalys i Excel och tas till det nya arket.
Regressionsutgången från Excel
Det finns tre huvudsektioner för utdata som du presenteras för efter att ha gjort en multipel regression i Excel: regressionsstatistik, ANOVA och detaljer på den beräknade regressionslinjen. Regressionsstatistiken inkluderar multipelkorrelationskoefficienten ("Multipel R") som visar korrelationens riktning och styrka, från -1 till +1. Bestämningskoefficienten, "R Square", talar om för dig hur stor procentandel (som en decimal) av variationen i den beroende variabeln som förklaras av de oberoende variablerna. "Adjusted R Square" ger dig en indikation på förklaringskraft, men den är inte enkel att tolka, och "Standardfel" ger dig ett mått på variationen mellan de observerade resultaten och din regression linje.
ANOVA-sektionen innehåller statistisk information om mängden variation som förklaras av regressionslinjen, med "SS-regression" som talar om beloppet som förklaras av raden, och "SS-residual" representerar beloppet som inte förklarade. "MS"-sektionerna står för "Mean Square" och "F Statistic" är teststatistiken som används för att testa för ett signifikant resultat, med "Significance F"-sektionen som ger dig P-värdet.
Slutligen, det sista avsnittet berättar om egenskaperna hos den uppskattade regressionslinjen, i synnerhet värdena för koefficienter, om de är signifikant kopplade till den beroende variabeln, och mängden variation det kan finnas i dem. Positiva koefficienter visar ett positivt samband mellan variabeln i fråga och den beroende variabeln, så när den ena ökar gör den andra det också. Negativa värden betyder att den beroende variabeln minskar när den oberoende variabeln ökar. Så om "kvadratfot"-koefficienten på en husprismultipel regression är 300, betyder det att ytterligare en kvadratfot utrymme ökar kostnaden för huset med $300 i genomsnitt.
Antaganden och begränsningar för multipel regression
Det är viktigt att komma ihåg att multipel regression bara är ett verktyg, och som de flesta verktyg kan du bara använda det under vissa omständigheter, och det finns vissa saker som det bara inte kan göra.
En av de viktigaste begränsningarna är att det är svårt att dra slutsatser om kausalitet utifrån resultaten. Som ett exempel, om du har en multipel regression med skadan orsakad av en brand och många potentiellt relevanta faktorer, skulle du sannolikt hitta en signifikant koppling mellan antalet närvarande brandmän och skada skedd. Det betyder inte att brandmännen orsakade skadan eftersom en annan faktor som storleken på branden som inte ingår i modellen skulle kunna förklara båda dessa observationer.
Två viktiga antaganden för en multivariat analys i Excel av denna typ är antagandena om linjäritet och normalitet. Du antar ett linjärt samband mellan de beroende och oberoende variablerna, så du bör kontrollera att detta sannolikt är giltigt innan du utför analysen. Du kan titta på förhållandet mellan varje variabel individuellt för att kontrollera, men detta är inte en perfekt strategi. På samma sätt förutsätter testet att variablerna är normalfördelade, så du bör kontrollera resultaten för var och en för normalitet innan du genomför testet.