Ako používať viacnásobnú regresiu v Exceli
Kredit za obrázok: fizkes/iStock/GettyImages
Excel je výkonný nástroj na analýzu údajov, či už medzi nimi pracujete s jednoduchým vzťahom jedna nezávislá premenná a závislá premenná alebo existuje viacero nezávislých premenných zvážiť. Naučiť sa, ako vykonávať viacrozmernú analýzu v Exceli – vo forme viacnásobnej regresie – a interpretovať výsledky, je nevyhnutné, ak potrebujete prepracovať zložité údaje. Dobrou správou je, že Excel je dobre nastavený na zvládnutie týchto úloh a stačí sa naučiť, ako funguje jedna funkcia, aby ste začali dávať svojim údajom zmysel.
Čo je viacnásobná regresia?
Viacnásobná regresia je spôsob spájania viacerých nezávislých premenných s jednou závislou premennou nájdením rovnice, ktorá popisuje, ako sa daná premenná mení s každou z nich. Základnejším, ale podobným nástrojom je lineárna regresia, ktorej cieľom je preskúmať prepojenie medzi jedným nezávislým premennej, ako je obezita, od závislej premennej, akou je riziko rakoviny, ale takéto veci sú len zriedka priamočiary. Pokračujúc v príklade, počet vyfajčených cigariet za deň tiež súvisí s rizikom rakoviny, rovnako ako množstvo alkoholu, ktoré vypijete. Ak chcete prísť so spoľahlivou predpoveďou rizika rakoviny pre jednotlivca, musíte vziať do úvahy všetky tieto faktory (a ďalšie).
Video dňa
Všeobecný tvar rovnice používanej pre viacnásobné regresie je:
Y^ = a + b1X1 + b2X2 + b3X3 …
Takže Y^ je očakávaná hodnota pozorovania, b1 a tak ďalej predstavujú sklon priameho vzťahu medzi X1 a Y^ a X1 a tak ďalej sú premenné zahrnuté do analýzy. The a vám povie pointu r- zachytiť. Viacnásobná regresia zahŕňa výber hodnôt koeficientov (b1 a tak ďalej), ktoré minimalizujú rozdiel medzi očakávanou hodnotou Y^ a pozorovaná hodnota Y, čím získate najlepšiu zhodu medzi modelom a údajmi.
Čo vám povie viacnásobná regresia?
Viacnásobné regresie priraďujú číselné hodnoty asociácii medzi množstvom premenných a výsledkom, takže ich môžete použiť na predpovede, na odhad relatívne príspevky rôznych premenných k výsledku alebo na niekoľko ďalších účelov, ako je výber najrelevantnejších premenných na použitie v matematickom Model.
Povedzme napríklad, že máte údaje o cenách domov v určitom meste (vaša závislá premenná) spolu s informáciami ako napr či má bazén, koľko štvorcových stôp zaberá, koľko má spální, koľko má kúpeľní a koľko garáží má. Viacnásobná regresia by vám umožnila pozrieť sa na to, ako každý z týchto faktorov súvisí s cenou domu, takže – potom pozreli ste sa, ako súvisia s cenou – svoju rovnicu by ste mohli použiť na predpovedanie ceny domu na základe týchto bodov sám.
Tento typ regresnej analýzy môžete použiť aj v Exceli, aby ste sa pozreli na to, ako konkrétny faktor mnohých – ako napr či má dom bazén – ovplyvňuje závislú premennú (ceny domov), ak zostávajú všetky ostatné premenné konštantný. Ak prevediete koeficienty (nazývané „koeficienty parciálnej regresie“) na štandardné koeficienty parciálnej regresie, ktoré predstavujú, koľko štandardných odchýlok Y by sa zmenil o, ak by ste zmenili zodpovedajúcu premennú o jednu štandardnú odchýlku, potom vám rovnica tiež povie, ktoré faktory sú dôležitejšie pri určovaní výsledku.
Ako urobiť viacnásobnú regresiu v Exceli
V Exceli môžete vykonať viacrozmernú regresiu pomocou vstavanej funkcie, ktorá je prístupná cez Analýza dát nástroj pod Údaje kartu a Analýza skupina. Kliknite Analýza dát a nájsť možnosť pre regresia v okne, ktoré sa objaví, ho zvýraznite a kliknite OK. Klikni na vyberte bunky ikona vedľa Vstupný rozsah Y a potom vyberte stĺpec obsahujúci výsledky pre vašu závislú premennú. Potom urobte to isté pre Vstupný rozsah X ale vyberte viacero stĺpcov pre svoje nezávislé premenné. Tieto stĺpce musia byť vedľa seba, takže ak nie sú, musíte ich pred vytvorením regresie presunúť.
Okno Regresie má celý rad ďalších možností, ktoré si môžete vybrať, aby ste proces prispôsobili vašim potrebám. Môžete napríklad nastaviť inú úroveň spoľahlivosti ako 95 percent, ak chcete, zvoliť zobrazenie zvyškov a určiť, kde sa v zošite umiestni výstup. Táto posledná možnosť je automaticky nastavená na Nová vrstva pracovného listu, takže výsledky sa zobrazia na novom hárku, ale túto alebo akúkoľvek inú možnosť môžete zmeniť podľa svojich potrieb. Okrem toho skontrolujte Štítky Ak majú stĺpce pre vaše nezávislé premenné štítky navrchu, zobrazia sa vo výstupe.
Kliknite OK na vygenerovanie regresnej analýzy v Exceli a prechod na nový hárok.
Regresný výstup z Excelu
Po vykonaní viacnásobnej regresie v Exceli sa zobrazia tri hlavné časti výstupu: regresná štatistika, ANOVA a podrobnosti o odhadovanej regresnej línii. Štatistika regresie zahŕňa viacnásobný korelačný koeficient ("Multiple R"), ktorý ukazuje smer a silu korelácie od -1 do +1. Koeficient determinácie, "R Square", vám hovorí, aké percento (ako desatinné číslo) variácie v závislej premennej je vysvetlené nezávislými premennými. „Upravený štvorec R“ vám naznačuje vysvetľujúcu silu, ale nie je jednoduché ho interpretovať, a "Štandardná chyba" vám poskytuje mieru odchýlky medzi pozorovanými výsledkami a vašou regresiou riadok.
Časť ANOVA obsahuje štatistické informácie o veľkosti variácie vysvetlenej regresnou čiarou, pričom „Regresia SS“ vám hovorí sumu vysvetlenú v riadku a „Zostatok SS“ predstavuje sumu, ktorá nie je vysvetlil. Sekcie „MS“ znamenajú „stredný štvorec“ a „štatistika F“ je testovacia štatistika používaná na testovanie významného výsledku, pričom časť „Významnosť F“ vám dáva P-hodnotu.
Nakoniec, posledná časť vám povie o charakteristikách odhadovanej regresnej priamky, najmä o hodnotách koeficienty, či sú významne spojené so závislou premennou a množstvo variácií, ktoré v nich môžu byť. Kladné koeficienty ukazujú pozitívny vzťah medzi príslušnou premennou a závislou premennou, takže keď sa zvýši jedna, zvýši sa aj druhá. Záporné hodnoty znamenajú, že závislá premenná klesá, keď sa zvyšuje nezávislá premenná. Ak je teda koeficient „rozmery štvorcových“ pri viacnásobnej regresii cien domu 300, znamená to, že dodatočná štvorcová stopa priestoru zvyšuje náklady domu v priemere o 300 USD.
Predpoklady a obmedzenia viacnásobnej regresie
Je dôležité si uvedomiť, že viacnásobná regresia je iba nástroj a ako väčšinu nástrojov ho môžete použiť len za určitých okolností a sú veci, ktoré jednoducho nedokáže.
Jedným z najdôležitejších obmedzení je, že vyvodenie kauzality na základe výsledkov je ťažké. Napríklad, ak máte viacnásobnú regresiu so škodami spôsobenými požiarom a potenciálne mnohými relevantných faktorov, pravdepodobne by ste našli významnú súvislosť medzi počtom prítomných hasičov a spôsobená škoda. To neznamená, že hasiči spôsobil poškodenie, pretože iný faktor, ako je veľkosť požiaru, ktorý nie je zahrnutý v modeli, by mohol vysvetliť obe tieto pozorovania.
Dva dôležité predpoklady multivariačnej analýzy v Exceli tohto typu sú predpoklady linearity a normality. Predpokladáte lineárny vzťah medzi závislými a nezávislými premennými, takže pred vykonaním analýzy by ste mali skontrolovať, či je to pravdepodobne platné. Vzťah medzi každou premennou si môžete skontrolovať jednotlivo, ale toto nie je dokonalá stratégia. Podobne test predpokladá, že premenné sú normálne rozdelené, takže pred vykonaním testu by ste mali skontrolovať normalitu výsledkov každej z nich.