Kako uporabljati večkratno regresijo v Excelu
Zasluga slike: fizkes/iStock/GettyImages
Excel je zmogljivo orodje za analizo podatkov, ne glede na to, ali delate s preprostim razmerjem med ena neodvisna spremenljivka in odvisna spremenljivka ali pa obstaja več neodvisnih spremenljivk razmisliti. Naučiti se izvajati multivariatno analizo v Excelu – v obliki večkratne regresije – in interpretirati rezultate, je bistveno, če imate zapletene podatke za obdelavo. Dobra novica je, da je Excel dobro pripravljen za obvladovanje teh nalog in da se morate naučiti le, kako deluje ena funkcija, da začnete razumeti svoje podatke.
Kaj je večkratna regresija?
Večkratna regresija je način povezovanja več neodvisnih spremenljivk z eno odvisno spremenljivko z iskanjem enačbe, ki opisuje, kako se zadevna spremenljivka spreminja z vsako. Bolj osnovno, a podobno orodje je linearna regresija, katere cilj je raziskati povezavo med enim neodvisnim spremenljivko, kot je debelost, na odvisno spremenljivko, kot je tveganje za raka, vendar so stvari redko to naravnost. Če nadaljujemo s primerom, je število pokajenih cigaret na dan povezano tudi s tveganjem za nastanek raka, tako kot količina popitega alkohola. Če želite zanesljivo napovedati tveganje za nastanek raka pri posamezniku, bi morali upoštevati vse te dejavnike (in še več).
Video dneva
Splošna oblika enačbe, ki se uporablja za večkratne regresije, je:
Y^ = a + b1x1 + b2x2 + b3x3 …
Torej Y^ je pričakovana vrednost za opazovanje, t b1 in tako naprej predstavljajo naklon premočrtnega razmerja med x1 in Y^ in x1 in tako naprej so spremenljivke vključene v analizo. The a vam pove bistvo y- prestrezanje. Večkratna regresija vključuje izbiro vrednosti koeficientov (b1 in tako naprej), ki zmanjšajo razliko med pričakovano vrednostjo Y^ in opazovana vrednost Y, kar vam omogoča najboljše ujemanje med modelom in podatki.
Kaj vam pove večkratna regresija?
Več regresij postavlja številčne vrednosti na povezavo med množico spremenljivk in izidom, tako da jo lahko uporabite za napovedi, za oceno relativni prispevki različnih spremenljivk k rezultatu ali za nekaj drugih namenov, kot je izbira najustreznejših spremenljivk za uporabo v matematičnem model.
Recimo, da imate podatke o cenah hiš v določenem mestu (vaša odvisna spremenljivka), skupaj z informacijami, kot je ali ima bazen, koliko kvadratnih metrov zaseda, koliko spalnic ima, koliko kopalnic ima in koliko garaž ima. Večkratna regresija bi vam omogočila, da pogledate, kako je vsak od teh dejavnikov povezan s ceno hiše, torej – po pogledali ste, kako so povezani s ceno – lahko uporabite svojo enačbo za napovedovanje cene hiše na podlagi teh točk sam.
To vrsto regresijske analize lahko uporabite tudi v Excelu, da si ogledate, kako je določen dejavnik mnogih – kot npr ali ima hiša bazen – vpliva na odvisno spremenljivko (cene hiš), če ostanejo vse druge spremenljivke stalna. Če pretvorite koeficiente (imenovane "koeficienti delne regresije") v standardne delne regresijske koeficiente, ki predstavljajo, koliko standardnih odstopanj Y bi se spremenila za, če bi ustrezno spremenljivko spremenili za en standardni odklon, potem vam enačba tudi pove, kateri dejavniki so pomembnejši pri določanju rezultata.
Kako narediti večkratno regresijo v Excelu
V Excelu lahko izvedete večvariatno regresijo z vgrajeno funkcijo, ki je dostopna prek Analiza podatkov orodje pod Podatki zavihek in Analiza skupina. Kliknite Analiza podatkov in poiščite možnost za regresija v oknu, ki se prikaže, ga označite in kliknite v redu. Kliknite na izberite celice ikona poleg Razpon vnosa Y in nato izberite stolpec, ki vsebuje rezultate za vašo odvisno spremenljivko. Nato naredite enako za Vhodni razpon X polje, vendar izberite več stolpcev za svoje neodvisne spremenljivke. Ti stolpci morajo biti drug poleg drugega, tako da če niso, jih morate premakniti, preden ustvarite regresijo.
Okno Regresija ima vrsto dodatnih možnosti, ki jih lahko izberete in prilagodite postopek svojim potrebam. Na primer, lahko nastavite stopnjo zaupanja, ki ni 95 odstotkov, če želite, izberete prikaz ostankov in določite, kje se izhod nahaja v vašem delovnem zvezku. Ta zadnja možnost je samodejno nastavljena na Nov delovni list Ply, tako se rezultati prikažejo na novem listu, vendar lahko spremenite to ali katero koli drugo možnost, da ustreza vašim potrebam. Poleg tega preverite Oznake polje, če imajo stolpci za vaše neodvisne spremenljivke oznake na vrhu, tako da se te prikažejo v izhodu.
Kliknite v redu da ustvarite svojo regresijsko analizo v Excelu in se odprete na nov list.
Regresijski izhod iz Excela
Obstajajo trije glavni razdelki za izhod, ki se vam prikaže po izvedbi večkratne regresije v Excelu: statistika regresije, ANOVA in podrobnosti o ocenjeni regresijski črti. Statistika regresije vključuje koeficient večkratne korelacije ("Multiple R"), ki kaže smer in moč korelacije, od −1 do +1. Koeficient determinacije, "R Square", vam pove, kolikšen odstotek (kot decimalni) variacije v odvisni spremenljivki je razložen z neodvisnimi spremenljivkami. "Prilagojeni kvadrat R" vam nakazuje razlagalno moč, vendar ga ni enostavno razlagati, in "Standardna napaka" vam daje merilo razlike med opaženimi rezultati in vašo regresijo vrstico.
Razdelek ANOVA vsebuje statistične informacije o količini variacije, razložene z regresijsko črto, z "SS Regression", ki vam pove znesek, razložen z vrstico, in "SS Residual", ki predstavlja znesek, ki ni pojasnil. Razdelki "MS" pomenijo "povprečni kvadrat", "F Statistic" pa je testna statistika, ki se uporablja za testiranje pomembnega rezultata, pri čemer vam razdelek "Pomembnost F" daje P-vrednost.
Nazadnje, zadnji razdelek vam pove o značilnostih ocenjene regresijske črte, zlasti o vrednostih koeficienti, ali so pomembno povezani z odvisno spremenljivko, in količino variacije, ki bi lahko bila v njih. Pozitivni koeficienti kažejo pozitivno razmerje med obravnavano spremenljivko in odvisno spremenljivko, tako da ko se ena poveča, se poveča tudi druga. Negativne vrednosti pomenijo, da se odvisna spremenljivka zmanjša, ko se neodvisna spremenljivka poveča. Torej, če je koeficient "kvadratne površine" pri večkratni regresiji cen hiše 300, to pomeni, da dodaten kvadratni meter prostora poveča stroške hiše v povprečju za 300 $.
Predpostavke in omejitve večkratne regresije
Pomembno si je zapomniti, da je večkratna regresija le orodje in kot večino orodij jo lahko uporabite le v nekaterih okoliščinah, nekaj pa je preprosto ne zmore.
Ena najpomembnejših omejitev je, da je na podlagi rezultatov težko sklepati o vzročnosti. Na primer, če imate večkratno regresijo s škodo, ki jo povzroči požar, in številnimi potencialnimi pomembnih dejavnikov, bi verjetno našli pomembno povezavo med številom prisotnih gasilcev in storjena škoda. To ne pomeni, da gasilci povzročil škodo, ker bi drug dejavnik, kot je velikost požara, ki ni vključen v model, lahko pojasnil obe ugotovitvi.
Dve pomembni predpostavki tovrstne multivariatne analize v Excelu sta predpostavki linearnosti in normalnosti. Predpostavljate linearno razmerje med odvisnimi in neodvisnimi spremenljivkami, zato morate pred izvedbo analize preveriti, ali je to verjetno veljavno. Če želite preveriti, si lahko ogledate razmerje med vsako spremenljivko posebej, vendar to ni popolna strategija. Podobno test predpostavlja, da so spremenljivke normalno porazdeljene, zato morate pred izvedbo testa preveriti, ali so rezultati za vsako normalni.