Kako koristiti višestruku regresiju u Excelu

Afrička poslovna žena analizira statistiku projekta na zaslonu prijenosnog računala, izbliza

Kako koristiti višestruku regresiju u Excelu

Zasluga slike: fizkes/iStock/GettyImages

Excel je moćan alat za analizu podataka, bilo da radite s jednostavnim odnosom između njih jedna nezavisna varijabla i zavisna varijabla ili postoji više nezavisnih varijabli za smatrati. Učenje o tome kako izvesti multivarijantnu analizu u Excelu – u obliku višestruke regresije – i interpretirati rezultate, bitno je ako imate komplicirane podatke za obradu. Dobra vijest je da je Excel dobro postavljen za rješavanje ovih zadataka i trebate samo naučiti kako jedna funkcija funkcionira da biste počeli razumjeti svoje podatke.

Što je višestruka regresija?

Višestruka regresija je način povezivanja više nezavisnih varijabli s jednom ovisnom varijablom pronalaženjem jednadžbe koja opisuje kako se dotična varijabla mijenja sa svakom od njih. Osnovniji, ali sličniji alat je linearna regresija, koja ima za cilj istražiti vezu između jedne neovisne varijabla, kao što je pretilost, na ovisnu varijablu kao što je rizik od raka, ali stvari su rijetko takve izravna. Nastavljajući s primjerom, broj popušenih cigareta dnevno također je povezan s rizikom od raka, kao i količina alkohola koju pijete. Da biste došli do pouzdanog predviđanja rizika od raka za pojedinca, trebali biste uzeti u obzir sve ove čimbenike (i više).

Video dana

Opći oblik jednadžbe koja se koristi za višestruke regresije je:

Y^ = a + b1x1 + b2x2 + b3x3

Dakle, Y^ je očekivana vrijednost za promatranje, the b1 i tako dalje predstavljaju nagib pravocrtnog odnosa između x1 i Y^ i x1 i tako dalje su varijable uključene u analizu. The a govori vam poantu y- presretanje. Višestruka regresija uključuje odabir vrijednosti koeficijenata (b1 i tako dalje) koji minimaliziraju razliku između očekivane vrijednosti Y^ i promatrana vrijednost Y, što vam daje najbolje uklapanje između modela i podataka.

Što vam govori višestruka regresija?

Višestruke regresije stavljaju numeričke vrijednosti na povezanost između mnoštva varijabli i ishoda, tako da ih možete koristiti za predviđanja, za procjenu relativni doprinos različitih varijabli rezultatu ili za nekoliko drugih svrha kao što je odabir najrelevantnijih varijabli za korištenje u matematičkom model.

Na primjer, recimo da imate podatke o cijenama kuća u određenom gradu (vaša zavisna varijabla), zajedno s informacijama kao što su ima li bazen, koliko kvadrata zauzima, koliko ima spavaćih soba, koliko kupaonica ima i koliko garaža ima. Višestruka regresija omogućila bi vam da pogledate kako je svaki od ovih čimbenika povezan s cijenom kuće, pa – nakon pogledali ste kako se odnose na cijenu – mogli biste upotrijebiti svoju jednadžbu da predvidite cijenu kuće na temelju ovih točaka sama.

Također možete koristiti ovu vrstu regresijske analize u Excelu kako biste pogledali kako određeni faktor od mnogih – kao npr ima li kuća bazen – utječe na zavisnu varijablu (cijene kuća) ako ostaju sve ostale varijable konstantno. Ako pretvorite koeficijente (koji se nazivaju "koeficijenti djelomične regresije") u standardne koeficijente djelomične regresije, koji predstavljaju koliko standardnih odstupanja Y promijenila bi se za ako promijenite odgovarajuću varijablu za jednu standardnu ​​devijaciju, tada vam jednadžba također govori koji su čimbenici važniji u određivanju rezultata.

Kako napraviti višestruku regresiju u Excelu

Možete izvesti viševarijantnu regresiju u Excelu pomoću ugrađene funkcije koja je dostupna putem Analiza podataka alat ispod Podaci kartica i Analiza skupina. Klik Analiza podataka i pronađite opciju za regresija u prozoru koji se pojavi, označite ga i kliknite u redu. Klikni na odaberite ćelije ikona pored Unos Y raspon polje, a zatim odaberite stupac koji sadrži rezultate za vašu ovisnu varijablu. Zatim, učinite isto za Ulaz X raspon polje, ali odaberite više stupaca za svoje nezavisne varijable. Ovi stupci moraju biti jedan do drugog, pa ako nisu, morate ih premjestiti prije nego što proizvedete regresiju.

Prozor Regresije ima niz dodatnih opcija koje možete odabrati kako biste prilagodili proces svojim potrebama. Na primjer, možete postaviti razinu pouzdanosti različitu od 95 posto ako želite, odabrati prikaz reziduala i odrediti gdje se izlaz nalazi u vašoj radnoj knjizi. Ova posljednja opcija se automatski postavlja na Novi radni list Ply, pa se rezultati prikazuju na novom listu, ali možete promijeniti ovu ili bilo koju drugu opciju kako bi odgovarala vašim potrebama. Dodatno, provjerite Oznake okvir ako stupci za vaše nezavisne varijable imaju oznake na vrhu, tako da se one prikazuju u izlazu.

Klik u redu za generiranje vaše regresijske analize u Excelu i preusmjeravanje na novi list.

Regresijski izlaz iz Excela

Postoje tri glavna odjeljka za izlaz koji vam je predstavljen nakon što izvršite višestruku regresiju u Excelu: statistika regresije, ANOVA i detalji na procijenjenoj regresijskoj liniji. Statistika regresije uključuje koeficijent višestruke korelacije ("Multiple R") koji pokazuje smjer i snagu korelacije, od −1 do +1. Koeficijent determinacije, "R Square", govori vam koji je postotak (kao decimalni) varijacije zavisne varijable objašnjen nezavisnim varijablama. "Prilagođeni R kvadrat" vam daje naznaku moći objašnjenja, ali nije ga jednostavno protumačiti, a "Standardna pogreška" daje vam mjeru varijacije između uočenih rezultata i vaše regresije crta.

Odjeljak ANOVA sadrži statističke podatke o količini varijacije objašnjene regresijskom linijom, s "SS Regression" koji vam govori iznos objašnjen redom, a "SS Residual" predstavlja iznos koji nije objasnio. Odjeljci "MS" označavaju "Srednji kvadrat", a "F statistika" je testna statistika koja se koristi za testiranje značajnog rezultata, a odjeljak "Značaj F" daje P-vrijednost.

Konačno, posljednji odjeljak govori o karakteristikama procijenjene regresijske linije, posebno o vrijednostima koeficijenti, jesu li značajno povezani s ovisnom varijablom i količinu varijacije koja bi mogla postojati u njima. Pozitivni koeficijenti pokazuju pozitivan odnos između dotične varijable i zavisne varijable, pa kada se jedan povećava, povećava se i drugi. Negativne vrijednosti znače da se zavisna varijabla smanjuje kako se nezavisna varijabla povećava. Dakle, ako je koeficijent "kvadrata" na višestrukoj regresiji cijena kuće 300, to znači da dodatni kvadratni metar prostora povećava cijenu kuće u prosjeku za 300 dolara.

Pretpostavke i ograničenja višestruke regresije

Važno je zapamtiti da je višestruka regresija samo alat, i kao i većinu alata, možete je koristiti samo u nekim okolnostima, a postoje neke stvari koje jednostavno ne može učiniti.

Jedno od najvažnijih ograničenja je da je teško zaključiti uzročnost na temelju rezultata. Na primjer, ako imate višestruku regresiju s oštećenjem uzrokovanom požarom i mnogim potencijalnim relevantnih čimbenika, vjerojatno ćete pronaći značajnu vezu između broja prisutnih vatrogasaca i broja vatrogasaca učinjena šteta. To ne znači da su vatrogasci prouzročio štetu jer bi drugi čimbenik kao što je veličina požara koji nije uključen u model mogao objasniti oba ova opažanja.

Dvije važne pretpostavke multivarijantne analize u Excelu ovog tipa su pretpostavke linearnosti i normalnosti. Pretpostavljate linearni odnos između ovisnih i nezavisnih varijabli, pa biste trebali provjeriti je li to vjerojatno valjano prije izvođenja analize. Možete pogledati odnos između svake varijable pojedinačno kako biste provjerili, ali ovo nije savršena strategija. Slično, test pretpostavlja da su varijable normalno raspoređene, tako da biste trebali provjeriti rezultate za svaku normalnost prije provođenja testa.