Kā programmā Excel izmantot vairāku regresiju

Āfrikas uzņēmēja, kas analizē projektu statistiku klēpjdatora ekrānā, tuvplānā

Kā programmā Excel izmantot vairāku regresiju

Attēla kredīts: fizkes/iStock/GettyImages

Excel ir spēcīgs datu analīzes rīks neatkarīgi no tā, vai strādājat ar vienkāršu attiecību starp viens neatkarīgs mainīgais un atkarīgs mainīgais vai ir vairāki neatkarīgi mainīgie apsvērt. Ja jums ir jāapstrādā sarežģīti dati, ir svarīgi uzzināt, kā programmā Excel veikt daudzfaktoru analīzi (vairākkārtējas regresijas veidā) un interpretēt rezultātus. Labā ziņa ir tā, ka programma Excel ir labi iestatīta šo uzdevumu veikšanai, un jums ir jāapgūst tikai vienas funkcijas darbība, lai sāktu izprast savus datus.

Kas ir daudzkārtēja regresija?

Daudzkārtēja regresija ir veids, kā saistīt vairākus neatkarīgus mainīgos ar vienu atkarīgo mainīgo, atrodot vienādojumu, kas apraksta, kā attiecīgais mainīgais mainās ar katru. Vienkāršāks, bet līdzīgs rīks ir lineārā regresija, kuras mērķis ir izpētīt saikni starp vienu neatkarīgu mainīgais lielums, piemēram, aptaukošanās, ir atkarīgs no tāda atkarīgā mainīgā lieluma kā vēža risks, taču tas reti notiek taisni. Turpinot piemēru, dienā izsmēķēto cigarešu skaits ir saistīts arī ar vēža risku, tāpat kā izdzertā alkohola daudzums. Lai iegūtu ticamu vēža riska prognozi indivīdam, jums jāņem vērā visi šie faktori (un vairāk).

Dienas video

Vairākām regresijām izmantotā vienādojuma vispārējā forma ir šāda:

Y^ = a + b1x1 + b2x2 + b3x3

Tātad Y^ ir novērojuma paredzamā vērtība b1 un tā tālāk attēlo taisnās līnijas attiecību slīpumu starp x1 un Y^ un x1 un tā tālāk ir analīzē iekļautie mainīgie. The a stāsta jums lietas būtību y- pārtvert. Daudzkārtēja regresija ietver koeficientu vērtību izvēli (b1 un tā tālāk), kas samazina starpību starp paredzamo vērtību Y^ un novērotā vērtība Y, nodrošinot vislabāko atbilstību starp modeli un datiem.

Ko jums saka vairākkārtēja regresija?

Vairākas regresijas piešķir skaitliskās vērtības saistībai starp daudzu mainīgo lielumu un rezultātu, tāpēc varat to izmantot prognozēm, lai novērtētu dažādu mainīgo lielumu relatīvais ieguldījums rezultātos vai dažiem citiem mērķiem, piemēram, atlasot visatbilstošākos mainīgos, ko izmantot matemātikā modelis.

Piemēram, pieņemsim, ka jums ir dati par māju cenām noteiktā pilsētā (jūsu atkarīgais mainīgais), kā arī informācija, piemēram, vai tai ir baseins, cik kvadrātpēdu tas aizņem, cik guļamistabu tajā ir, cik vannas istabu un cik garāžu ir. Daudzkārtēja regresija ļautu aplūkot, kā katrs no šiem faktoriem ir saistīts ar mājas cenu, tātad – pēc jūs apskatījāt to saistību ar cenu — jūs varētu izmantot savu vienādojumu, lai prognozētu mājas cenu, pamatojoties uz šiem punktiem vienatnē.

Varat arī izmantot šāda veida regresijas analīzi programmā Excel, lai noskaidrotu, kā konkrēts faktors no daudziem, piemēram, vai mājai ir baseins – ietekmē atkarīgo mainīgo (mājokļu cenas), ja paliek visi pārējie mainīgie nemainīgs. Ja pārveidojat koeficientus (sauktus par "daļējas regresijas koeficientiem") standarta daļējās regresijas koeficientos, kas atspoguļo standarta novirzes Y mainītos par, ja mainītu atbilstošo mainīgo par vienu standartnovirzi, tad vienādojums arī norāda, kuri faktori ir svarīgāki rezultāta noteikšanā.

Kā programmā Excel veikt vairākkārtēju regresiju

Varat veikt daudzfaktoru regresiju programmā Excel, izmantojot iebūvēto funkciju, kas ir pieejama, izmantojot Datu analīze rīks zem Dati cilne un Analīze grupai. Klikšķis Datu analīze un atrodiet iespēju regresija uznirstošajā logā iezīmējiet to un noklikšķiniet uz labi. Noklikšķiniet uz atlasiet šūnas ikona blakus Ievades Y diapazons lauku un pēc tam atlasiet kolonnu, kurā ir jūsu atkarīgā mainīgā rezultāti. Pēc tam dariet to pašu ar Ievades X diapazons lauku, bet neatkarīgiem mainīgajiem atlasiet vairākas kolonnas. Šīm kolonnām ir jāatrodas blakus viena otrai, tādēļ, ja tās nav, pirms regresijas izveides tās ir jāpārvieto.

Regresijas logā ir vairākas papildu opcijas, kuras varat atlasīt, lai pielāgotu procesu savām vajadzībām. Piemēram, ja vēlaties, varat iestatīt uzticamības līmeni, kas atšķiras no 95 procentiem, izvēlēties parādīt atlikumus un norādīt, kur jūsu darbgrāmatā tiek ievietota izvade. Šī pēdējā opcija tiek automātiski iestatīta uz Jauns darblapas slānis, tāpēc rezultāti tiek parādīti jaunā lapā, taču varat mainīt šo vai jebkuru citu opciju, lai tā atbilstu savām vajadzībām. Turklāt pārbaudiet Etiķetes lodziņu, ja jūsu neatkarīgo mainīgo kolonnām ir etiķetes augšpusē, tāpēc tās tiek rādītas izvadē.

Klikšķis labi lai ģenerētu regresijas analīzi programmā Excel un tiktu atvērta jaunajā lapā.

Regresijas izvade no Excel

Ir trīs galvenās sadaļas izvadei, kas tiek parādīta pēc vairākkārtējas regresijas veikšanas programmā Excel: regresijas statistika, ANOVA un informācija par aprēķināto regresijas līniju. Regresijas statistika ietver daudzkārtējās korelācijas koeficientu ("Multiple R"), kas parāda korelācijas virzienu un stiprumu no -1 līdz +1. Determinācijas koeficients “R kvadrāts” norāda, cik procentu (kā decimāldaļas) no atkarīgā mainīgā variācijas izskaidro neatkarīgie mainīgie. "Pielāgots R kvadrāts" sniedz norādi par skaidrojošo spēku, taču to nav vienkārši interpretēt, un "Standarta kļūda" sniedz jums mērījumu par novirzēm starp novērotajiem rezultātiem un jūsu regresiju līnija.

ANOVA sadaļa satur statistisko informāciju par variācijas apjomu, kas izskaidrojams ar regresijas līniju, ar "SS Regression" norāda summu, kas izskaidrota ar līniju, un "SS Residual" norāda summu, kas nav paskaidroja. Sadaļas “MS” apzīmē “vidējais kvadrāts”, un “F statistika” ir testa statistika, ko izmanto, lai pārbaudītu nozīmīgu rezultātu, un sadaļa “Nozīmīgums F” sniedz jums P vērtību.

Visbeidzot, pēdējā sadaļa stāsta par aprēķinātās regresijas līnijas īpašībām, jo ​​īpaši par koeficientus, neatkarīgi no tā, vai tie ir būtiski saistīti ar atkarīgo mainīgo, un tajos iespējamo variāciju apjomu. Pozitīvie koeficienti parāda pozitīvu sakarību starp attiecīgo mainīgo un atkarīgo mainīgo, tāpēc, kad viens palielinās, arī otrs. Negatīvās vērtības nozīmē, ka atkarīgais mainīgais samazinās, palielinoties neatkarīgajam mainīgajam. Tātad, ja "kvadrātmetru" koeficients mājas cenu daudzkārtējai regresijai ir 300, tas nozīmē, ka papildu kvadrātpēda platība palielina mājas izmaksas vidēji par 300 USD.

Daudzkārtējas regresijas pieņēmumi un ierobežojumi

Ir svarīgi atcerēties, ka daudzkārtēja regresija ir tikai rīks, un tāpat kā lielāko daļu rīku varat to izmantot tikai noteiktos apstākļos, un ir dažas lietas, ko tā vienkārši nevar izdarīt.

Viens no svarīgākajiem ierobežojumiem ir tas, ka ir grūti secināt cēloņsakarību, pamatojoties uz rezultātiem. Piemēram, ja jums ir vairākkārtēja regresija ar ugunsgrēka nodarīto kaitējumu un daudziem iespējamiem zaudējumiem atbilstošiem faktoriem, jūs, iespējams, atradīsit būtisku saikni starp klātesošo ugunsdzēsēju skaitu un nodarīts kaitējums. Tas nenozīmē, ka ugunsdzēsēji izraisīja bojājumus, jo cits faktors, piemēram, modelī neiekļauts ugunsgrēka lielums, varētu izskaidrot abus šos novērojumus.

Divi svarīgi šāda veida daudzfaktoru analīzes pieņēmumi programmā Excel ir linearitātes un normalitātes pieņēmumi. Jūs pieņemat, ka starp atkarīgajiem un neatkarīgajiem mainīgajiem ir lineāra sakarība, tāpēc pirms analīzes veikšanas pārbaudiet, vai tas, visticamāk, ir derīgs. Varat aplūkot attiecības starp katru mainīgo atsevišķi, lai pārbaudītu, taču šī nav ideāla stratēģija. Tāpat testā tiek pieņemts, ka mainīgie ir sadalīti normāli, tāpēc pirms testa veikšanas ir jāpārbauda katra rezultāti, lai tie būtu normāli.