Kaip naudoti daugialypę regresiją programoje „Excel“.
Vaizdo kreditas: fizkes/iStock/GettyImages
„Excel“ yra galingas duomenų analizės įrankis, nesvarbu, ar dirbate su paprastu ryšiu tarp vienas nepriklausomas kintamasis ir priklausomas kintamasis arba yra keli nepriklausomi kintamieji apsvarstyti. Jei turite sudėtingų duomenų, kuriuos reikia atlikti, labai svarbu išmokti atlikti daugiamatę analizę programoje „Excel“ (daugkartinės regresijos forma) ir interpretuoti rezultatus. Geros naujienos yra tai, kad „Excel“ yra gerai parengta atlikti šias užduotis, todėl jums tereikia išmokti, kaip veikia viena funkcija, kad pradėtumėte suprasti savo duomenis.
Kas yra daugialypė regresija?
Daugialypė regresija yra būdas susieti kelis nepriklausomus kintamuosius su vienu priklausomu kintamuoju, ieškant lygties, apibūdinančios, kaip atitinkamas kintamasis keičiasi su kiekvienu. Paprastesnė, bet panaši priemonė yra tiesinė regresija, kuria siekiama ištirti ryšį tarp vieno nepriklausomo kintamasis, pvz., nutukimas, priklausomas kintamasis, pvz., vėžio rizika, tačiau retai taip būna tiesmukai. Tęsiant pavyzdį, surūkomų cigarečių skaičius per dieną taip pat yra susijęs su vėžio rizika, kaip ir išgeriamo alkoholio kiekis. Norėdami pateikti patikimą vėžio rizikos prognozę asmeniui, turite atsižvelgti į visus šiuos veiksnius (ir daugiau).
Dienos vaizdo įrašas
Bendroji lygties forma, naudojama daugybei regresijų:
Y^ = a + b1x1 + b2x2 + b3x3 …
Taigi Y^ yra laukiama stebėjimo reikšmė, b1 ir t. t. reiškia tiesiojo ryšio tarp x1 ir Y^ ir x1 ir pan., į analizę įtraukti kintamieji. The a pasako esmę y- perimti. Daugkartinė regresija apima koeficientų verčių (b1 ir pan.), kurios sumažina skirtumą tarp laukiamos vertės Y^ ir stebima vertė Y, suteikdami jums geriausią modelį ir duomenis.
Ką jums sako daugialypė regresija?
Kelios regresijos suteikia skaitines reikšmes ryšiui tarp daugybės kintamųjų ir rezultato, todėl galite jį naudoti numatydami, įvertindami santykinis skirtingų kintamųjų indėlis į rezultatą arba keliems kitiems tikslams, pavyzdžiui, pasirenkant tinkamiausius kintamuosius naudoti matematiniame modelis.
Pavyzdžiui, tarkime, kad turite duomenų apie namų kainas tam tikrame mieste (jūsų priklausomas kintamasis) ir tokią informaciją kaip ar jame yra baseinas, kiek kvadratinių pėdų jis užima, kiek miegamųjų kambarių, kiek vonios kambarių ir kiek garažų turi. Daugkartinė regresija leistų pažvelgti, kaip kiekvienas iš šių veiksnių yra susijęs su namo kaina, taigi – po pažiūrėjote, kaip jie yra susiję su kaina – galite naudoti savo lygtį, kad pagal šiuos taškus prognozuotų namo kainą vienas.
Taip pat galite naudoti šio tipo regresijos analizę programoje „Excel“, kad pamatytumėte, kaip konkretus daugelio veiksnys, pvz., ar namas turi baseiną – turi įtakos priklausomam kintamajam (namų kainoms), jei visi kiti kintamieji išlieka pastovus. Jei konvertuosite koeficientus (vadinamus „dalinės regresijos koeficientais“) į standartinius dalinės regresijos koeficientus, kurie parodo, kiek standartinių nuokrypių Y pasikeistų, jei atitinkamą kintamąjį pakeistumėte vienu standartiniu nuokrypiu, tada lygtis taip pat nurodo, kurie veiksniai yra svarbesni nustatant rezultatą.
Kaip atlikti daugkartinę regresiją „Excel“.
Programoje „Excel“ galite atlikti daugiamatę regresiją naudodami įtaisytąją funkciją, pasiekiamą per Duomenų analizė įrankis po Duomenys skirtukas ir Analizė grupė. Spustelėkite Duomenų analizė ir raskite variantą regresija pasirodžiusiame lange pažymėkite jį ir spustelėkite Gerai. Spustelėkite ant pasirinkite ląsteles piktogramą šalia Įvesties Y diapazonas lauką, tada pasirinkite stulpelį, kuriame yra priklausomo kintamojo rezultatai. Tada atlikite tą patį su Įvesties X diapazonas lauką, bet pasirinkite kelis nepriklausomų kintamųjų stulpelius. Šie stulpeliai turi būti vienas šalia kito, taigi, jei jų nėra, prieš atlikdami regresiją, turite juos perkelti.
Regresijos lange yra daugybė papildomų parinkčių, kurias galite pasirinkti, kad pritaikytumėte procesą pagal savo poreikius. Pavyzdžiui, jei norite, galite nustatyti kitokį nei 95 procentų patikimumo lygį, pasirinkti rodyti likučius ir nurodyti, kur darbaknygėje yra išvestis. Ši paskutinė parinktis nustatoma automatiškai Naujas darbalapio sluoksnis, todėl rezultatai bus rodomi naujame lape, tačiau galite pakeisti šią ar bet kurią kitą parinktį, kad ji atitiktų savo poreikius. Be to, patikrinkite Etiketės laukelį, jei nepriklausomų kintamųjų stulpelių viršuje yra etiketės, todėl jos rodomos išvestyje.
Spustelėkite Gerai sugeneruoti regresijos analizę programoje „Excel“ ir patekti į naują lapą.
Regresijos išvestis iš „Excel“.
Yra trys pagrindinės išvesties dalys, kurias pateikiate atlikę daugkartinę regresiją programoje „Excel“: regresijos statistika, ANOVA ir apskaičiuotos regresijos linijos detalė. Regresijos statistika apima daugialypės koreliacijos koeficientą ("Multiple R"), kuris parodo koreliacijos kryptį ir stiprumą nuo –1 iki +1. Determinacijos koeficientas „R kvadratas“ nurodo, kokia priklausomo kintamojo kitimo procentinė dalis (kaip dešimtainė dalis) paaiškinama nepriklausomais kintamaisiais. „Pakoreguotas R kvadratas“ rodo aiškinamąją galią, tačiau tai nėra paprasta interpretuoti, o „Standartinė klaida“ suteikia jums skirtumo tarp stebimų rezultatų ir regresijos matą. linija.
ANOVA skiltyje yra statistinės informacijos apie pokyčio dydį, paaiškintą regresijos linija, su "SS regresija" nurodant sumą, paaiškintą linija, o "SS likutis" reiškia sumą, kuri nėra paaiškino. Skiltys „MS“ reiškia „vidutinį kvadratą“, o „F statistika“ yra bandymo statistika, naudojama norint patikrinti reikšmingą rezultatą, o skyrelyje „Significance F“ pateikiama P reikšmė.
Galiausiai paskutiniame skyriuje aprašomos apskaičiuotos regresijos linijos charakteristikos, ypač koeficientus, ar jie reikšmingai susieti su priklausomu kintamuoju, ir galimo jų svyravimo dydį. Teigiami koeficientai rodo teigiamą ryšį tarp nagrinėjamo kintamojo ir priklausomo kintamojo, taigi, kai vienas didėja, kitas taip pat didėja. Neigiamos reikšmės reiškia, kad priklausomas kintamasis mažėja, kai nepriklausomas kintamasis didėja. Taigi, jei namo kainų daugialypės regresijos „kvadratinės kadros“ koeficientas yra 300, tai reiškia, kad papildoma kvadratinė pėda namo kainą padidina vidutiniškai 300 USD.
Daugialypės regresijos prielaidos ir apribojimai
Svarbu atsiminti, kad daugkartinė regresija yra tik įrankis ir, kaip ir daugumą įrankių, galite naudoti tik tam tikromis aplinkybėmis, o kai kurių dalykų ji tiesiog negali padaryti.
Vienas iš svarbiausių apribojimų yra tai, kad sunku nustatyti priežastinį ryšį remiantis rezultatais. Pavyzdžiui, jei turite daugybinę regresiją su gaisro padaryta žala ir daugybe galimų svarbius veiksnius, greičiausiai rasite reikšmingą ryšį tarp dalyvaujančių ugniagesių skaičiaus ir gaisro padaryta žala. Tai nereiškia, kad ugniagesiai sukelia žalą, nes kitas veiksnys, pavyzdžiui, į modelį neįtrauktas gaisro dydis, galėtų paaiškinti abu šiuos pastebėjimus.
Dvi svarbios tokio tipo „Excel“ daugiamatės analizės prielaidos yra tiesiškumo ir normalumo prielaidos. Darote prielaidą, kad priklausomų ir nepriklausomų kintamųjų yra tiesinis ryšys, todėl prieš atlikdami analizę turėtumėte patikrinti, ar tai galioja. Galite pažvelgti į kiekvieno kintamojo ryšį atskirai, bet tai nėra tobula strategija. Panašiai, atliekant testą daroma prielaida, kad kintamieji pasiskirstę normaliai, todėl prieš atlikdami testą turėtumėte patikrinti kiekvieno rezultatų normalumą.