Cum se utilizează regresia multiplă în Excel

O femeie de afaceri africană care analizează statisticile proiectului pe ecranul laptopului, de aproape

Cum se utilizează regresia multiplă în Excel

Credit imagine: fizkes/iStock/GettyImages

Excel este un instrument puternic pentru analiza datelor, indiferent dacă lucrați cu o relație simplă între o variabilă independentă și o variabilă dependentă sau există mai multe variabile independente pentru considera. Învățarea despre cum să efectuați o analiză multivariată în Excel – sub forma unei regresii multiple – și să interpretați rezultatele este esențială dacă aveți date complicate de prelucrat. Vestea bună este că Excel este bine configurat pentru a gestiona aceste sarcini și trebuie doar să aflați cum funcționează o funcție pentru a începe să înțelegeți datele dvs.

Ce este regresia multiplă?

Regresia multiplă este o modalitate de a lega mai multe variabile independente cu o singură variabilă dependentă prin găsirea unei ecuații care descrie modul în care variabila în cauză se schimbă cu fiecare. Un instrument mai de bază, dar similar, este regresia liniară, care își propune să investigheze legătura dintre un independent variabilă, cum ar fi obezitatea, pe o variabilă dependentă precum riscul de cancer, dar lucrurile stau rareori așa direct. Continuând cu exemplul, numărul de țigări fumate pe zi este, de asemenea, legat de riscul de cancer, la fel ca și cantitatea de alcool pe care o consumi. Pentru a veni cu o predicție fiabilă a riscului de cancer pentru o persoană, ar trebui să luați în considerare toți acești factori (și mai mulți).

Videoclipul zilei

Forma generală a ecuației utilizate pentru regresii multiple este:

Y^ = A + b1X1 + b2X2 + b3X3

Asa ca Y^ este valoarea așteptată pentru observație, the b1 și așa mai departe reprezintă panta relației drepte dintre X1 și Y^, iar X1 și tot așa sunt variabilele incluse în analiză. The A vă spune rostul y-intercepta. O regresie multiplă implică alegerea valorilor coeficienților (b1 și așa mai departe) care minimizează diferența dintre valoarea așteptată Y^ și valoarea observată Y, oferindu-vă cea mai bună potrivire între model și date.

Ce vă spune o regresie multiplă?

Regresiunile multiple pun valori numerice pe asocierea dintre o multitudine de variabile și un rezultat, astfel încât să le puteți folosi pentru predicții, pentru estimarea contribuțiile relative ale diferitelor variabile la rezultat sau pentru alte câteva scopuri, cum ar fi selectarea celor mai relevante variabile pentru a le utiliza într-un studiu matematic. model.

De exemplu, să presupunem că aveți date despre prețurile caselor dintr-un anumit oraș (variabila dvs. dependentă), împreună cu informații precum dacă are piscină, câți metri pătrați ocupă, câte dormitoare are, câte băi are și câte garaje are are. O regresie multiplă v-ar permite să vedeți modul în care fiecare dintre acești factori este relaționat cu prețul casei, deci – după te-ai uitat la modul în care se leagă de preț - ai putea folosi ecuația pentru a prezice prețul unei case pe baza acestor puncte singur.

De asemenea, puteți utiliza acest tip de analiză de regresie în Excel pentru a vedea cum un factor specific al multor - cum ar fi dacă casa are un bazin – afectează variabila dependentă (prețurile casei) dacă rămân toate celelalte variabile constant. Dacă convertiți coeficienții (numiți „coeficienți de regresie parțială”) în coeficienți standard de regresie parțială, care reprezintă câte abateri standard Y s-ar schimba dacă ați modifica variabila corespunzătoare cu o abatere standard, atunci ecuația vă spune și ce factori sunt mai importanți în determinarea rezultatului.

Cum se face o regresie multiplă în Excel

Puteți efectua o regresie multivariată în Excel folosind o funcție încorporată care este accesibilă prin intermediul Analiza datelor instrument de sub Date fila și Analiză grup. Clic Analiza datelor și găsiți opțiunea pentru regresie în fereastra care apare, evidențiați-o și faceți clic Bine. Faceți clic pe selectați celule pictograma de lângă Interval Y de intrare câmp și apoi selectați coloana care conține rezultatele pentru variabila dependentă. Apoi, faceți același lucru pentru Interval X de intrare câmp, dar selectați mai multe coloane pentru variabilele independente. Aceste coloane trebuie să fie una lângă alta, așa că dacă nu sunt, trebuie să le mutați înainte de a produce regresia.

Fereastra de regresie are o serie de opțiuni suplimentare pe care le puteți selecta pentru a adapta procesul în funcție de nevoile dvs. De exemplu, puteți seta un alt nivel de încredere decât 95 la sută, dacă doriți, puteți alege să afișați reziduurile și să specificați unde este plasată rezultatul în registrul de lucru. Această ultimă opțiune este setată automat la Noua foaie de lucru Ply, astfel încât rezultatele se afișează pe o foaie nouă, dar puteți modifica această opțiune sau orice altă opțiune pentru a se potrivi nevoilor dvs. În plus, verificați Etichete casetă dacă coloanele pentru variabilele independente au etichete în partea de sus, astfel încât acestea să fie afișate în rezultat.

Clic Bine pentru a genera analiza de regresie în Excel și a fi dus la noua foaie.

Ieșirea regresiei din Excel

Există trei secțiuni principale la rezultatul care vi se prezintă după ce ați făcut o regresie multiplă în Excel: statistici de regresie, ANOVA și detalii pe linia de regresie estimată. Statisticile de regresie includ coeficientul de corelație multiplă ("Multiple R") care arată direcția și puterea corelației, de la -1 la +1. Coeficientul de determinare, „R Square”, vă spune ce procent (sub formă de zecimală) din variația variabilei dependente este explicat de variabilele independente. „Pătratul R ajustat” vă oferă o indicație a puterii explicative, dar nu este simplu de interpretat, iar „Eroarea standard” vă oferă o măsură a variației dintre rezultatele observate și regresia dvs linia.

Secțiunea ANOVA conține informații statistice despre valoarea variației explicată de linia de regresie, cu „SS Regression” care vă indică suma explicată de linie și „SS Residual” reprezentând suma care nu explicat. Secțiunile „MS” reprezintă „Pătrat mediu”, iar „F Statistica” este statistica de testare utilizată pentru a testa un rezultat semnificativ, secțiunea „Semnificație F” oferindu-vă valoarea P.

În sfârșit, ultima secțiune vă spune despre caracteristicile dreptei de regresie estimate, în special despre valorile coeficienți, dacă sunt legați în mod semnificativ de variabila dependentă și cantitatea de variație care ar putea exista în ei. Coeficienții pozitivi arată o relație pozitivă între variabila în cauză și variabila dependentă, așa că atunci când unul crește, și cealaltă crește. Valorile negative înseamnă că variabila dependentă scade pe măsură ce variabila independentă crește. Deci, dacă coeficientul „metru pătrat” al regresiei multiple a prețurilor unei case este de 300, aceasta înseamnă că un picior pătrat suplimentar de spațiu crește costul casei cu 300 USD în medie.

Ipoteze și limitări ale regresiei multiple

Este important să rețineți că regresia multiplă este doar un instrument și, la fel ca majoritatea instrumentelor, o puteți utiliza doar în anumite circumstanțe și există unele lucruri pe care pur și simplu nu le poate face.

Una dintre cele mai importante limitări este că este dificilă concluzia cauzalității pe baza rezultatelor. De exemplu, dacă aveți o regresie multiplă cu daunele făcute de un incendiu și multe potențial factori relevanți, probabil ați găsi o legătură semnificativă între numărul de pompieri prezenți și daună făcută. Asta nu înseamnă că pompierii cauzat daunele deoarece un alt factor, cum ar fi dimensiunea incendiului, care nu este inclus în model, ar putea explica ambele observații.

Două ipoteze importante ale unei analize multivariate în Excel de acest tip sunt ipotezele de liniaritate și normalitate. Presupuneți o relație liniară între variabilele dependente și independente, așa că ar trebui să verificați că este posibil să fie valid înainte de a efectua analiza. Puteți să vă uitați la relația dintre fiecare variabilă individual pentru a verifica, dar aceasta nu este o strategie perfectă. În mod similar, testul presupune că variabilele sunt distribuite în mod normal, așa că ar trebui să verificați rezultatele pentru fiecare pentru normalitate înainte de a efectua testul.