A többszörös regresszió használata az Excelben
Kép jóváírása: fizkes/iStock/GettyImages
Az Excel hatékony eszköz az adatok elemzéséhez, függetlenül attól, hogy egyszerű kapcsolattal dolgozik egy független változó és egy függő változó, vagy több független változó is létezik fontolgat. A többváltozós elemzés elvégzésének ismerete az Excelben – többszörös regresszió formájában – és az eredmények értelmezésének elsajátítása elengedhetetlen, ha bonyolult adatokat kell feldolgoznia. A jó hír az, hogy az Excel jól be van állítva ezeknek a feladatoknak a kezelésére, és csak egy függvény működését kell megtanulnia ahhoz, hogy megértse adatait.
Mi az a többszörös regresszió?
A többszörös regresszió egy módja annak, hogy több független változót egyetlen függő változóhoz kapcsoljunk úgy, hogy egy egyenletet találunk, amely leírja, hogyan változik a kérdéses változó mindegyikével. Egy alapvetőbb, de hasonló eszköz a lineáris regresszió, amely egy független közötti kapcsolat vizsgálatát célozza változó, mint például az elhízás, egy olyan függő változón, mint a rák kockázata, de a dolgok ritkán vannak így egyértelmű. Folytatva a példát, a naponta elszívott cigaretták száma is összefügg a rák kockázatával, csakúgy, mint az elfogyasztott alkohol mennyisége. Ahhoz, hogy megbízható előrejelzést adjon az egyén rákkockázatáról, figyelembe kell vennie ezeket a tényezőket (és még többet).
A nap videója
A többszörös regresszióhoz használt egyenlet általános formája:
Y^ = a + b1x1 + b2x2 + b3x3 …
Így a Y^ a megfigyelés várható értéke, a b1 és így tovább a közötti egyenes kapcsolat meredekségét jelenti x1 és Y^, és a x1 és így tovább az elemzésben szereplő változók. Az a elmondja a lényegét y-elfogni. A többszörös regresszió magában foglalja az együtthatók értékeinek kiválasztását (b1 és így tovább), amelyek minimalizálják a várható érték közötti különbséget Y^ és a megfigyelt érték Y, amely a legjobb illeszkedést biztosítja a modell és az adatok között.
Mit mond neked a többszörös regresszió?
A többszörös regresszió numerikus értékeket ad a változók sokasága és az eredmény közötti összefüggésre, így felhasználhatja előrejelzésekhez, a a különböző változók relatív hozzájárulása az eredményhez, vagy néhány más célból, például a matematikai elemzésben használható legrelevánsabb változók kiválasztása modell.
Tegyük fel például, hogy rendelkezik adatokkal egy adott városban lévő házak árairól (az Ön függő változója), valamint olyan információkkal, mint van-e medencéje, hány négyzetméteres, hány hálószobája van, hány fürdőszobája és hány garázsa van van. A többszörös regresszió lehetővé tenné, hogy megvizsgálja, hogy ezek a tényezők hogyan függenek össze a ház árával, tehát – miután megnézted, hogyan viszonyulnak az árhoz – az egyenleted segítségével megjósolhatod egy ház árát ezek alapján egyedül.
Használhatja ezt a fajta regressziós elemzést az Excelben is, hogy megvizsgálja, hogyan egy adott tényező sok – mint pl hogy a háznak van-e medencéje – a függő változót (lakásárak) befolyásolja, ha az összes többi változó megmarad állandó. Ha az együtthatókat (úgynevezett "részleges regressziós együtthatóknak") átalakítja szabványos részleges regressziós együtthatókká, amelyek azt jelzik, hogy hány szórást Y változna, ha a megfelelő változót egy szórással módosítaná, akkor az egyenlet azt is megmondja, hogy mely tényezők fontosabbak az eredmény meghatározásában.
Hogyan készítsünk többszörös regressziót az Excelben
Többváltozós regressziót hajthat végre az Excelben egy beépített függvény segítségével, amely a következőn keresztül érhető el Adatelemzés alatti eszköz Adat fül és a Elemzés csoport. Kattintson Adatelemzés és megtalálja a lehetőséget regresszió a felugró ablakban jelölje ki, és kattintson rendben. Kattintson a válassza ki a cellákat melletti ikonra Bemenet Y tartomány mezőben, majd válassza ki a függő változó eredményeit tartalmazó oszlopot. Ezután tegye ugyanezt a Input X Range mezőt, de válassza ki a több oszlopot a független változókhoz. Ezeknek az oszlopoknak egymás mellett kell lenniük, tehát ha nem, akkor a regresszió létrehozása előtt el kell mozgatni őket.
A Regresszió ablak számos további lehetőséget kínál, amelyek segítségével a folyamatot az Ön igényeihez igazíthatja. Például beállíthat 95 százaléktól eltérő megbízhatósági szintet, kiválaszthatja a maradékok megjelenítését, és megadhatja, hogy a kimenet hova kerüljön a munkafüzetben. Ez az utolsó opció automatikusan be van állítva Új munkalapréteg, így az eredmények új lapon jelennek meg, de ezt vagy bármely más lehetőséget megváltoztathatja igényeinek megfelelően. Ezenkívül ellenőrizze a Címkék mezőbe, ha a független változók oszlopai tetején vannak címkék, így ezek megjelennek a kimenetben.
Kattintson rendben a regressziós elemzés elkészítéséhez Excelben, és az új munkalapra kerüljön.
A regressziós kimenet az Excelből
Az Excelben többszöri regresszió végrehajtása után megjelenő kimenetnek három fő része van: regressziós statisztikák, ANOVA és a becsült regressziós egyenes részletei. A regressziós statisztikák tartalmazzák a többszörös korrelációs együtthatót ("Multiple R"), amely a korreláció irányát és erősségét mutatja -1 és +1 között. A determinációs együttható, az "R négyzet", megmutatja, hogy a függő változó változásának hány százalékát (tizedesjegyben) magyarázzák a független változók. Az "Adjusted R Square" a magyarázó erőt jelzi, de nem egyszerű értelmezni, a "Standard Error" pedig a megfigyelt eredmények és a regresszió közötti eltérés mértékét adja meg. vonal.
Az ANOVA szakasz statisztikai információkat tartalmaz a regressziós egyenes által magyarázott eltérés mértékéről, az "SS Regression" a vonallal magyarázott összeget jelzi, az "SS Residual" pedig azt az összeget, amely nem magyarázta. Az „MS” szakaszok az „átlagos négyzet” rövidítése, az „F statisztika” pedig a szignifikáns eredmény tesztelésére használt tesztstatisztika, a „Szignifikancia F” szakasz pedig a P-értéket adja meg.
Végül az utolsó rész ismerteti a becsült regressziós egyenes jellemzőit, különösen a együtthatók, hogy szignifikánsan kapcsolódnak-e a függő változóhoz, és mekkora variáció lehet bennük. A pozitív együtthatók pozitív kapcsolatot mutatnak a kérdéses változó és a függő változó között, tehát amikor az egyik nő, akkor a másik is. A negatív értékek azt jelentik, hogy a függő változó a független változó növekedésével csökken. Tehát, ha a "négyzetméter" együttható egy ház árának többszörös regressziója 300, ez azt jelenti, hogy egy további négyzetláb terület átlagosan 300 dollárral növeli a ház költségét.
A többszörös regresszió feltevései és korlátai
Fontos megjegyezni, hogy a többszörös regresszió csak egy eszköz, és a legtöbb eszközhöz hasonlóan csak bizonyos körülmények között használhatja, és vannak dolgok, amelyekre egyszerűen nem képes.
Az egyik legfontosabb korlát, hogy az eredmények alapján nehéz az ok-okozati összefüggést megállapítani. Például, ha többszörösen regressziója van a tűz által okozott károkkal és sok potenciálisan releváns tényezőket, valószínűleg jelentős kapcsolatot talál a jelenlévő tűzoltók száma és a Kár történt. Ez nem azt jelenti, hogy a tűzoltók okozta a kárt, mert egy másik tényező, például a tűz nagysága, amely nem szerepel a modellben, megmagyarázhatja mindkét megfigyelést.
Az ilyen típusú Excel többváltozós elemzésének két fontos feltevése a linearitás és a normalitás. Lineáris kapcsolatot feltételez a függő és független változók között, ezért az elemzés elvégzése előtt ellenőriznie kell, hogy ez valószínűleg érvényes-e. Megvizsgálhatja az egyes változók közötti kapcsolatot egyenként, hogy ellenőrizze, de ez nem tökéletes stratégia. Hasonlóképpen, a teszt azt feltételezi, hogy a változók normális eloszlásúak, ezért a teszt elvégzése előtt ellenőriznie kell az egyes változók eredményeit a normalitás szempontjából.