Jak používat vícenásobnou regresi v Excelu
Kredit obrázku: fizkes/iStock/GettyImages
Excel je výkonný nástroj pro analýzu dat, ať už pracujete s jednoduchým vztahem mezi jedna nezávislá proměnná a závislá proměnná nebo existuje více nezávislých proměnných zvážit. Naučit se, jak provádět vícerozměrnou analýzu v Excelu – ve formě vícenásobné regrese – a interpretovat výsledky, je nezbytné, pokud potřebujete zpracovat komplikovaná data. Dobrou zprávou je, že Excel je pro zvládnutí těchto úkolů dobře nastaven a stačí se naučit, jak funguje jedna funkce, abyste začali dávat svým datům smysl.
Co je vícenásobná regrese?
Vícenásobná regrese je způsob, jak spojit více nezávislých proměnných s jednou závislou proměnnou nalezením rovnice, která popisuje, jak se daná proměnná mění s každou z nich. Základním, ale podobným nástrojem je lineární regrese, jejímž cílem je prozkoumat vazbu mezi jedním nezávislým proměnné, jako je obezita, na závislé proměnné, jako je riziko rakoviny, ale věci jsou zřídkakdy takové přímočarý. Pokračujeme-li v příkladu, počet vykouřených cigaret za den také souvisí s rizikem rakoviny, stejně jako množství alkoholu, který vypijete. Chcete-li přijít se spolehlivou předpovědí rizika rakoviny u jednotlivce, musíte vzít v úvahu všechny tyto faktory (a další).
Video dne
Obecný tvar rovnice používané pro více regresí je:
Y^ = A + b1X1 + b2X2 + b3X3 …
Takže Y^ je očekávaná hodnota pro pozorování, the b1 a tak dále představují sklon přímého vztahu mezi X1 a Y^ a X1 a tak dále jsou proměnné zahrnuté do analýzy. The A vám řekne pointu y- zachytit. Vícenásobná regrese zahrnuje výběr hodnot koeficientů (b1 a tak dále), které minimalizují rozdíl mezi očekávanou hodnotou Y^ a pozorovanou hodnotu Y, což vám poskytne nejlepší shodu mezi modelem a daty.
Co vám říká vícenásobná regrese?
Vícenásobné regrese vkládají číselné hodnoty do vztahu mezi množstvím proměnných a výsledkem, takže je můžete použít pro předpovědi, pro odhad relativní příspěvky různých proměnných k výsledku nebo pro několik dalších účelů, jako je výběr nejrelevantnějších proměnných pro použití v matematickém Modelka.
Řekněme například, že máte údaje o cenách domů v určitém městě (vaše závislá proměnná) spolu s informacemi jako zda má bazén, kolik čtverečních stop zabírá, kolik má ložnic, kolik má koupelen a kolik garáží má. Vícenásobná regrese by vám umožnila podívat se na to, jak každý z těchto faktorů souvisí s cenou domu, takže – poté podívali jste se na to, jak souvisí s cenou – mohli byste použít svou rovnici k předpovědi ceny domu na základě těchto bodů sama.
Tento typ regresní analýzy můžete také použít v Excelu, abyste se podívali, jak konkrétní faktor z mnoha – jako např zda má dům bazén – ovlivní závislou proměnnou (ceny domu), pokud zůstanou všechny ostatní proměnné konstantní. Pokud převedete koeficienty (nazývané „koeficienty částečné regrese“) na standardní koeficienty částečné regrese, které představují, kolik směrodatných odchylek Y by se změnila o, pokud byste změnili odpovídající proměnnou o jednu směrodatnou odchylku, pak vám rovnice také říká, které faktory jsou při určování výsledku důležitější.
Jak udělat vícenásobnou regresi v Excelu
V aplikaci Excel můžete provést vícerozměrnou regresi pomocí vestavěné funkce, která je přístupná prostřednictvím Analýza dat nástroj pod Data karta a Analýza skupina. Klikněte Analýza dat a najít možnost pro regrese v okně, které se objeví, označte jej a klikněte OK. Klikněte na vyberte buňky ikona vedle Vstupní rozsah Y a poté vyberte sloupec obsahující výsledky pro vaši závislou proměnnou. Poté udělejte totéž pro Vstup X Rozsah pole, ale vyberte více sloupců pro své nezávislé proměnné. Tyto sloupce musí být vedle sebe, takže pokud nejsou, musíte je před vytvořením regrese přesunout.
Okno Regrese má řadu dalších možností, které si můžete vybrat a přizpůsobit proces tak, aby vyhovoval vašim potřebám. Můžete například nastavit jinou úroveň spolehlivosti než 95 procent, chcete-li, zvolit zobrazení reziduí a určit, kde je výstup umístěn ve vašem sešitu. Tato poslední možnost je automaticky nastavena na Nová vrstva listu, takže výsledky se zobrazí na novém listu, ale tuto nebo jakoukoli jinou možnost můžete změnit tak, aby vyhovovala vašim potřebám. Kromě toho zkontrolujte Štítky Pokud mají sloupce pro vaše nezávislé proměnné štítky nahoře, zobrazí se ve výstupu.
Klikněte OK vygenerovat regresní analýzu v Excelu a přejít na nový list.
Regresní výstup z Excelu
Po provedení vícenásobné regrese v Excelu se zobrazí tři hlavní části výstupu: regresní statistika, ANOVA a podrobnosti o odhadované regresní přímce. Statistika regrese zahrnuje vícenásobný korelační koeficient ("Multiple R"), který ukazuje směr a sílu korelace, od -1 do +1. Koeficient determinace, "R Square", vám říká, jaké procento (jako desetinné číslo) variace v závislé proměnné je vysvětleno nezávislými proměnnými. "Upravený čtverec R" vám dává indikaci vysvětlující schopnosti, ale není snadné jej interpretovat, a "Standardní chyba" vám poskytuje míru odchylky mezi pozorovanými výsledky a vaší regresí čára.
Část ANOVA obsahuje statistické informace o velikosti variace vysvětlené regresní přímkou, přičemž "SS Regrese" říká částku vysvětlenou na řádku a "SS Residual" představuje částku, která není vysvětlil. Sekce "MS" znamenají "střední čtverec" a "statistika F" je statistika testu používaná k testování významného výsledku, přičemž část "Významnost F" vám dává P-hodnotu.
Konečně poslední část vám řekne o charakteristikách odhadované regresní přímky, zejména o hodnotách koeficienty, zda jsou významně spojeny se závislou proměnnou a množství variací, které by v nich mohly být. Kladné koeficienty ukazují kladný vztah mezi dotyčnou proměnnou a závislou proměnnou, takže když se jeden zvyšuje, zvyšuje se i druhý. Záporné hodnoty znamenají, že závislá proměnná klesá, když se zvyšuje nezávislá proměnná. Pokud je tedy koeficient "čtvereční metráže" u vícenásobné regrese cen domu 300, znamená to, že další čtvereční stopa prostoru zvyšuje náklady na dům v průměru o 300 USD.
Předpoklady a omezení vícenásobné regrese
Je důležité si uvědomit, že vícenásobná regrese je pouze nástroj a jako většinu nástrojů ji můžete použít pouze za určitých okolností a jsou některé věci, které prostě neumí.
Jedním z nejdůležitějších omezení je, že na základě výsledků je obtížné usuzovat na kauzalitu. Například, pokud máte vícenásobnou regresi se škodami způsobenými požárem a potenciálně mnoha relevantních faktorů, pravděpodobně byste našli významnou souvislost mezi počtem přítomných hasičů a způsobená škoda. To neznamená, že hasiči způsobil poškození, protože další faktor, jako je velikost požáru, který není zahrnut v modelu, by mohl vysvětlit obě tato pozorování.
Dva důležité předpoklady multivariační analýzy v Excelu tohoto typu jsou předpoklady linearity a normality. Předpokládáte lineární vztah mezi závislými a nezávislými proměnnými, takže před provedením analýzy byste měli zkontrolovat, zda je pravděpodobné, že je to platné. Můžete se podívat na vztah mezi každou proměnnou jednotlivě a zkontrolovat, ale to není dokonalá strategie. Podobně test předpokládá, že proměnné jsou normálně rozloženy, takže před provedením testu byste měli zkontrolovat normalitu výsledků pro každou z nich.