Jak korzystać z regresji wielokrotnej w programie Excel

Afrykańska bizneswoman analizująca statystyki projektu na ekranie laptopa, z bliska

Jak korzystać z regresji wielokrotnej w programie Excel

Źródło obrazu: fizkes/iStock/GettyImages

Excel to potężne narzędzie do analizy danych, niezależnie od tego, czy pracujesz z prostą relacją między jedna zmienna niezależna i zmienna zależna lub istnieje wiele zmiennych niezależnych do rozważać. Nauczenie się, jak przeprowadzić analizę wielowymiarową w programie Excel — w formie regresji wielokrotnej — i interpretować wyniki jest niezbędne, jeśli masz do przepracowania skomplikowane dane. Dobrą wiadomością jest to, że program Excel jest dobrze skonfigurowany do obsługi tych zadań i wystarczy dowiedzieć się, jak działa jedna funkcja, aby zacząć rozumieć swoje dane.

Co to jest regresja wielokrotna?

Regresja wielokrotna to sposób powiązania wielu zmiennych niezależnych z jedną zmienną zależną poprzez znalezienie równania opisującego, jak dana zmienna zmienia się z każdą z nich. Bardziej podstawowym, ale podobnym narzędziem jest regresja liniowa, która ma na celu zbadanie związku między jednym niezależnym zmienna, taka jak otyłość, na zmienną zależną, taką jak ryzyko raka, ale rzadko jest tak prosty. Kontynuując ten przykład, liczba wypalanych papierosów dziennie jest również związana z ryzykiem raka, podobnie jak ilość wypijanego alkoholu. Aby wymyślić wiarygodną prognozę ryzyka zachorowania na raka dla danej osoby, musisz wziąć pod uwagę wszystkie te czynniki (i nie tylko).

Wideo dnia

Ogólna postać równania używanego do regresji wielokrotnych to:

Y^ = a + b1x1 + b2x2 + b3x3

Więc Y^ jest oczekiwaną wartością obserwacji, b1 i tak dalej reprezentują nachylenie prostoliniowej relacji między x1 oraz Y^ i x1 i tak dalej są zmienne uwzględnione w analizie. ten a mówi, o co chodzi w tak-przechwycić. Regresja wielokrotna polega na wyborze wartości współczynników (b1 i tak dalej), które minimalizują różnicę między wartością oczekiwaną Y^ i obserwowana wartość Y, co zapewnia najlepsze dopasowanie modelu do danych.

Co mówi nam regresja wieloraka?

Regresje wielokrotne przypisują wartości liczbowe do powiązania między wieloma zmiennymi a wynikiem, dzięki czemu można je wykorzystać do prognozowania, do szacowania względny wkład różnych zmiennych do wyniku lub do kilku innych celów, takich jak wybór najbardziej odpowiednich zmiennych do wykorzystania w obliczeniach matematycznych Model.

Załóżmy na przykład, że masz dane o cenach domów w określonym mieście (twoja zmienna zależna) wraz z informacjami takimi jak czy ma basen, ile zajmuje stóp kwadratowych, ile ma sypialni, ile ma łazienek i ile ma garaży ma. Regresja wielokrotna umożliwiłaby przyjrzenie się, jak każdy z tych czynników jest powiązany z ceną domu, więc – po przyjrzałeś się, jak odnoszą się one do ceny – możesz użyć swojego równania, aby przewidzieć cenę domu na podstawie tych punktów sam.

Możesz również użyć tego typu analizy regresji w Excelu, aby sprawdzić, jak określony czynnik wielu – na przykład czy dom ma pulę – wpływa na zmienną zależną (ceny domów) jeśli wszystkie inne zmienne pozostają stały. Jeśli przekształcisz współczynniki (zwane „częściowymi współczynnikami regresji”) na standardowe współczynniki częściowej regresji, które reprezentują liczbę odchyleń standardowych Y zmieni się o, jeśli zmienisz odpowiednią zmienną o jedno odchylenie standardowe, to równanie mówi również, które czynniki są ważniejsze przy określaniu wyniku.

Jak wykonać regresję wielokrotną w programie Excel

Możesz wykonać regresję wielowymiarową w programie Excel za pomocą wbudowanej funkcji, która jest dostępna za pośrednictwem Analiza danych narzędzie pod Dane zakładka i Analiza Grupa. Kliknij Analiza danych i znajdź opcję dla regresja w wyskakującym okienku zaznacz go i kliknij ok. Kliknij na wybierz komórki ikona obok Wejście Zakres Y a następnie wybierz kolumnę zawierającą wyniki dla zmiennej zależnej. Następnie zrób to samo dla Wejście X Zakres pole, ale wybierz wiele kolumn dla zmiennych niezależnych. Te kolumny muszą znajdować się obok siebie, więc jeśli tak nie jest, musisz je przesunąć przed wygenerowaniem regresji.

Okno Regresja zawiera szereg dodatkowych opcji, które możesz wybrać, aby dostosować proces do swoich potrzeb. Na przykład możesz ustawić poziom ufności inny niż 95 procent, jeśli chcesz, wybrać wyświetlanie reszt i określić, gdzie dane wyjściowe są umieszczane w skoroszycie. Ta ostatnia opcja jest automatycznie ustawiana na Nowa warstwa arkusza roboczego, więc wyniki są wyświetlane w nowym arkuszu, ale możesz zmienić tę lub dowolną inną opcję, aby dopasować ją do swoich potrzeb. Dodatkowo sprawdź Etykiety pole, jeśli kolumny dla zmiennych niezależnych mają etykiety u góry, więc są one wyświetlane w danych wyjściowych.

Kliknij ok aby wygenerować analizę regresji w programie Excel i przejść do nowego arkusza.

Dane wyjściowe regresji z programu Excel

Istnieją trzy główne sekcje wyników, które są prezentowane po wykonaniu regresji wielokrotnej w programie Excel: statystyki regresji, ANOVA i szczegóły szacowanej linii regresji. Statystyki regresji obejmują współczynnik korelacji wielokrotnej („Multiple R”), który pokazuje kierunek i siłę korelacji, od -1 do +1. Współczynnik determinacji „R kwadrat” mówi, jaki procent (jako ułamek dziesiętny) zmienności zmiennej zależnej jest wyjaśniony przez zmienne niezależne. „Dostosowany kwadrat R” wskazuje na moc wyjaśniającą, ale nie jest to łatwe do zinterpretowania, a „Błąd standardowy” daje miarę zmienności między obserwowanymi wynikami a Twoją regresją linia.

Sekcja ANOVA zawiera informacje statystyczne o wielkości zmienności wyjaśnionej przez linię regresji, z „Regresją SS” informującą o kwocie wyjaśnionej w wierszu, a „Residual SS” oznacza kwotę nie wyjaśniono. Sekcje „MS” oznaczają „średnią kwadratową”, a „statystyka F” to statystyka testowa używana do testowania istotnych wyników, przy czym sekcja „Istotność F” podaje wartość P.

Wreszcie ostatnia sekcja zawiera opis charakterystyki szacowanej linii regresji, w szczególności wartości współczynniki, czy są one istotnie powiązane ze zmienną zależną i jaka może być w nich zmienność. Dodatnie współczynniki pokazują dodatnią zależność między daną zmienną a zmienną zależną, więc gdy jeden wzrasta, drugi też. Wartości ujemne oznaczają, że zmienna zależna maleje wraz ze wzrostem zmiennej niezależnej. Tak więc, jeśli współczynnik „ujęcia kwadratowego” w przypadku regresji wielokrotnej cen domu wynosi 300, oznacza to, że dodatkowa metr kwadratowy powierzchni zwiększa koszt domu średnio o 300 USD.

Założenia i ograniczenia regresji wielorakiej

Ważne jest, aby pamiętać, że regresja wielokrotna jest tylko narzędziem i podobnie jak większość narzędzi, można jej używać tylko w pewnych okolicznościach, a są pewne rzeczy, których po prostu nie może zrobić.

Jednym z najważniejszych ograniczeń jest to, że wnioskowanie przyczynowości na podstawie wyników jest trudne. Na przykład, jeśli masz wielokrotną regresję ze szkodami wyrządzonymi przez pożar i wieloma potencjalnie istotne czynniki, prawdopodobnie znajdziesz znaczący związek między liczbą obecnych strażaków a wyrządzone szkody. Nie oznacza to, że strażacy spowodowany szkody, ponieważ inny czynnik, taki jak rozmiar pożaru, który nie został uwzględniony w modelu, mógłby wyjaśnić obie te obserwacje.

Dwoma ważnymi założeniami analizy wielowymiarowej w Excelu tego typu są założenia liniowości i normalności. Zakładasz liniową zależność między zmienną zależną i niezależną, więc przed wykonaniem analizy powinieneś sprawdzić, czy jest ona prawidłowa. Możesz przyjrzeć się relacji między każdą zmienną z osobna, aby sprawdzić, ale nie jest to idealna strategia. Podobnie test zakłada, że ​​zmienne mają rozkład normalny, dlatego przed przeprowadzeniem testu należy sprawdzić wyniki dla każdej z nich pod kątem normalności.