So verwenden Sie die multiple Regression in Excel

Afrikanische Geschäftsfrau, die Projektstatistiken auf dem Laptopbildschirm analysiert, Nahaufnahme

So verwenden Sie die multiple Regression in Excel

Bildnachweis: fizkes/iStock/GettyImages

Excel ist ein leistungsstarkes Werkzeug für die Datenanalyse, egal ob Sie mit einer einfachen Beziehung zwischen eine unabhängige Variable und eine abhängige Variable oder es gibt mehrere unabhängige Variablen zu Erwägen. Das Erlernen der Durchführung einer multivariaten Analyse in Excel – in Form einer multiplen Regression – und der Interpretation der Ergebnisse ist unerlässlich, wenn Sie komplizierte Daten bearbeiten müssen. Die gute Nachricht ist, dass Excel für diese Aufgaben gut eingerichtet ist und Sie nur die Funktionsweise einer Funktion kennenlernen müssen, um Ihre Daten zu verstehen.

Was ist multiple Regression?

Multiple Regression ist eine Möglichkeit, mehrere unabhängige Variablen mit einer einzigen abhängigen Variablen zu verknüpfen, indem eine Gleichung gefunden wird, die beschreibt, wie sich die fragliche Variable mit jeder ändert. Ein einfacheres, aber ähnliches Werkzeug ist die lineare Regression, die darauf abzielt, den Zusammenhang zwischen einem unabhängigen. zu untersuchen Variable, wie Fettleibigkeit, von einer abhängigen Variablen wie dem Krebsrisiko, aber die Dinge sind selten so einfach. Um das Beispiel fortzusetzen, hängt auch die Anzahl der täglich gerauchten Zigaretten mit dem Krebsrisiko zusammen, ebenso wie die Menge an Alkohol, die Sie trinken. Um eine zuverlässige Vorhersage des Krebsrisikos für eine Person zu treffen, müssen Sie all diese Faktoren (und mehr) berücksichtigen.

Video des Tages

Die allgemeine Form der Gleichung, die für multiple Regressionen verwendet wird, ist:

Ja^ = ein + B1x1 + B2x2 + B3x3

Also die Ja^ ist der Erwartungswert für die Beobachtung, der B1 und so weiter die Steigung der geradlinigen Beziehung zwischen x1 und Ja^, und die x1 und so weiter sind die Variablen, die in die Analyse einbezogen werden. Die ein sagt dir den Sinn der ja-abfangen. Eine multiple Regression beinhaltet die Auswahl von Werten der Koeffizienten (B1 usw.), die die Differenz zwischen dem Erwartungswert minimieren Ja^ und der beobachtete Wert Ja, wodurch Sie die beste Übereinstimmung zwischen dem Modell und den Daten erhalten.

Was sagt Ihnen eine multiple Regression?

Mehrere Regressionen setzen numerische Werte für den Zusammenhang zwischen einer Vielzahl von Variablen und einem Ergebnis, sodass Sie sie für Vorhersagen verwenden können, um die relativen Beiträge der verschiedenen Variablen zum Ergebnis oder für einige andere Zwecke, wie die Auswahl der relevantesten Variablen zur Verwendung in einem mathematischen Modell.

Angenommen, Sie haben Daten zu den Hauspreisen in einer bestimmten Stadt (Ihre abhängige Variable) zusammen mit Informationen wie ob es einen Pool hat, wie viele Quadratmeter es einnimmt, wie viele Schlafzimmer es hat, wie viele Badezimmer es hat und wie viele Garagen es hat hat. Eine multiple Regression würde es Ihnen ermöglichen, zu untersuchen, wie jeder dieser Faktoren mit dem Preis des Hauses zusammenhängt, also – nach Sie haben sich angeschaut, wie sie sich auf den Preis beziehen – Sie könnten Ihre Gleichung verwenden, um den Preis eines Hauses basierend auf diesen Punkten vorherzusagen allein.

Sie können diese Art der Regressionsanalyse in Excel auch verwenden, um zu sehen, wie ein bestimmter Faktor von vielen – wie z ob das Haus einen Pool hat – wirkt sich auf die abhängige Variable (Hauspreise) aus, wenn alle anderen Variablen erhalten bleiben Konstante. Wenn Sie die Koeffizienten (genannt "partielle Regressionskoeffizienten") in standardmäßige partielle Regressionskoeffizienten umwandeln, die darstellen, wie viele Standardabweichungen Ja ändern würde, wenn Sie die entsprechende Variable um eine Standardabweichung ändern würden, dann sagt Ihnen die Gleichung auch, welche Faktoren bei der Bestimmung des Ergebnisses wichtiger sind.

So führen Sie eine multiple Regression in Excel durch

Sie können eine multivariate Regression in Excel mithilfe einer integrierten Funktion durchführen, auf die über das zugegriffen werden kann Datenanalyse Werkzeug unter dem Daten Registerkarte und die Analyse Gruppe. Klicken Datenanalyse und finde die Option für Rückschritt Markieren Sie es im sich öffnenden Fenster und klicken Sie auf OK. Klicken Sie auf die Zellen auswählen Symbol neben dem Eingang Y-Bereich Feld und wählen Sie dann die Spalte mit den Ergebnissen für Ihre abhängige Variable aus. Dann machen Sie dasselbe für die Eingabe X-Bereich Feld, sondern wählen Sie die mehreren Spalten für Ihre unabhängigen Variablen aus. Diese Spalten müssen nebeneinander liegen. Wenn dies nicht der Fall ist, müssen Sie sie verschieben, bevor Sie die Regression erstellen.

Das Regressionsfenster bietet eine Reihe zusätzlicher Optionen, die Sie auswählen können, um den Prozess an Ihre Bedürfnisse anzupassen. Sie können beispielsweise ein anderes Konfidenzniveau als 95 Prozent festlegen, Residuen anzeigen und angeben, wo die Ausgabe in Ihrer Arbeitsmappe platziert wird. Diese letzte Option wird automatisch auf gesetzt Neue Arbeitsblattlage, Die Ergebnisse werden also auf einem neuen Blatt angezeigt, Sie können diese oder jede andere Option jedoch an Ihre Bedürfnisse anpassen. Überprüfen Sie außerdem die Etiketten Wenn die Spalten für Ihre unabhängigen Variablen oben Beschriftungen haben, werden diese in der Ausgabe angezeigt.

Klicken OK um Ihre Regressionsanalyse in Excel zu generieren und zum neuen Blatt zu gelangen.

Die Regressionsausgabe von Excel

Die Ausgabe, die Ihnen nach einer multiplen Regression in Excel angezeigt wird, besteht aus drei Hauptabschnitten: Regressionsstatistik, ANOVA und Details zur geschätzten Regressionslinie. Die Regressionsstatistik enthält den multiplen Korrelationskoeffizienten ("Multiple R"), der die Richtung und Stärke der Korrelation von -1 bis +1 anzeigt. Das Bestimmtheitsmaß „R-Quadrat“ gibt an, welcher Prozentsatz (als Dezimalzahl) der Variation der abhängigen Variablen durch die unabhängigen Variablen erklärt wird. Das "angepasste R-Quadrat" gibt Ihnen einen Hinweis auf die Erklärungskraft, ist jedoch nicht einfach zu interpretieren, und der "Standardfehler" gibt Ihnen ein Maß für die Abweichung zwischen den beobachteten Ergebnissen und Ihrer Regression Leitung.

Der ANOVA-Abschnitt enthält statistische Informationen über den Betrag der durch die Regressionsgerade erklärten Variation, wobei "SS Regression" den Betrag angibt, der durch die Linie erklärt wird, und "SS Residual" den Betrag darstellt, der nicht erklärt. Die Abschnitte "MS" stehen für "Mean Square" und die "F-Statistik" ist die Teststatistik, die verwendet wird, um auf ein signifikantes Ergebnis zu testen, wobei der Abschnitt "Signifikanz F" Ihnen den P-Wert angibt.

Schließlich informiert Sie der letzte Abschnitt über die Eigenschaften der geschätzten Regressionsgeraden, insbesondere über die Werte der Koeffizienten, ob sie signifikant mit der abhängigen Variablen verknüpft sind und wie stark sie variieren können. Positive Koeffizienten zeigen eine positive Beziehung zwischen der fraglichen Variablen und der abhängigen Variablen, dh wenn einer zunimmt, tut dies auch der andere. Negative Werte bedeuten, dass die abhängige Variable mit zunehmender unabhängiger Variable abnimmt. Wenn also der "Quadratmeter"-Koeffizient bei einer multiplen Regression der Hauspreise 300 beträgt, bedeutet dies, dass ein zusätzlicher Quadratmeter Raum die Kosten des Hauses um durchschnittlich 300 USD erhöht.

Annahmen und Grenzen der multiplen Regression

Es ist wichtig, sich daran zu erinnern, dass die multiple Regression nur ein Werkzeug ist, und wie die meisten Werkzeuge können Sie sie nur unter bestimmten Umständen verwenden, und es gibt einige Dinge, die sie einfach nicht kann.

Eine der wichtigsten Einschränkungen besteht darin, dass es schwierig ist, auf der Grundlage der Ergebnisse auf eine Kausalität zu schließen. Als Beispiel, wenn Sie eine multiple Regression mit dem Schaden haben, der durch ein Feuer verursacht wurde, und viele potenzielle relevanter Faktoren, werden Sie wahrscheinlich einen signifikanten Zusammenhang zwischen der Anzahl der anwesenden Feuerwehrleute und der Schaden angerichtet. Das bedeutet nicht, dass die Feuerwehrleute verursacht den Schaden, da ein anderer, im Modell nicht berücksichtigter Faktor wie die Größe des Feuers diese beiden Beobachtungen erklären könnte.

Zwei wichtige Annahmen einer solchen multivariaten Analyse in Excel sind die Annahmen der Linearität und Normalität. Sie gehen von einer linearen Beziehung zwischen den abhängigen und unabhängigen Variablen aus, daher sollten Sie überprüfen, ob diese wahrscheinlich gültig ist, bevor Sie die Analyse durchführen. Sie können sich die Beziehung zwischen jeder Variablen einzeln ansehen, um sie zu überprüfen, aber dies ist keine perfekte Strategie. Ebenso geht der Test davon aus, dass die Variablen normalverteilt sind, daher sollten Sie die Ergebnisse für jede Variable auf Normalität überprüfen, bevor Sie den Test durchführen.