Excelで重回帰を使用する方法
画像クレジット: fizkes / iStock / GettyImages
Excelは、データ分析のための強力なツールです。 1つの独立変数と従属変数、または複数の独立変数があります 検討。 複雑なデータを処理する場合は、Excelで多変量解析を(重回帰の形で)実行し、結果を解釈する方法を学ぶことが不可欠です。 幸いなことに、Excelはこれらのタスクを処理するように適切に設定されており、データの意味を理解し始めるには、1つの関数がどのように機能するかを学ぶだけで済みます。
重回帰とは何ですか?
重回帰は、問題の変数がそれぞれでどのように変化するかを説明する方程式を見つけることによって、複数の独立変数を単一の従属変数に関連付ける方法です。 より基本的ですが類似したツールは線形回帰です。これは、1つの独立したツール間のリンクを調査することを目的としています。 肥満などの変数は、癌のリスクなどの従属変数に依存しますが、これはめったにありません 簡単です。 例を続けると、1日に喫煙するタバコの数は、飲むアルコールの量と同様に、がんのリスクにも関係しています。 個人のがんリスクの信頼できる予測を考え出すには、これらすべての要因(およびそれ以上)を考慮に入れる必要があります。
今日のビデオ
重回帰に使用される方程式の一般的な形式は次のとおりです。
Y^ = NS + b1バツ1 + b2バツ2 + b3バツ3 …
だから Y^は観測値の期待値であり、 b1 などは、間の直線関係の傾きを表します バツ1 と Y^、および バツ1 などは、分析に含まれる変数です。 The NS のポイントを教えてくれます y-傍受。 重回帰には、係数の値の選択が含まれます(b1 など)期待値との差を最小化する Y^および観測値 Y、モデルとデータの最適な組み合わせを提供します。
重回帰は何を教えてくれますか?
重回帰は、多数の変数と結果の間の関連付けに数値を配置するため、予測、推定に使用できます。 結果に対するさまざまな変数の相対的な寄与、または数学で使用する最も関連性の高い変数の選択など、他のいくつかの目的 モデル。
たとえば、特定の都市(従属変数)の住宅の価格に関するデータと、次のような情報があるとします。 プールがあるかどうか、占有する平方フィートの数、寝室の数、バスルームの数、ガレージの数 もっている。 重回帰分析を使用すると、これらの各要因が家の価格にどのように関連しているかを確認できます。 それらが価格とどのように関連しているかを調べました。方程式を使用して、これらのポイントに基づいて家の価格を予測できます。 1人。
Excelでこのタイプの回帰分析を使用して、多くの特定の要因(たとえば、 家にプールがあるかどうか–他のすべての変数が残っている場合、従属変数(住宅価格)に影響します 絶え間ない。 係数(「部分回帰係数」と呼ばれる)を標準部分回帰係数に変換すると、これは標準偏差の数を表します。 Y 対応する変数を1標準偏差だけ変更した場合、方程式は、結果を決定する上でどの要素がより重要であるかも示します。
Excelで重回帰を行う方法
を介してアクセスできる組み込み関数を使用して、Excelで多変量回帰を実行できます。 データ解析 下のツール データ タブと 分析 グループ。 クリック データ解析 とのオプションを見つける 回帰 ポップアップするウィンドウで、それを強調表示してクリックします わかった. クリックしてください セルを選択 横のアイコン 入力Y範囲 フィールドをクリックし、従属変数の結果を含む列を選択します。 次に、同じことを行います 入力X範囲 フィールドですが、独立変数の複数の列を選択します。 これらの列は互いに隣接している必要があるため、そうでない場合は、回帰を生成する前にそれらを移動する必要があります。
回帰ウィンドウには、ニーズに合わせてプロセスを調整するために選択できるさまざまな追加オプションがあります。 たとえば、必要に応じて95%以外の信頼水準を設定し、残差を表示することを選択して、出力をブックのどこに配置するかを指定できます。 この最後のオプションは自動的にに設定されます 新しいワークシートプライ、 そのため、結果は新しいシートに表示されますが、必要に応じてこのオプションまたはその他のオプションを変更できます。 さらに、 ラベル 独立変数の列の上部にラベルがある場合はボックスをクリックし、これらが出力に表示されるようにします。
クリック わかった Excelで回帰分析を生成し、新しいシートに移動します。
Excelからの回帰出力
Excelで重回帰を実行した後に表示される出力には、回帰統計、ANOVA、および推定回帰直線の詳細の3つの主要なセクションがあります。 回帰統計には、-1から+1までの相関の方向と強さを示す多重相関係数( "Multiple R")が含まれます。 決定係数「RSquare」は、従属変数の変動の何パーセント(10進数)が独立変数によって説明されるかを示します。 「調整済み決定係数」は説明力を示しますが、解釈するのは簡単ではありません。 「標準誤差」は、観測結果と回帰の間の変動の尺度を提供します ライン。
ANOVAセクションには、回帰直線によって説明される変動量に関する統計情報が含まれています。 「SS回帰」は線で説明された量を示し、「SS残差」はそうでない量を表します 説明した。 「MS」セクションは「MeanSquare」を表し、「F Statistic」は有意な結果をテストするために使用されるテスト統計であり、「SignificanceF」セクションはP値を示します。
最後に、最後のセクションでは、推定された回帰直線の特性、特に、 係数、それらが従属変数に有意にリンクされているかどうか、およびそれらに存在する可能性のある変動の量。 正の係数は、問題の変数と従属変数の間に正の関係を示します。したがって、一方が増加すると、もう一方も増加します。 負の値は、独立変数が増加するにつれて従属変数が減少することを意味します。 したがって、住宅価格の重回帰の「平方フィート」係数が300である場合、これは、追加の平方フィートのスペースが住宅のコストを平均で300ドル増加させることを意味します。
重回帰の仮定と制限
重回帰は単なるツールであり、ほとんどのツールと同様に、特定の状況でのみ使用でき、実行できないことがいくつかあることを覚えておくことが重要です。
最も重要な制限の1つは、結果に基づいて因果関係を結論付けることが難しいことです。 例として、火災による被害と潜在的に多くの被害を伴う重回帰がある場合 関連する要因として、消防士の数と ダメージを与えました。 これは消防士が 引き起こされた モデルに含まれていない火災の大きさなどの別の要因がこれらの観察の両方を説明する可能性があるため、損傷。
このタイプのExcelでの多変量解析の2つの重要な仮定は、線形性と正規性の仮定です。 従属変数と独立変数の間に線形関係があると想定しているため、分析を実行する前に、これが有効である可能性が高いことを確認する必要があります。 各変数間の関係を個別に調べて確認できますが、これは完全な戦略ではありません。 同様に、テストでは変数が正規分布していることを前提としているため、テストを実行する前に、それぞれの結果が正規であるかどうかを確認する必要があります。