Excel에서 다중 회귀를 사용하는 방법
이미지 크레디트: fizkes/iStock/GettyImages
Excel은 데이터 분석을 위한 강력한 도구입니다. 하나의 독립변수와 종속변수 또는 여러 개의 독립변수가 있는 경우 고려하다. 복잡한 데이터를 처리해야 하는 경우 Excel에서 다중 회귀의 형태로 다변수 분석을 수행하고 결과를 해석하는 방법을 배우는 것이 필수적입니다. 좋은 소식은 Excel이 이러한 작업을 처리하도록 잘 설정되어 있으며 데이터를 이해하기 시작하는 데 하나의 함수가 작동하는 방식만 배우면 된다는 것입니다.
다중 회귀란 무엇입니까?
다중 회귀는 문제의 변수가 각각 어떻게 변하는지 설명하는 방정식을 찾아 단일 종속 변수에 여러 독립 변수를 연결하는 방법입니다. 보다 기본적이지만 유사한 도구는 선형 회귀로, 하나의 독립 비만과 같은 변수는 암의 위험과 같은 종속 변수에 있지만 거의 그렇지 않습니다. 똑바로. 계속해서 예를 들어, 하루에 피우는 담배의 수는 마시는 알코올의 양과 마찬가지로 암 위험과도 관련이 있습니다. 개인의 암 위험에 대한 신뢰할 수 있는 예측을 하려면 이러한 모든 요인(및 그 이상)을 고려해야 합니다.
오늘의 비디오
다중 회귀에 사용되는 방정식의 일반적인 형식은 다음과 같습니다.
와이^ = ㅏ + 비1엑스1 + 비2엑스2 + 비3엑스3 …
그래서 와이^는 관측치에 대한 기대값이고, 비1 등등은 직선 관계의 기울기를 나타냅니다. 엑스1 그리고 와이^, 그리고 엑스1 등이 분석에 포함된 변수입니다. 그만큼 ㅏ 의 요점을 알려줍니다. 와이- 가로채기. 다중 회귀에는 계수 값(비1 등) 예상 값 간의 차이를 최소화합니다. 와이^ 및 관찰 값 와이, 모델과 데이터 사이에 최적의 적합성을 제공합니다.
다중 회귀는 무엇을 알려줍니까?
다중 회귀는 다수의 변수와 결과 간의 연관성에 숫자 값을 지정하므로 예측, 추정에 사용할 수 있습니다. 결과에 대한 서로 다른 변수의 상대적 기여도 또는 수학에서 사용할 가장 관련성이 높은 변수를 선택하는 것과 같은 몇 가지 다른 목적을 위해 모델.
예를 들어 특정 도시의 주택 가격에 대한 데이터(종속 변수)와 다음과 같은 정보가 있다고 가정해 보겠습니다. 수영장이 있는지 여부, 차지하는 평방 피트 수, 침실 수, 욕실 수, 차고 수 가지다. 다중 회귀를 사용하면 이러한 각 요소가 주택 가격과 어떻게 관련되어 있는지 확인할 수 있습니다. 당신은 그것들이 가격과 어떤 관련이 있는지 살펴보았습니다 – 당신은 당신의 방정식을 사용하여 이 점들을 기반으로 집의 가격을 예측할 수 있습니다 홀로.
또한 Excel에서 이러한 유형의 회귀 분석을 사용하여 다음과 같은 특정 요인을 확인할 수 있습니다. 집에 풀이 있는지 여부 – 다른 모든 변수가 남아 있으면 종속 변수(집값)에 영향을 줍니다. 일정한. 계수("부분 회귀 계수"라고 함)를 표준 편차 수를 나타내는 표준 부분 회귀 계수로 변환하면 와이 1 표준 편차만큼 해당 변수를 변경하면 가 변경되며 방정식은 결과를 결정하는 데 더 중요한 요인도 알려줍니다.
Excel에서 다중 회귀를 수행하는 방법
다음을 통해 액세스할 수 있는 기본 제공 함수를 사용하여 Excel에서 다변수 회귀를 수행할 수 있습니다. 데이터 분석 도구 데이터 탭과 분석 그룹. 딸깍 하는 소리 데이터 분석 에 대한 옵션을 찾습니다. 회귀 팝업 창에서 강조 표시하고 클릭하십시오. 좋아요. 클릭 셀 선택 옆에 있는 아이콘 입력 Y 범위 필드를 클릭한 다음 종속 변수에 대한 결과가 포함된 열을 선택합니다. 그런 다음 동일한 작업을 수행합니다. 입력 X 범위 필드이지만 독립 변수에 대해 여러 열을 선택합니다. 이러한 열은 서로 옆에 있어야 하므로 그렇지 않은 경우 회귀를 생성하기 전에 이동해야 합니다.
회귀 창에는 필요에 맞게 프로세스를 조정하기 위해 선택할 수 있는 다양한 추가 옵션이 있습니다. 예를 들어, 원하는 경우 95% 이외의 신뢰 수준을 설정하고, 잔차를 표시하도록 선택하고, 통합 문서의 출력 위치를 지정할 수 있습니다. 이 마지막 옵션은 자동으로 다음으로 설정됩니다. 새 워크시트 플라이, 결과가 새 시트에 표시되지만 필요에 따라 이 옵션이나 다른 옵션을 변경할 수 있습니다. 추가적으로 확인 라벨 독립 변수에 대한 열이 상단에 레이블이 있는 경우 상자에 표시되므로 이러한 레이블이 출력에 표시됩니다.
딸깍 하는 소리 좋아요 Excel에서 회귀 분석을 생성하고 새 시트로 이동합니다.
Excel의 회귀 출력
Excel에서 다중 회귀를 수행한 후 표시되는 출력에는 회귀 통계, ANOVA 및 추정 회귀선에 대한 세부 정보의 세 가지 주요 섹션이 있습니다. 회귀 통계에는 -1에서 +1까지 상관 관계의 방향과 강도를 보여주는 다중 상관 계수("Multiple R")가 포함됩니다. 결정 계수 "R 제곱"은 종속 변수 변동의 백분율(소수점)을 독립 변수로 설명합니다. "조정된 R 제곱"은 설명력의 표시를 제공하지만 해석하기가 간단하지 않습니다. "표준 오차"는 관찰된 결과와 회귀 간의 변동 측정값을 제공합니다. 선.
ANOVA 섹션에는 회귀선으로 설명되는 변동량에 대한 통계 정보가 포함되어 있습니다. "SS 회귀"는 선으로 설명된 양을 나타내고 "SS 잔차"는 그렇지 않은 양을 나타냅니다. 설명했다. "MS" 섹션은 "평균 제곱"을 나타내고 "F 통계량"은 유의미한 결과를 테스트하는 데 사용되는 테스트 통계이며 "유의성 F" 섹션은 P-값을 제공합니다.
마지막으로 마지막 섹션에서는 추정 회귀선의 특성, 특히 계수, 종속 변수와 유의하게 연결되어 있는지 여부, 변수에 있을 수 있는 변동의 양. 양의 계수는 해당 변수와 종속 변수 사이에 양의 관계를 나타내므로 하나가 증가하면 다른 것도 증가합니다. 음수 값은 독립 변수가 증가함에 따라 종속 변수가 감소함을 의미합니다. 따라서 주택 가격 다중 회귀에 대한 "평방 피트" 계수가 300이면 추가 평방 피트의 공간이 평균적으로 집 비용을 $300 증가시킨다는 의미입니다.
다중 회귀의 가정과 한계
다중 회귀는 도구일 뿐이며 대부분의 도구와 마찬가지로 일부 상황에서만 사용할 수 있고 할 수 없는 일도 있음을 기억하는 것이 중요합니다.
가장 중요한 한계 중 하나는 결과에 근거하여 인과관계를 결론짓기가 어렵다는 점이다. 예를 들어, 화재로 인한 피해와 잠재적으로 많은 피해가 있는 다중 회귀가 있는 경우 관련 요소를 살펴보면 현재 소방관의 수와 손상되었습니다. 이것은 소방관을 의미하는 것이 아닙니다. 원인 모델에 포함되지 않은 화재의 크기와 같은 다른 요소가 이러한 관찰을 모두 설명할 수 있기 때문에 피해가 발생합니다.
이 유형의 Excel에서 다변량 분석의 두 가지 중요한 가정은 선형성과 정규성의 가정입니다. 종속 변수와 독립 변수 간의 선형 관계를 가정하고 있으므로 분석을 수행하기 전에 이것이 유효한지 확인해야 합니다. 각 변수 간의 관계를 개별적으로 확인하여 확인할 수 있지만 이는 완벽한 전략이 아닙니다. 마찬가지로 테스트는 변수가 정규 분포를 따른다고 가정하므로 테스트를 수행하기 전에 각 변수에 대한 정규성을 확인해야 합니다.