Как использовать множественную регрессию в Excel

Африканский предприниматель анализирует статистику проекта на экране ноутбука, крупным планом

Как использовать множественную регрессию в Excel

Кредит изображения: fizkes / iStock / GettyImages

Excel - это мощный инструмент для анализа данных, независимо от того, работаете ли вы с простой связью между одна независимая переменная и зависимая переменная или есть несколько независимых переменных для учитывать. Изучение того, как выполнять многомерный анализ в Excel - в форме множественной регрессии - и интерпретировать результаты, имеет важное значение, если у вас есть сложные данные, с которыми нужно работать. Хорошая новость заключается в том, что Excel хорошо настроен для решения этих задач, и вам нужно только узнать, как работает одна функция, чтобы начать анализировать свои данные.

Что такое множественная регрессия?

Множественная регрессия - это способ связать несколько независимых переменных с одной зависимой переменной путем нахождения уравнения, описывающего, как переменная, о которой идет речь, изменяется с каждой. Более простой, но похожий инструмент - это линейная регрессия, цель которой - исследовать связь между одним независимым переменная, такая как ожирение, зависит от зависимой переменной, такой как риск рака, но такие вещи случаются редко. простой. Продолжая пример, количество выкуриваемых сигарет в день также связано с риском рака, как и количество выпиваемого вами алкоголя. Чтобы получить надежный прогноз риска рака для человека, вам необходимо принять во внимание все эти факторы (и многое другое).

Видео дня

Общая форма уравнения, используемого для множественной регрессии:

Y^ = а + б1Икс1 + б2Икс2 + б3Икс3

Так что Y^ - ожидаемое значение для наблюдения, б1 и т. д. представляют собой наклон прямой зависимости между Икс1 и Y^, а Икс1 и так далее - это переменные, включенные в анализ. В а говорит вам суть у-перехват. Множественная регрессия предполагает выбор значений коэффициентов (б1 и так далее), которые минимизируют разницу между ожидаемым значением Y^ и наблюдаемое значение Y, что дает вам наилучшее соответствие модели и данных.

Что вам говорит множественная регрессия?

Множественные регрессии помещают числовые значения в связь между множеством переменных и результатом, поэтому вы можете использовать их для прогнозов, для оценки относительный вклад различных переменных в результат или для некоторых других целей, таких как выбор наиболее релевантных переменных для использования в математических расчетах. модель.

Например, предположим, что у вас есть данные о ценах на дома в определенном городе (ваша зависимая переменная), а также такая информация, как есть ли в нем бассейн, сколько квадратных футов он занимает, сколько в нем спален, сколько ванных комнат и сколько гаражей имеет. Множественная регрессия позволит вам посмотреть, как каждый из этих факторов связан с ценой дома, поэтому - после вы посмотрели, как они соотносятся с ценой - вы можете использовать свое уравнение, чтобы спрогнозировать цену дома на основе этих моментов. в одиночестве.

Вы также можете использовать этот тип регрессионного анализа в Excel, чтобы посмотреть, как один из многих факторов, например есть ли в доме бассейн - влияет на зависимую переменную (цены на жилье), если все остальные переменные сохраняются постоянный. Если вы конвертируете коэффициенты (называемые «коэффициентами частичной регрессии») в стандартные коэффициенты частичной регрессии, которые представляют, сколько стандартных отклонений Y изменится на, если вы измените соответствующую переменную на одно стандартное отклонение, тогда уравнение также скажет вам, какие факторы более важны для определения результата.

Как сделать множественную регрессию в Excel

Вы можете выполнить многомерную регрессию в Excel, используя встроенную функцию, доступную через Анализ данных инструмент под Данные вкладка и Анализ группа. Нажмите Анализ данных и найти вариант для регресс в появившемся окне выделите его и нажмите Ok. Нажать на выберите ячейки значок рядом с Входной диапазон Y поле, а затем выберите столбец, содержащий результаты для вашей зависимой переменной. Затем сделайте то же самое для Вход X Диапазон поле, но выберите несколько столбцов для ваших независимых переменных. Эти столбцы должны быть рядом друг с другом, поэтому, если это не так, вы должны переместить их, прежде чем производить регрессию.

В окне регрессии есть ряд дополнительных опций, которые вы можете выбрать, чтобы адаптировать процесс к вашим потребностям. Например, вы можете установить уровень достоверности, отличный от 95 процентов, если хотите, выбрать отображение остатков и указать, где вывод будет помещен в вашу книгу. Последний параметр автоматически устанавливается на Новый слой рабочего листа, поэтому результаты отображаются на новом листе, но вы можете изменить этот или любой другой параметр в соответствии со своими потребностями. Дополнительно проверьте Этикетки поле, если столбцы для ваших независимых переменных имеют метки вверху, чтобы они отображались в выводе.

Нажмите Ok чтобы сгенерировать регрессионный анализ в Excel и перейти на новый лист.

Выходные данные регрессии из Excel

После выполнения множественной регрессии в Excel есть три основных раздела вывода: статистика регрессии, дисперсионный анализ и подробные сведения о предполагаемой линии регрессии. Статистика регрессии включает коэффициент множественной корреляции («Множественный R»), который показывает направление и силу корреляции от -1 до +1. Коэффициент детерминации «R-квадрат» сообщает вам, какой процент (в виде десятичной дроби) вариации зависимой переменной объясняется независимыми переменными. «Скорректированный квадрат R» дает вам представление об объяснительной силе, но его непросто интерпретировать, а «Стандартная ошибка» дает вам меру различия между наблюдаемыми результатами и вашей регрессией. линия.

Раздел ANOVA содержит статистическую информацию о величине вариации, объясняемой линией регрессии, где «SS ​​Regression» указывает сумму, указанную в строке, а «SS Residual» представляет сумму, не объяснил. Разделы «MS» обозначают «средний квадрат», а «F-статистика» - это тестовая статистика, используемая для проверки значимого результата, а раздел «значимость F» дает вам P-значение.

Наконец, в последнем разделе рассказывается о характеристиках предполагаемой линии регрессии, в частности, о значениях коэффициенты, независимо от того, связаны ли они в значительной степени с зависимой переменной, и степень их вариации. Положительные коэффициенты показывают положительную взаимосвязь между рассматриваемой переменной и зависимой переменной, поэтому, когда одна увеличивается, другая тоже. Отрицательные значения означают, что зависимая переменная уменьшается по мере увеличения независимой переменной. Таким образом, если коэффициент «площади в квадратных футах» при множественной регрессии цен на дом равен 300, это означает, что дополнительный квадратный фут площади увеличивает стоимость дома в среднем на 300 долларов.

Допущения и ограничения множественной регрессии

Важно помнить, что множественная регрессия - это всего лишь инструмент, и, как и большинство инструментов, вы можете использовать его только в определенных обстоятельствах, а есть некоторые вещи, которые он просто не может сделать.

Одним из наиболее важных ограничений является то, что сделать вывод о причинно-следственной связи на основе результатов сложно. Например, если у вас есть множественная регрессия с повреждениями, нанесенными огнем, и многие потенциально соответствующие факторы, вы, вероятно, обнаружите значительную связь между количеством присутствующих пожарных и нанесенный ущерб. Это не значит, что пожарные вызванный ущерб, потому что другой фактор, такой как размер пожара, не включенный в модель, мог объяснить оба этих наблюдения.

Двумя важными допущениями многомерного анализа в Excel этого типа являются предположения о линейности и нормальности. Вы предполагаете наличие линейной зависимости между зависимыми и независимыми переменными, поэтому перед выполнением анализа вы должны проверить, что это действительно так. Вы можете посмотреть на взаимосвязь между каждой переменной по отдельности, чтобы проверить, но это не идеальная стратегия. Точно так же тест предполагает, что переменные распределены нормально, поэтому перед проведением теста вам следует проверить результаты для каждой на предмет нормальности.