Як використовувати множину регресію в Excel

Африканська бізнес-леді аналізує статистику проекту на екрані ноутбука, крупним планом

Як використовувати множину регресію в Excel

Авторство зображення: fizkes/iStock/GettyImages

Excel є потужним інструментом для аналізу даних, незалежно від того, чи працюєте ви з простим зв’язком між ними одна незалежна змінна і залежна змінна або існує кілька незалежних змінних розглянути. Знання того, як виконувати багатоваріантний аналіз у Excel – у формі множинної регресії – та інтерпретувати результати, важливо, якщо у вас є складні дані для обробки. Хороша новина полягає в тому, що Excel добре налаштований для вирішення цих завдань, і вам потрібно лише дізнатися, як працює одна функція, щоб почати розуміти свої дані.

Що таке множинна регресія?

Множина регресія – це спосіб зв’язування кількох незалежних змінних з однією залежною змінною шляхом знаходження рівняння, яке описує, як змінна змінна змінюється з кожною. Більш основним, але схожим інструментом є лінійна регресія, яка спрямована на дослідження зв’язку між одним незалежним таку змінну, як ожиріння, залежну змінну, як-от ризик раку, але це рідко буває так прямолінійний. Продовжуючи приклад, кількість викурених сигарет на день також пов’язана з ризиком раку, як і кількість випитого алкоголю. Щоб створити надійний прогноз ризику раку для людини, вам потрібно врахувати всі ці фактори (і більше).

Відео дня

Загальна форма рівняння, що використовується для множинних регресій:

Ю^ = а + б1x1 + б2x2 + б3x3

Отже, Ю^ – очікуване значення для спостереження, б1 і так далі представляють нахил прямолінійного зв'язку між x1 і Ю^ і x1 і так далі змінні, включені в аналіз. The а розповідає вам суть у- перехопити. Множина регресія передбачає вибір значень коефіцієнтів (б1 і так далі), які мінімізують різницю між очікуваним значенням Ю^ і спостережувану величину Ю, що забезпечує найкращу відповідність між моделлю та даними.

Що говорить вам множинна регресія?

Кілька регресій надають числові значення зв’язку між безліччю змінних і результатом, тому ви можете використовувати його для прогнозів, для оцінки відносний внесок різних змінних у результат або для кількох інших цілей, наприклад, для вибору найбільш релевантних змінних для використання в математичному модель.

Наприклад, скажімо, у вас є дані про ціни на будинки в певному місті (ваша залежна змінна), а також інформація, як-от чи є у нього басейн, скільки квадратних футів він займає, скільки спалень, скільки ванних кімнат і скільки гаражів має. Багаторазова регресія дозволить вам подивитися, як кожен із цих факторів пов’язаний з ціною будинку, тож – після того, як ви подивилися, як вони пов’язані з ціною – ви можете використовувати своє рівняння, щоб передбачити ціну будинку на основі цих пунктів на самоті.

Ви також можете використовувати цей тип регресійного аналізу в Excel, щоб подивитися, як певний фактор багатьох – наприклад чи є у будинку пул – впливає на залежну змінну (ціни житла), якщо всі інші змінні залишаються постійний. Якщо ви перетворите коефіцієнти (так звані "коефіцієнти часткової регресії") у стандартні коефіцієнти часткової регресії, які представляють, скільки стандартних відхилень Ю зміниться на, якщо змінити відповідну змінну на одне стандартне відхилення, тоді рівняння також вкаже вам, які фактори важливіші для визначення результату.

Як зробити множинну регресію в Excel

Ви можете виконати багатоваріантну регресію в Excel, використовуючи вбудовану функцію, доступну через Аналіз даних інструмент під Дані вкладка та Аналіз група. Натисніть Аналіз даних і знайдіть варіант для регресія у вікні, що з’явиться, виділіть його та натисніть добре. Натисніть на виберіть клітинки значка біля Вхідний діапазон Y поле, а потім виберіть стовпець, що містить результати для вашої залежної змінної. Потім зробіть те ж саме для Вхідний діапазон X поле, але виберіть кілька стовпців для ваших незалежних змінних. Ці стовпці мають бути поруч один з одним, тому, якщо це не так, їх потрібно перемістити, перш ніж створити регресію.

Вікно регресії має ряд додаткових параметрів, які можна вибрати, щоб налаштувати процес відповідно до ваших потреб. Наприклад, ви можете встановити рівень достовірності, відмінний від 95 відсотків, якщо хочете, вибрати відображення залишків і вказати місце розташування результату у вашій книзі. Цей останній параметр автоматично встановлюється на Новий аркуш, тож результати відображаються на новому аркуші, але ви можете змінити цей або будь-який інший параметр відповідно до ваших потреб. Крім того, перевірте Етикетки поле, якщо стовпці для ваших незалежних змінних мають мітки вгорі, тому вони відображаються у виводі.

Натисніть добре щоб створити регресійний аналіз у Excel і перейти до нового аркуша.

Вихід регресії з Excel

Є три основні розділи вихідних даних, які ви отримуєте після виконання множинної регресії в Excel: статистика регресії, ANOVA та деталі на передбачуваній лінії регресії. Статистичні дані регресії включають коефіцієнт множинної кореляції ("Multiple R"), який показує напрямок і силу кореляції від −1 до +1. Коефіцієнт детермінації «R Square» говорить вам, який відсоток (у вигляді десяткового числа) варіації залежної змінної пояснюється незалежними змінними. "Скоригований квадрат R" дає вам вказівку на силу пояснення, але його непросто інтерпретувати, а «Стандартна помилка» дає вам міру варіації між спостережуваними результатами та вашою регресією лінія.

Розділ ANOVA містить статистичну інформацію про величину варіації, що пояснюється лінією регресії, з "Регресія SS", яка вказує вам суму, пояснену рядком, а "Залишок SS", що представляє суму, не пояснив. Розділи «MS» означають «Середній квадрат», а «F Statistic» — це тестова статистика, яка використовується для перевірки значного результату, а розділ «Значення F» дає вам P-значення.

Нарешті, останній розділ розповідає про характеристики оціненої лінії регресії, зокрема, значення коефіцієнти, чи вони суттєво пов’язані із залежною змінною, а також кількість варіацій, які можуть бути в них. Позитивні коефіцієнти показують позитивний зв'язок між змінною, про яку йдеться, і залежною змінною, тому, коли одна збільшується, інша також збільшується. Від’ємні значення означають, що залежна змінна зменшується при збільшенні незалежної змінної. Отже, якщо коефіцієнт «квадратного метражу» для множинної регресії цін на будинок дорівнює 300, це означає, що додатковий квадратний фут площі збільшує вартість будинку в середньому на 300 доларів.

Припущення та обмеження множинної регресії

Важливо пам’ятати, що множинна регресія — це лише інструмент, і, як і більшість інструментів, ви можете використовувати його лише за певних обставин, і є деякі речі, які вона просто не може зробити.

Одним з найважливіших обмежень є те, що зробити висновок про причинно-наслідковий зв’язок на основі результатів важко. Наприклад, якщо у вас є множинна регресія зі збитками, завданими пожежею, і багатьма потенційними відповідних факторів, ви, ймовірно, виявите значний зв’язок між кількістю присутніх пожежників і заподіяна шкода. Це не означає, що пожежники викликані пошкодження, оскільки інший фактор, такий як розмір пожежі, не включений у модель, може пояснити обидва ці спостереження.

Двома важливими припущеннями багатовимірного аналізу в Excel цього типу є припущення лінійності та нормальності. Ви припускаєте лінійний зв’язок між залежними та незалежними змінними, тому перед виконанням аналізу вам слід перевірити, чи вірогідно це є. Ви можете подивитися на зв’язок між кожною змінною окремо, щоб перевірити, але це не ідеальна стратегія. Аналогічно, тест передбачає, що змінні розподілені нормально, тому перед проведенням тесту слід перевірити результати для кожної з них.