Як використовувати функцію Outliers в Excel

Інженери програмного забезпечення, що працюють над проектом

Авторство зображення: nd3000/iStock/GettyImages

Коли ви аналізуєте дані, викиди можуть спотворити результати і зробити їх менш надійними. Наприклад, якщо одне або кілька ваших значень значно вищі за більшість даних, вони збільшують середнє значення, що може не відображати дані в цілому. Таким чином, видалення цих віддалених точок даних є важливим кроком у виконанні надійних статистичних обчислень. Без спеціальної функції викидів найпростіший спосіб виконати перевірку викидів у Excel – це використовувати міжквартильний діапазон для визначення викидів, але ви також можете використовувати функцію Trimmean, щоб наблизити те саме результат.

Розрахунок міжквартильного діапазону

Міжквартильний діапазон даних – це діапазон, охоплений «коробкою» на діаграмі «ящик із вусами» або більше точніше, результат віднімання значення для першого квартиля даних від третього квартиль. Excel містить вбудовану функцію для обчислення будь-якого квартиля для ваших даних. Знайдіть запасну клітинку та введіть "=QUARTILE([діапазон даних], [число квартилю])" і введіть діапазон комірок для ваших даних, де написано "[діапазон даних]", і потрібний квартиль, де написано "[квартиль" номер]."

Відео дня

Наприклад, якщо у вас є дані в клітинках від A2 до A101, і ви хочете отримати значення для першого квартиля, введіть "=QUARTILE(A2:A101, 1)", щоб знайти значення. У першій частині аргументу ви можете виділити відповідні клітинки за допомогою миші, але після коми вам потрібно написати номер потрібного квартилю. Для третього квартилю з тими ж даними ви вводите "=КВАРТИЛЬ(A2:A101, 3)", щоб отримати результат.

Використовуючи іншу порожню клітинку, відніміть значення першої квартильної клітинки від значення третьої квартильної клітинки. Якщо перший квартиль знаходиться в клітинці C2, а третій – в клітинці D2, введіть "=D2-C2", щоб отримати результат. Це інтерквартильний діапазон.

Аналіз викидів в Excel

Щоб знайти викиди, тепер ви можете використовувати інтерквартильний діапазон у формулі викиду, яка стверджує, що верхня межа даних є значенням третій квартиль плюс 1,5-кратний інтерквартильний діапазон, а нижня межа - це значення першого квартиля мінус 1,5-кратний інтерквартиль діапазон.

Якщо перше значення квартилю знаходиться в C2, третє квартильне значення знаходиться в клітинці D2, а інтерквартильний діапазон дорівнює у клітинку E2 ви повинні ввести "=C2-(1,5 * E2)", щоб знайти нижню межу, і "=D2+(1,5 * E2)", щоб знайти верхню ліміт. Загалом, ви вводите «=[перший квартиль] – (1,5 * [міжквартильний діапазон])», щоб знайти нижню межу, і «=[третій квартиль] + (1,5 * [міжквартильний діапазон])», щоб знайти верхню межу.

Все, що нижче нижньої межі або вище верхньої межі, є викидом.

Щоб завершити перевірку викидів у Excel, використовуйте логічну функцію «АБО», щоб ефективно визначити, які значення у вашому класі даних є викидами. Введіть "=АБО([комірка даних]>[верхня межа], [комірка даних]$F$2, A2

Якщо значення в A2 вище верхньої межі або нижче нижньої межі, відображається "TRUE", що вказує на те, що значення є викидом. Ви можете перетягнути цю формулу вниз, клацнувши правому нижньому куті комірки з формулою і перетягніть його вниз так, щоб він закінчився біля кінцевої комірки даних, щоб виконати однакові обчислення для кожної точка даних.

Ви також можете виділити дані та перейти до «Умовне форматування» у розділі «Стилі» вкладки «Головна», якщо ви хочете змінити форматування для вибросів. Виберіть «Нове правило» та виділіть параметр «Використовуйте формулу для визначення клітинок для форматування». Введіть ту саму формулу, що й у попередньому абзаці, а потім натисніть опцію «Формат», щоб вибрати унікальне форматування для викидів.

Використання Trimmean

Функція "Trimmean" - це простіший спосіб визначення викидів. Введіть "=TRIMMEAN([діапазон даних], [пропорція до обрізання])", щоб скористатися функцією, з діапазоном комірок, що містять дані, замість "[діапазон даних]" і десяткову дробу відсоток, який потрібно обрізати там, де написано "[пропорція до обрізання]." Це видаляє екстремальні значення у верхній і нижній частині, а потім обчислює середнє на основі них залишилися. Отже, якщо ви обрізаєте 10 відсотків, то перед обчисленням середнього значення буде видалено верхні 5 відсотків і нижні 5 відсотків.

Якщо дані проходять від A2 до A101, і ви хочете обрізати крайні 5 відсотків значень, введіть "=TRIMMEAN(A2:A101, 0,05)", щоб знайти скориговане середнє. Ви можете обрізати 15 відсотків, написавши замість цього "=TRIMMEAN(A2:A101, 0,15)".