Wartości odstające to wartości ekstremalne, które mogą wypaczyć wyniki analizy statystycznej i prowadzić do niedokładnych wniosków.
Wartości odstające w analizach statystycznych to wartości ekstremalne, które wydają się nie pasować do większości zbioru danych. Jeśli nie zostaną usunięte, te skrajne wartości mogą mieć duży wpływ na wszelkie wnioski, które można wyciągnąć z kwestionowanych danych, ponieważ mogą one zniekształcać współczynniki korelacji i linie najlepiej dopasowane w niewłaściwy sposób kierunek. SPSS to jeden z wielu programów do analizy statystycznej, których można używać do interpretacji zestawu danych oraz identyfikowania i usuwania wartości odstających.
Eksploracyjna analiza danych
Krok 1
Kliknij „Analizuj”. Wybierz „Statystyki opisowe”, a następnie „Przeglądaj”.
Wideo dnia
Krok 2
Przeciągnij i upuść kolumny zawierające dane zmiennej zależnej do pola oznaczonego „Lista zależna”. Kliknij OK."
Krok 3
Usuń wszelkie wartości odstające zidentyfikowane przez SPSS na wykresach łodygowo-liściowych lub skrzynkowych, usuwając poszczególne punkty danych. Alternatywnie możesz skonfigurować filtr, aby wykluczyć te punkty danych.
Krok 4
Wybierz „Dane”, a następnie „Wybierz przypadki” i kliknij warunek zawierający wartości odstające, które chcesz wykluczyć. Określ wartość tego warunku, która wyklucza tylko wartości odstające i żaden z nieodstających punktów danych.
Krok 5
Wybierz opcję „Jeśli warunek jest spełniony” w polu „Wybierz”, a następnie kliknij przycisk „Jeśli” znajdujący się tuż pod nim. Wprowadź regułę, aby wykluczyć wartości odstające określone w poprzednim kroku w polu w prawym górnym rogu. Na przykład, jeśli wykluczysz pomiary powyżej 74,5 cala z warunku „wzrost”, wpiszesz „wysokość < = 74,5”. Kliknij „Kontynuuj” i „OK”, aby aktywować filtr.
Analiza regresji
Krok 1
W menu „Analiza” wybierz „Regresja”, a następnie „Liniowa”. Wybierz zmienne zależne i niezależne, które chcesz przeanalizować.
Krok 2
Kliknij „Zapisz”, a następnie wybierz „Odległość kucharza”. Wartości obliczone dla odległości Cooka zostaną zapisane w pliku danych jako zmienne oznaczone „COO-1”.
Krok 3
Uruchom wykres pudełkowy, wybierając „Wykresy”, a następnie „Wykres skrzynkowy”. Kliknij „Proste” i wybierz „Podsumowania oddzielnych zmiennych”. Wejść „COO-1” w polu oznaczonym „Pola reprezentują”, a następnie wprowadź identyfikator lub nazwę, za pomocą której można zidentyfikować przypadki w polu „Oznacz przypadki według”. skrzynka.
Krok 4
Powiększ wykres pudełkowy w pliku wyjściowym, klikając go dwukrotnie. Zanotuj przypadki, które leżą poza czarnymi liniami — to są Twoje wartości odstające. Możesz usunąć wszystkie wartości odstające lub tylko skrajne wartości odstające, które są oznaczone gwiazdką (*).
Krok 5
Wróć do pliku danych i zlokalizuj sprawy, które należy usunąć. Pracując od dołu do góry, podświetl liczbę po lewej stronie, w szarej kolumnie, aby zaznaczyć cały wiersz. Kliknij „Edytuj” i wybierz „Wyczyść”. Powtórz ten krok dla każdej wartości odstającej zidentyfikowanej na wykresie pudełkowym.
Ostrzeżenie
Podczas kasowania spraw w Sekcji 2, kroku 5, zawsze pracuj od dołu pliku danych w górę, ponieważ numery ID zmieniają się po usunięciu sprawy. Jeśli będziesz pracować od góry do dołu, skończysz usuwając niewłaściwe przypadki.