Outliers er ekstreme værdier, der kan skævvride resultaterne af en statistisk analyse og skabe unøjagtige konklusioner.
Outliers i statistiske analyser er ekstreme værdier, der ikke synes at passe med størstedelen af et datasæt. Hvis de ikke fjernes, kan disse ekstreme værdier have en stor effekt på eventuelle konklusioner, der kan drages ud fra de pågældende data, fordi de kan skævvride korrelationskoefficienter og linjer med bedst passer ind forkert retning. SPSS er et af en række statistiske analysesoftwareprogrammer, der kan bruges til at fortolke et datasæt og identificere og fjerne yderværdier.
Udforskende dataanalyse
Trin 1
Klik på "Analyser". Vælg "Beskrivende statistik" efterfulgt af "Udforsk".
Dagens video
Trin 2
Træk og slip kolonnerne, der indeholder de afhængige variable data, i boksen mærket "Afhængig liste." Klik på "OK".
Trin 3
Fjern eventuelle outliers identificeret af SPSS i stængel-og-blad-plottene eller boksplottene ved at slette de individuelle datapunkter. Alternativt kan du konfigurere et filter til at ekskludere disse datapunkter.
Trin 4
Vælg "Data" og derefter "Vælg tilfælde", og klik på en betingelse, der har afvigende værdier, du ønsker at udelukke. Bestem en værdi for denne betingelse, der kun udelukker afvigelserne og ingen af de ikke-afvigende datapunkter.
Trin 5
Vælg "Hvis betingelsen er opfyldt" i feltet "Vælg", og klik derefter på knappen "Hvis" lige under den. Indtast reglen for at udelukke afvigelser, som du bestemte i det forrige trin, i boksen øverst til højre. Hvis du f.eks. ekskluderede mål over 74,5 tommer fra betingelsen "højde", ville du indtaste "højde < = 74,5". Klik på "Fortsæt" og "OK" for at aktivere filteret.
Regressions analyse
Trin 1
I menuen "Analyser" skal du vælge "Regression" og derefter "Lineær". Vælg de afhængige og uafhængige variabler, du vil analysere.
Trin 2
Klik på "Gem" og vælg derefter "Kokkens afstand". Værdierne beregnet for Cooks distance vil blive gemt i din datafil som variabler mærket "COO-1."
Trin 3
Kør et boxplot ved at vælge "Graphs" efterfulgt af "Boxplot". Klik på "Simpel" og vælg "Sammendrag af separate variabler". Gå ind "COO-1" i boksen mærket "Boxes Represent", og indtast derefter et id eller navn, som skal bruges til at identificere sagerne i "Label Cases By" boks.
Trin 4
Forstør boxplotten i outputfilen ved at dobbeltklikke på den. Noter sager, der ligger ud over de sorte streger - disse er dine outliers. Du kan vælge at fjerne alle afvigelserne eller kun de ekstreme yderpunkter, som er markeret med en stjerne (*).
Trin 5
Gå tilbage til datafilen og find de sager, der skal slettes. Arbejd nedefra og op, fremhæv tallet yderst til venstre i den grå kolonne, så hele rækken er markeret. Klik på "Rediger" og vælg "Slet". Gentag dette trin for hver afviger, du har identificeret fra boxplotten.
Advarsel
Når du sletter sager i afsnit 2, trin 5, skal du altid arbejde fra bunden af datafilen med at flytte op, fordi ID-numrene ændres, når du sletter en sag. Hvis du arbejder oppefra og ned, ender du med at slette de forkerte sager.