Outliers er ekstreme verdier som kan skjeve resultatene av en statistisk analyse og skape unøyaktige konklusjoner.
Outliers i statistiske analyser er ekstreme verdier som ikke ser ut til å passe med størstedelen av et datasett. Hvis de ikke fjernes, kan disse ekstreme verdiene ha stor effekt på eventuelle konklusjoner som kan trekkes fra data det er snakk om, fordi de kan skjeve korrelasjonskoeffisienter og linjer som passer best inn feil retning. SPSS er et av en rekke programmer for statistisk analyse som kan brukes til å tolke et datasett og identifisere og fjerne ytre verdier.
Undersøkende dataanalyse
Trinn 1
Klikk på "Analyser". Velg "Beskrivende statistikk" etterfulgt av "Utforsk".
Dagens video
Steg 2
Dra og slipp kolonnene som inneholder de avhengige variabeldataene inn i boksen merket "Dependent List." Klikk "OK".
Trinn 3
Fjern eventuelle uteliggere identifisert av SPSS i stilk-og-blad-plottene eller boksplottene ved å slette de individuelle datapunktene. Alternativt kan du sette opp et filter for å ekskludere disse datapunktene.
Trinn 4
Velg "Data" og deretter "Velg tilfeller" og klikk på en tilstand som har uteliggere du ønsker å ekskludere. Bestem en verdi for denne tilstanden som utelukker bare avvikene og ingen av de ikke-avvikende datapunktene.
Trinn 5
Velg "Hvis betingelsen er oppfylt" i "Velg"-boksen og klikk deretter på "Hvis"-knappen rett under den. Skriv inn regelen for å ekskludere uteliggere som du bestemte i forrige trinn i boksen øverst til høyre. For eksempel, hvis du ekskluderte mål over 74,5 tommer fra betingelsen "høyde", ville du angi "høyde < = 74,5." Klikk "Fortsett" og "OK" for å aktivere filteret.
Regresjonsanalyse
Trinn 1
I "Analyser"-menyen velger du "Regresjon" og deretter "Lineær". Velg de avhengige og uavhengige variablene du vil analysere.
Steg 2
Klikk "Lagre" og velg deretter "Cook's Distance". Verdiene beregnet for Cooks avstand vil bli lagret i datafilen din som variabler merket "COO-1."
Trinn 3
Kjør et boksplot ved å velge "Graphs" etterfulgt av "Boxplot". Klikk på "Enkel" og velg "Sammendrag av separate variabler." Tast inn "COO-1" i boksen merket "Boxes Represent", og skriv deretter inn en ID eller navn for å identifisere sakene i "Label Cases By" eske.
Trinn 4
Forstørre boxplotten i utdatafilen ved å dobbeltklikke på den. Noter saker som ligger utenfor de svarte linjene - dette er dine uteliggere. Du kan velge å fjerne alle avvikene eller bare de ekstreme avvikene, som er merket med en stjerne (*).
Trinn 5
Gå tilbake til datafilen og finn sakene som må slettes. Arbeid nedenfra og opp, marker tallet ytterst til venstre, i den grå kolonnen, slik at hele raden er valgt. Klikk på "Rediger" og velg "Slett". Gjenta dette trinnet for hver uteligger du har identifisert fra boksplotten.
Advarsel
Når du sletter saker i seksjon 2, trinn 5, må du alltid jobbe fra bunnen av datafilen og flytte oppover fordi ID-numrene endres når du sletter en sak. Hvis du jobber ovenfra og ned, vil du ende opp med å slette feil saker.