Hur man tar bort outliers i SPSS

click fraud protection
...

Outliers är extrema värden som kan förvränga resultaten av en statistisk analys och skapa felaktiga slutsatser.

Outliers i statistiska analyser är extrema värden som inte verkar passa med majoriteten av en datamängd. Om de inte tas bort kan dessa extrema värden ha stor effekt på alla slutsatser som kan dras från data i fråga, eftersom de kan skeva korrelationskoefficienter och linjer med bästa passform in i fel riktning. SPSS är ett av ett antal program för statistisk analys som kan användas för att tolka en datamängd och identifiera och ta bort externa värden.

Exploratory Data Analysis

Steg 1

Klicka på "Analysera". Välj "Beskrivande statistik" följt av "Utforska".

Dagens video

Steg 2

Dra och släpp kolumnerna som innehåller beroende variabeldata till rutan märkt "Beroende lista". Klicka på "OK".

Steg 3

Ta bort alla extremvärden som identifierats av SPSS i stam-och-blad-plotterna eller box-plotterna genom att ta bort de individuella datapunkterna. Alternativt kan du ställa in ett filter för att utesluta dessa datapunkter.

Steg 4

Välj "Data" och sedan "Välj fall" och klicka på ett villkor som har extremvärden som du vill utesluta. Bestäm ett värde för detta villkor som utesluter endast extremvärden och ingen av de icke-avvikande datapunkterna.

Steg 5

Välj "Om villkoret är uppfyllt" i "Välj"-rutan och klicka sedan på "Om"-knappen precis under den. Ange regeln för att utesluta extremvärden som du bestämde i föregående steg i rutan uppe till höger. Om du till exempel utesluter mått över 74,5 tum från villkoret "höjd" skulle du ange "höjd < = 74,5". Klicka på "Fortsätt" och "OK" för att aktivera filtret.

Regressionsanalys

Steg 1

I menyn "Analysera", välj "Regression" och sedan "Linjär". Välj de beroende och oberoende variabler du vill analysera.

Steg 2

Klicka på "Spara" och välj sedan "Cook's Distance". Värdena som beräknas för Cooks distans kommer att sparas i din datafil som variabler märkta "COO-1."

Steg 3

Kör en boxplot genom att välja "Graphs" följt av "Boxplot". Klicka på "Simple" och välj "Sammanfattningar av separata variabler". Stiga på "COO-1" i rutan märkt "Lådor representerar" och ange sedan ett ID eller namn för att identifiera fallen i "Label Cases By" låda.

Steg 4

Förstora boxplotten i utdatafilen genom att dubbelklicka på den. Anteckna fall som ligger bortom de svarta linjerna - det här är dina extremvärden. Du kan välja att ta bort alla extremvärden eller bara extrema extremvärden, som är markerade med en stjärna (*).

Steg 5

Gå tillbaka till datafilen och leta reda på de fall som behöver raderas. Arbeta nerifrån och upp, markera numret längst till vänster, i den grå kolumnen, så att hela raden är markerad. Klicka på "Redigera" och välj "Rensa". Upprepa detta steg för varje extremvärde du har identifierat från boxplotten.

Varning

När du raderar ärenden i avsnitt 2, steg 5, arbeta alltid från botten av datafilen och flytta uppåt eftersom ID-numren ändras när du raderar ett ärende. Om du arbetar uppifrån och ner kommer du att radera fel fall.