Uitschieters verwijderen in SPSS

...

Uitbijters zijn extreme waarden die de resultaten van een statistische analyse kunnen vertekenen en tot onnauwkeurige conclusies kunnen leiden.

Uitbijters in statistische analyses zijn extreme waarden die niet lijken te passen bij het merendeel van een dataset. Als deze extreme waarden niet worden verwijderd, kunnen ze een groot effect hebben op eventuele conclusies die kunnen worden getrokken uit de gegevens in kwestie, omdat ze correlatiecoëfficiënten en lijnen van de beste pasvorm in de verkeerde kunnen vertekenen richting. SPSS is een van een aantal statistische analysesoftwareprogramma's die kunnen worden gebruikt om een ​​dataset te interpreteren en afwijkende waarden te identificeren en te verwijderen.

Verkennende gegevensanalyse

Stap 1

Klik op "Analyseren". Selecteer "Beschrijvende statistieken" gevolgd door "Verkennen".

Video van de dag

Stap 2

Sleep de kolommen met de gegevens van de afhankelijke variabele naar het vak met het label 'Afhankelijke lijst'. Klik OK."

Stap 3

Verwijder eventuele uitbijters die door SPSS zijn geïdentificeerd in de stengel-en-bladplots of boxplots door de afzonderlijke gegevenspunten te verwijderen. U kunt ook een filter instellen om deze gegevenspunten uit te sluiten.

Stap 4

Selecteer "Gegevens" en vervolgens "Gevallen selecteren" en klik op een voorwaarde die uitschieters heeft die u wilt uitsluiten. Bepaal een waarde voor deze voorwaarde die alleen de uitbijters en geen van de niet-perifere gegevenspunten uitsluit.

Stap 5

Kies "Als voorwaarde is voldaan" in het vak "Selecteren" en klik vervolgens op de knop "Als" er net onder. Voer de regel in om uitschieters uit te sluiten die u in de vorige stap hebt bepaald in het vak rechtsboven. Als u bijvoorbeeld metingen boven 74,5 inch uitsluit van de voorwaarde 'hoogte', voert u 'hoogte < = 74,5' in. Klik op "Doorgaan" en "OK" om het filter te activeren.

Regressie analyse

Stap 1

Selecteer in het menu "Analyseren" "Regressie" en vervolgens "Lineair". Selecteer de afhankelijke en onafhankelijke variabelen die u wilt analyseren.

Stap 2

Klik op 'Opslaan' en selecteer vervolgens 'Cook's Distance'. De berekende waarden voor de afstand van Cook worden in uw gegevensbestand opgeslagen als variabelen met het label "COO-1".

Stap 3

Voer een boxplot uit door "Graphs" te selecteren, gevolgd door "Boxplot". Klik op "Eenvoudig" en selecteer "Samenvattingen van afzonderlijke variabelen." Binnenkomen "COO-1" in het vak met het label "Boxes Represent" en voer vervolgens een ID of naam in waarmee de gevallen kunnen worden geïdentificeerd in het vak "Label Cases By" doos.

Stap 4

Vergroot de boxplot in het uitvoerbestand door erop te dubbelklikken. Maak een notitie van gevallen die buiten de zwarte lijnen liggen - dit zijn uw uitbijters. U kunt ervoor kiezen om alle uitbijters te verwijderen of alleen de extreme uitbijters, die zijn gemarkeerd met een ster (*).

Stap 5

Ga terug naar het gegevensbestand en zoek de gevallen die moeten worden gewist. Werk van onder naar boven en markeer het nummer uiterst links, in de grijze kolom, zodat de hele rij is geselecteerd. Klik op "Bewerken" en selecteer "Wissen". Herhaal deze stap voor elke uitbijter die u uit de boxplot hebt geïdentificeerd.

Waarschuwing

Werk bij het wissen van dossiers in sectie 2, stap 5 altijd vanaf de onderkant van het gegevensbestand naar boven, omdat de ID-nummers veranderen wanneer u een dossier wist. Als je van boven naar beneden werkt, zul je uiteindelijk de verkeerde gevallen wissen.