Gli outlier sono valori estremi che possono distorcere i risultati di un'analisi statistica e creare conclusioni imprecise.
I valori anomali nelle analisi statistiche sono valori estremi che non sembrano adattarsi alla maggior parte di un set di dati. Se non vengono rimossi, questi valori estremi possono avere un grande effetto su qualsiasi conclusione che si possa trarre dal dati in questione, perché possono distorcere i coefficienti di correlazione e le linee di migliore adattamento nel torto direzione. SPSS è uno dei numerosi programmi software di analisi statistica che possono essere utilizzati per interpretare un set di dati e identificare e rimuovere i valori periferici.
Analisi esplorativa dei dati
Passo 1
Fare clic su "Analizza". Seleziona "Statistiche descrittive" seguito da "Esplora".
Video del giorno
Passo 2
Trascina e rilascia le colonne contenenti i dati della variabile dipendente nella casella denominata "Elenco dipendente". Fare clic su "OK".
Passaggio 3
Rimuovere eventuali valori anomali identificati da SPSS nei grafici stem-and-leaf o box plot eliminando i singoli punti dati. In alternativa, puoi impostare un filtro per escludere questi punti dati.
Passaggio 4
Seleziona "Dati", quindi "Seleziona casi" e fai clic su una condizione che ha valori anomali che desideri escludere. Determinare un valore per questa condizione che escluda solo i valori anomali e nessuno dei punti dati non esterni.
Passaggio 5
Scegli "Se la condizione è soddisfatta" nella casella "Seleziona", quindi fai clic sul pulsante "Se" appena sotto di essa. Inserisci la regola per escludere gli outlier che hai determinato nel passaggio precedente nella casella in alto a destra. Ad esempio, se escludessi le misurazioni superiori a 74,5 pollici dalla condizione "altezza", inseriresti "altezza < = 74,5". Fare clic su "Continua" e "OK" per attivare il filtro.
Analisi di regressione
Passo 1
Nel menu "Analizza", seleziona "Regressione" e poi "Lineare". Seleziona le variabili dipendenti e indipendenti che desideri analizzare.
Passo 2
Fare clic su "Salva" e quindi selezionare "Distanza del cuoco". I valori calcolati per la distanza di Cook verranno salvati nel file di dati come variabili etichettate "COO-1".
Passaggio 3
Esegui un boxplot selezionando "Grafici" seguito da "Boxplot". Fare clic su "Semplice" e selezionare "Riepiloghi di variabili separate". accedere "COO-1" nella casella "Boxes Represent", quindi inserisci un ID o un nome con cui identificare i casi in "Etichetta casi per" scatola.
Passaggio 4
Ingrandisci il boxplot nel file di output facendo doppio clic su di esso. Prendi nota dei casi che si trovano oltre le linee nere: questi sono i tuoi valori anomali. Puoi scegliere di rimuovere tutti gli outlier o solo gli outlier estremi, che sono contrassegnati da una stella (*).
Passaggio 5
Torna nel file di dati e individua i casi che devono essere cancellati. Operando dal basso verso l'alto, evidenzia il numero all'estrema sinistra, nella colonna grigia, in modo che sia selezionata l'intera riga. Fare clic su "Modifica" e selezionare "Cancella". Ripeti questo passaggio per ogni outlier identificato dal boxplot.
Avvertimento
Quando si cancellano casi nella Sezione 2, passaggio 5, lavorare sempre dalla parte inferiore del file di dati spostandosi verso l'alto perché i numeri ID cambiano quando si cancella un caso. Se lavori dall'alto verso il basso, finirai per cancellare i casi sbagliati.