Les valeurs aberrantes sont des valeurs extrêmes qui peuvent fausser les résultats d'une analyse statistique et créer des conclusions inexactes.
Les valeurs aberrantes dans les analyses statistiques sont des valeurs extrêmes qui ne semblent pas correspondre à la majorité d'un ensemble de données. Si elles ne sont pas supprimées, ces valeurs extrêmes peuvent avoir un effet important sur les conclusions qui pourraient être tirées de la données en question, car elles peuvent fausser les coefficients de corrélation et les lignes de meilleur ajustement dans le mauvais direction. SPSS est l'un des nombreux logiciels d'analyse statistique qui peuvent être utilisés pour interpréter un ensemble de données et identifier et supprimer les valeurs aberrantes.
Analyse exploratoire des données
Étape 1
Cliquez sur "Analyser". Sélectionnez « Statistiques descriptives » suivi de « Explorer ».
Vidéo du jour
Étape 2
Faites glisser et déposez les colonnes contenant les données des variables dépendantes dans la zone intitulée « Liste dépendante ». Cliquez sur OK."
Étape 3
Supprimez toutes les valeurs aberrantes identifiées par SPSS dans les diagrammes à tiges et à feuilles ou les boîtes à moustaches en supprimant les points de données individuels. Vous pouvez également configurer un filtre pour exclure ces points de données.
Étape 4
Sélectionnez « Données », puis « Sélectionner des cas » et cliquez sur une condition qui a des valeurs aberrantes que vous souhaitez exclure. Déterminez une valeur pour cette condition qui exclut uniquement les valeurs aberrantes et aucun des points de données non aberrants.
Étape 5
Choisissez "Si la condition est satisfaite" dans la case "Sélectionner", puis cliquez sur le bouton "Si" juste en dessous. Entrez la règle pour exclure les valeurs aberrantes que vous avez déterminées à l'étape précédente dans la zone en haut à droite. Par exemple, si vous excluiez les mesures supérieures à 74,5 pouces de la condition « hauteur », vous entreriez « hauteur < = 74,5 ». Cliquez sur "Continuer" et "OK" pour activer le filtre.
Analyse de régression
Étape 1
Dans le menu "Analyser", sélectionnez "Régression" puis "Linéaire". Sélectionnez les variables dépendantes et indépendantes que vous souhaitez analyser.
Étape 2
Cliquez sur « Enregistrer », puis sélectionnez « Distance du cuisinier ». Les valeurs calculées pour la distance de Cook seront enregistrées dans votre fichier de données en tant que variables intitulées « COO-1 ».
Étape 3
Exécutez une boîte à moustaches en sélectionnant « Graphs » suivi de « Boxplot ». Cliquez sur "Simple" et sélectionnez "Résumés des variables séparées". Entrer « COO-1 » dans la case intitulée « Les cases représentent », puis entrez un identifiant ou un nom permettant d'identifier les cas dans le champ « Étiqueter les cas par » boîte.
Étape 4
Agrandissez la boîte à moustaches dans le fichier de sortie en double-cliquant dessus. Notez les cas qui se situent au-delà des lignes noires: ce sont vos valeurs aberrantes. Vous pouvez choisir de supprimer toutes les valeurs aberrantes ou uniquement les valeurs aberrantes extrêmes, qui sont signalées par une étoile (*).
Étape 5
Retournez dans le fichier de données et localisez les cas qui doivent être effacés. En travaillant de bas en haut, mettez en surbrillance le nombre à l'extrême gauche, dans la colonne grise, de sorte que toute la ligne soit sélectionnée. Cliquez sur "Modifier" et sélectionnez "Effacer". Répétez cette étape pour chaque valeur aberrante que vous avez identifiée à partir de la boîte à moustaches.
Avertissement
Lorsque vous effacez des cas dans la Section 2, étape 5, travaillez toujours à partir du bas du fichier de données en remontant car les numéros d'identification changent lorsque vous effacez un cas. Si vous travaillez de haut en bas, vous finirez par effacer les mauvais cas.