SPSS에서 이상값을 제거하는 방법

...

이상치는 통계 분석 결과를 왜곡하고 부정확한 결론을 생성할 수 있는 극단적인 값입니다.

통계 분석에서 이상치는 대부분의 데이터 세트에 맞지 않는 것처럼 보이는 극단적인 값입니다. 제거하지 않으면 이러한 극단값은 결과에서 도출할 수 있는 결론에 큰 영향을 미칠 수 있습니다. 문제의 데이터는 잘못된 데이터에서 상관 계수와 가장 잘 맞는 라인을 왜곡할 수 있기 때문에 방향. SPSS는 데이터 세트를 해석하고 이상값을 식별 및 제거하는 데 사용할 수 있는 여러 통계 분석 소프트웨어 프로그램 중 하나입니다.

탐색적 데이터 분석

1 단계

"분석"을 클릭하십시오. "기술 통계"를 선택한 다음 "탐색"을 선택하십시오.

오늘의 비디오

2 단계

종속 변수 데이터가 포함된 열을 "종속 목록"이라고 표시된 상자에 끌어다 놓습니다. "확인"을 클릭하십시오.

3단계

개별 데이터 점을 삭제하여 줄기-잎 그림 또는 상자 그림에서 SPSS로 식별된 이상값을 제거합니다. 또는 이러한 데이터 요소를 제외하도록 필터를 설정할 수 있습니다.

4단계

"데이터"를 선택한 다음 "케이스 선택"을 선택하고 제외할 이상치가 있는 조건을 클릭합니다. 이상값만 제외하고 이상값이 아닌 데이터 요소는 제외하는 이 조건의 값을 결정합니다.

5단계

"선택" 상자에서 "조건이 만족되는 경우"를 선택한 다음 바로 아래에 있는 "경우" 버튼을 클릭합니다. 이전 단계에서 결정한 이상값을 제외하는 규칙을 오른쪽 상단의 상자에 입력합니다. 예를 들어 "높이" 조건에서 74.5인치를 초과하는 측정을 제외하는 경우 "높이 < = 74.5"를 입력합니다. 필터를 활성화하려면 "계속" 및 "확인"을 클릭하십시오.

회귀 분석

1 단계

"분석" 메뉴에서 "회귀"를 선택한 다음 "선형"을 선택합니다. 분석할 종속 및 독립 변수를 선택합니다.

2 단계

"저장"을 클릭한 다음 "요리사의 거리"를 선택하십시오. Cook의 거리에 대해 계산된 값은 "COO-1"이라는 레이블이 붙은 변수로 데이터 파일에 저장됩니다.

3단계

"그래프" 다음에 "Boxplot"을 선택하여 boxplot을 실행합니다. "단순"을 클릭하고 "개별 변수 요약"을 선택하십시오. 입력하다 "COO-1"을 "Boxes Represent"라고 표시된 상자에 입력한 다음 "Label Cases By"에 사례를 식별하는 데 사용할 ID 또는 이름을 입력합니다. 상자.

4단계

출력 파일을 두 번 클릭하여 상자 그림을 확대합니다. 검은색 선 너머에 있는 사례를 기록해 두십시오. 이는 이상치입니다. 모든 이상값을 제거하거나 별표(*)로 표시된 극단적인 이상값만 제거하도록 선택할 수 있습니다.

5단계

데이터 파일로 돌아가 지워야 하는 사례를 찾습니다. 아래에서 위로 작업하여 맨 왼쪽의 회색 열에서 숫자를 강조 표시하여 전체 행이 선택되도록 합니다. "편집"을 클릭하고 "지우기"를 선택하십시오. 상자 그림에서 식별한 각 이상값에 대해 이 단계를 반복합니다.

경고

2절 5단계에서 케이스를 지울 때는 케이스를 지울 때 ID 번호가 바뀌기 때문에 항상 데이터 파일의 맨 아래에서 위로 이동하여 작업하십시오. 위에서 아래로 작업하면 잘못된 케이스를 지우게 됩니다.