Rucrazia's Blog

빅데이터에서의 정규성 검정 본문

기술 - Data Science/Data Science

빅데이터에서의 정규성 검정

DoyoungJ 2019. 1. 16. 21:18

정규성 검정(Testing Normality) :  특정 변수가 정규분포를 따르는지 확인하는 테스트 방법

통계학에서 사용하는 많은 통계분석 방법에는 정규분포의 조건이 있기 때문에 분석하고자 하는 data 가 정규분포이면 t-test, ANOVA 를 분석할 수 있지만, 정규성 가정을 만족하지 못하면 분석을 못하고 비모수 검정을 해야 합니다.


정규분포


위의 그래프와 같이 정규분포를 따르는 변수인지 확인하기 위해 정규성 검정을 시행하나, n=30이 넘어가면 중심극한정리에 의해서 정규성 검정이 필요 없다. 중심극한정리는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.

[ 출처 : http://blog.naver.com/PostView.nhn?blogId=jjy0501&logNo=221016092102 ]

(위의 그래프에 대한 자세한 내용 분석 내용은 그래프 그림 밑의 출처에서 확인 가능하다.)

n이 30이 넘는 위의 그래프 데이터를 보면 왼쪽으로 치우쳐져 있는 것을 확인 가능하다. 그래프 상으로는 정규분포를 띄진 않지 않기 때문에 정규성 검정을 하게 되면 p값이 0.05 미만으로 나오기 때문에 정규분포랑 같은 분포라는 귀무가설을 기각하게 된다. 즉, 정규분포랑 다른 분포라는 의미이다. 그러나, 앞에서 n이 30 이상이면 정규분포에 따른다는 중심극한정리에 의해 정규분포라고 볼 수 있으니 서로 다른 말을 하고 있는 것과 같다. 중심극한 정리는 n이 30이상이면 정규분포를 따를 것이라는 가정이기 때문에 가설 검정을 해보는 것이 좋은 예측 모델을 만들 때 사전 작업이 될 것이다. 참고로 우리가 일반적으로 사용하는 OLS(Ordinary Least Squares) Regression은 독립, 종속변수들의 정규성 가정이 필요없고 잔차의 정규분포만 따지면 되므로 회귀분석을 사용할 땐 변수에 대한 정규성 검정을 꼭 해야 하는것은 아니다. 



참고(n<30일 때)

정규성이 성립하지 않는 이유들로는 다음과 같다.

1. 배경에 사용된 분포가 정규분포를 하지 않는 경우

2. 이상치나 두개 이상의 분포가 섞여 있는 경우

3. 낮은 해상도의 Gage R&R을 사용한 경우

4. 데이터의 중심이 한쪽으로 치우쳐 있는 경우(Skewed data)

5. 표본의 갯수가 너무 많은 경우


Ref.

http://goodtogreate.tistory.com/entry/정규성-검정-SapiroWilks-Test [GOOD to GREAT]

http://www.statedu.com/QnA/238418

http://blog.naver.com/PostView.nhn?blogId=jjy0501&logNo=221016092102