Rucrazia's Blog

[통계] ANOVA 가정에 대한 고찰 본문

기술 - Data Science/Data Science

[통계] ANOVA 가정에 대한 고찰

DoyoungJ 2019. 11. 6. 20:10

ANOVA(analysis of variance, ANOVA, 분산 분석)은 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다.

ANOVA를 사용할 때 필요로 하는 조건이 몇개가 있다. 이것을 우리는 가정이라고 한다.
대표적으로 "정규성", "등분산성", "독립성"이 있다.

The experimental errors of your data are normally distributed (정규성 가정)
    - 종속변수의 잔차는 정규분포를 띄어야 한다.
    - 중심극한정리로 n>30이면 데이터는 정규분포를 띈다고 가정 할 수 있다. 

Equal variances between treatments (등분산성 가정)
    - 아래의 그림과 같이 잔차의 분산은 동일해야 한다.

 잔차의 4가지 경우


- 가장 이상적인 잔차의 분포도(정규분포, 등분산(Predicted values의 평균이 0)).


- 비정규분포, 등분산(Predicted values의 평균이 0)

- 비정규분포에 대한 처리는 옵션

- 데이터에 따라서 비정규/정규분포가 될 수 있음(히스토그램으로 확인)
- 잔차의 분포가 콘형태 이므로 등분산이 아니다. ANOVA를 위한 처리가 필요하다.

- 아웃라이어가 존재해서 문제가 생긴다.
- 아웃라이어 처리가 필요하다.

 

Independence of samples (독립성 가정)
    - 데이터에 있는 샘플들은 랜덤적으로 얻어져야 한다 (실험 디자인 자체가 램덤하게 뽑아질 수 있도록 만드는 것도 좋다.).
    - 하나의 데이터가 다른 데이터와 독립적이어야 한다(시계열데이터라면 전 시간대와 현 시간대에 뽑힌 데이터가 서로 연관이 있으면 안된다.). 
    - 다음과 같은 경우에는 관측치가 독립적이지 않을 수 있다.
    (1) 동일한 주제에 대해 반복적인 측정을 수행한다.
    (2) 관측치는 시간에 따라 상관 관계가 있다.
    (3) 관측치는 공간 내에서 상관관계가 있다.

 

Ref.

https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0_%EB%B6%84%EC%84%9D

https://sites.ualberta.ca/~lkgray/uploads/7/3/6/2/7362679/slides_-_anova_assumptions.pdf