Rucrazia's Blog

[통계] ANOVA(분산분석) 본문

카테고리 없음

[통계] ANOVA(분산분석)

DoyoungJ 2019. 11. 8. 21:43

 ANOVA는 Analysis of Variance의 줄임말로 한국어로는 분산분석이라고 쓴다.
 ANOVA는 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다.

 

 ANOVA 분석을 하기 전 데이터가 만족해야 하는 가정이 몇 개가 있다. 정규성 가정, 등분산성 가정, 독립성 가정이다. 자세한 내용은 아래의 포스팅을 참고바란다.

https://rucrazia.tistory.com/85

 

[통계] ANOVA 가정에 대한 고찰

ANOVA(analysis of variance, ANOVA, 분산 분석)은 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F..

rucrazia.tistory.com

 

 ANOVA는 F분포를 이용한 분석을 한다. F분포는 분산의 비교를 통해 얻어진 분포비율이다. 이 비율을 이용하여 각 집단의 모집단분산이 차이가 있는지에 대한 검정과 모집단평균이 차이가 있는지 검정하는 방법으로 사용한다. 즉 F = (군간변동)/(군내변동)이다. 만약 군내변동이 크다면 집단간 평균차이를 확인하는 것이 어렵다.

One-way ANOVA의 수학적 공식을 보자.

 

SSTR (SStreatments라고도 쓰임) = {(각 집단의 평균값에서 전체 평균을 뺀 것의 제곱) * (각 집단의 sample 수)} 의 합

 

SSE (SSerror라고도 쓰임) = (각 sample에서 각 집단의 평균을 뺀 것의 제곱)의 합

 


SST (SStotal라고도 쓰임) = (각 sample에서 전체 평균을 뺀 것의 제곱)의 합



SST는 SSTR과 SSE가 제대로 구해졌는지 확인하기 위한 용도로 쓰임.

 

 c = 집단의 갯수 (변수 x)
MSTR은 집단의 갯수 -1 로 SSTR을 나눈 값이다. 집단이 많아지면 MSTR이 작아져 F값이 작아지게 된다. 즉, 집단 간의 평균 차이가 통계적으로 비슷하다고 되어 진다 (유의확률이 감소).

 


MSE은 Sample의 갯수에서 집단의 갯수 로 SSE을 나눈 값이다. 여기서 ANOVA를 사용할 때 변수의 갯수가 N보다 크거나 같을 수 없다 라는 것이 도출된다. 집단의 갯수(c)가 Sample의 갯수(N)과 거의 비슷할 수록 MSE는 점점 커질 것이다. 즉, MSE가 커지면 F값이 작아져 유의확률을 넘기기 어려워진다. 즉, 집단 간의 평균 차이가 통계적으로 비슷하다고 되어 진다 (유의확률이 감소).

 

 

 F값이 커지면 p값이 작아져 유의확률을 만족하게 될 가능성이 높아진다 (귀무가설 기각).
유의확률(p<0.05)를 만족시켜 귀무가설을 기각 시키기 위해서는 MSTR이 커지거나 MSE가 작아져야 한다.
위에서 살펴본 것 처럼 F값을 넘기기 위한 가장 좋은 데이터는
  1. 전체평균과 각 집단의 평균값의 차이가 커져야 하며
  2. 각 Sample과 각 집단의 평균값의 차이가 커져야 하며
  3. 각 집단의 sample의 갯수가 많아져야 하며
  4. 집단의 갯수가 작으면 된다.

 

 

위에서 알아본 것은 One-way ANOVA로 집단이 1개의 독립변수로 있고 연속형 변수가 1개의 종속변수로 있을 때 수행하는 ANOVA이다. 독립변수가 여러개 있을 때는 One-way ANOVA가 아닌 다른 ANOVA를 이용하게 된다. 

ANOVA의 종류는 크게 아래와 같이 나뉜다.

일원분산분석(one-way ANOVA)
    - 종속변인은 1개이며, 독립변인의 집단도 1개인 경우이다.

예1) 가구소득에 따른 식료품소비 정도의 차이이다. 여기서 가구소득은 독립변인으로 가구소득집단의 구분-저소득, 중산층, 고소득층 등으로 2개 이상이다. 독립변인의 집단이 2개 이상이므로 사후분석을 실시한다.

이원분산분석(two-way ANOVA)
    - 독립변인의 수가 두 개 일 때 집단 간 차이가 유의한지를 검증하는 데 사용한다.

다원분산분석(multi-way ANOVA)
    - 독립변인의 수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는 데 사용한다. 

다원변량분산분석(MANOVA)
    - 단순한 분산분석을 확장하여 두개 이상의 종속변인이 서로 관계된 상황에 적용시킨 것이다. 둘 이상의 집단간 차이를 검증 할 수 있다.

공분산분석(ANCOVA)
    - 다원변량분산분석에서 특정한 독립변인에 초점을 맞추고 다른 독립변인은 통제변수로 하여 분석하는 방법이다. 특정한 사항을 제한을 하여 분산분석을 하는 것이다.

반복측정 분산분석(RM ANOVA)
 - Repeated Measures ANOVA로 명칭되며 줄여서 반복측정 분산분석은 위의 집단별 차이에 추가적으로 개체 내 요인(개체 내 상관) 효과라는 것이 또 하나 존재하게 되고(동일 개체의 반복 측정이므로) 이로 인하여, 가장 중요한 것은 개체 별 차이 효과와 개체 내 차이 효과를 분리하여, 그들의 효과를 파악하는 것이 목적이다.

 

Ref.

https://blog.naver.com/PostView.nhn?blogId=y4769&logNo=220377172228&parentCategoryNo=&categoryNo=27&viewDate=&isShowPopularPosts=true&from=search

https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0_%EB%B6%84%EC%84%9D

http://cba.ualr.edu/smartstat/topics/anova/example.pdf