Rucrazia's Blog

[통계] ANCOVA (공분산분석) 본문

기술 - Data Science/Data Science

[통계] ANCOVA (공분산분석)

DoyoungJ 2019. 11. 11. 22:08

 ANCOVA(Analysis of Covariance, 공분산분석)는 ANOVA(분산분석)과 Regression(회귀분석)을 섞어놓은 분석 방법이다. ANOVA는 그룹 간에 평균 비교를 하기 위한 모델이고, Regression은 종속변수와 독립변수 간의 관계를 모델링하는 방법이다. 그렇다면, 이 둘을 합친 ANCOVA는 어떤 것을 위해서 하는 것일까?

 ANCOVA는 독립변수 이외의 잡음인자(noise)들이 종속변수에 영향을 미치는 것을 통제함으로써 독립변수 자체의 순수한 영향을 측정하는데 목적이 있다. 즉, 공변수를 통제 했을 때 집단 간 조정평균차이를 비교하는 분석법이다. 실제 실험에서는 독립변수 이외의 잡음인자를 통제하기 어렵기 때문에 공변수라는 것을 이용해서 독립변수에 대한 종속변수의 반응을 깨끗하게 측정하기 위함이다. 즉, 공변수간 차이 때문에 자연적으로 발생하는 종속변수에서의 집단간 차이를 제거 할 수 있다.

 만약 공변량이 종속변수에 영향을 주지 않는다면, 이것은 통계적으로 통제할 필요가 없으며, 이 경우에는 공변량을 분석 모형에서 제거한다고 해도 결과에 변함이 거의 없다. 그러나, 종속변수에 영향을 준다면-실험 집단들 사이에 종속변수 값의 차이가 있고, 공변량이 실험 후 비교하고자 하는 종속변수와 어떠한 관계가 있을 경우- 공변량은 통계적으로 통제를 해야 한다.

ANCOVA 분석을 위해서는 세 개의 변수로 필요하다.
    - 독립변수 : 종속변수에 영향을 주는 변수
    - 공변수(공변량, covariate) : 종속변수에 대하여 독립변수와 기타 잡음인자들이 공유하는 변량을 의미한다. 즉, 공변수는
통제해야할 오차의 근원으로 본다. 공변수가 모형내에 포함됨으로 오차줄이는데 기여하기 떄문에 검정력이 높아진다.   
    - 종속변수 : 독립변수에 의해 영향을 받는 변수

ANCOVA에 필요한 가정은 다음과 같다.
  1. 잔차의 정규성
  2. 데이터, 잔차의 등분산성
  3. 회귀경사의 동등성
  4. 공변량과 종속변수 사이의 선형성 
  5. 잔차의 독립성

 

 

ANOVA에선 between-group의 변량을 within-group의 변량(MS)으로 나누어서 F값을 만들게 된다.
ANCOVA는 여기에 ANOVA가 설명 못 하는 부분을 Covariate를 이용해서 Within-group variance를 수정해준다.
종속변수와 약한 상관관계를 가진 Covariate를 넣게 되면 오히려 통계 Power를 낮추기 때문에 안 쓰느니 만도 못하다. 

 

 

Ref.

https://www.statisticshowto.datasciencecentral.com/ancova/

https://m.blog.naver.com/PostView.nhn?blogId=lucifer246&logNo=179360873&proxyReferer=https%3A%2F%2Fwww.google.com%2F

http://www.statedu.com/term/7367

http://www.incodom.kr/R%ED%99%9C%EC%9A%A9/ANCOVA

http://statistics4everyone.blogspot.com/2016/02/regression-ancova-3.html