Rucrazia's Blog

[통계] 선형회귀분석(Linear Regression) 가정에 대한 고찰 본문

기술 - Data Science/Data Science

[통계] 선형회귀분석(Linear Regression) 가정에 대한 고찰

DoyoungJ 2019. 11. 6. 21:12

통계학에서, 회귀 분석(回歸 分析, 영어: regression analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다.

하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 경우를 단순 회귀분석(영어: simple regression analysis), 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(영어: multiple regression analysis)이라고 한다.

1. Weak exogeneity(약한 외생성)
    - 외생성은 변수가 외적으로 영향 받아 만들어지게 되는 상태를 의미한다. 
    - 독립변수들이 Random 변수가 아닌 고정적인 변수를 사용 가능하게 해 준다.
    - 고정적인 변수는 수준의 선택이 기술적으로 정해져 있고 각 수준이 기술적 의미를 가지고 있는 효과 인자를 말한다. 예로 온도, 압력 같은 것들이다.
    - 측정 시에 오류가 없다는 것을 가정한다(ex. 온도계에 다른 문제가 있어서 측정 오류가 생기는 문제가 없다고 가정).
    - 실제로는 측정 오류가 있을 수 있으나 이 가정이 없으면 모델에 다른 오류가 생기므로 본 가정을 세워둔다. 그러므로 약간의 외생성을 인정하는 가정이다.    
    - 외생성이 있는 경우 추정된 계수 값이 편의가 존재한다.
    - 도구변수(Y에는 영향을 주지 않으나 X에는 영향을 주는 변수)를 통해서 외생성을 치료하는 방법이 일반적이다.
 

  위의 외생성 가정에서 파생되어 나온 독립변수와 오차항 간의 중요한 가정이 도출된다.

    - 독립변수가 오차항과 상관관계가 없어야 한다.
    - 독립변수들 간에 상관관계가 있어도 안된다.

2. Linearity(선형성).
    - 종속변수의 평균이 독립변수와 파라미터(회귀계수)들의 선형 결합이어야 한다.
    - 독립변수의 경우 위에서 언급한 것처럼 고정 변수로 처리되므로 파라미터에 대해서만 선형성을 요구한다.
    - 파라미터만 선형성이 만족됨을 요구하는 것을 이용하여 독립변수들을 잘 변환해서 회귀분석을 수행하는 모델들이 있다(ex. Polynomial regression). 

3. Constant variance (a.k.a. homoscedasticity) (등분산성).
    - 독립변수와 상관없이 회귀식에 의한 예측값과 종속변수의 오차(Error or Residual)는 분산이 같아야 한다. 실제 데이터에서는 분산이 너무 다른 경우에 문제가 된다. 
    - 각 객체들의 오차는 평균이 0이고 일정한 분산 (constant variance)을 가진 정규분포(normal distribution)를 따른다고 가정한다.
  

4. Independence of errors (독립성).
    - 각 객체들의 오차는 서로 독립(independent)이다. 즉, 자기 자신과 상관관계가 없다.
    - 잔차와 독립변수 간에 서로 독립이다. 즉, 상관관계가 없다.
    - 만약, 상관관계가 있다면 Bayesian linear regression과 같은 방법을 이용하면 된다.

5. Lack of perfect multicollinearity in the predictors (다중공선성).
    - 독립변수들 간에 다중공선성(multicollinearity)가 있으면 안 된다.
    - 만약, 두 변수들 간에 완벽한 다중공선성이 있게 되면 회귀 직선이 서로 평행하게 되어 단일 결과값이 나오지 않을 수 있다.

6. 정규성
    - 변수와 잔차는 정규분포를 따라야 한다.
    - 회귀 계수(regression coefficient)를 만들기 위해 필요한 변수들은 중심극한정리를 이용해서 정규성을 만족한다고 가정 가능하다.
    - 잔차는 중심극한정리를 이용해서 정규성을 만족한다고 할 수 없다. Q-Q Plot 등의 방법을 이용해서 정규성 가정 확인해야 한다.

 

Ref.

https://brunch.co.kr/@gimmesilver/17

https://danbi-ncsoft.github.io/study/2019/08/07/IV.html

https://nnotee.tistory.com/70

https://en.wikipedia.org/wiki/Linear_regression

https://ko.wikipedia.org/wiki/%ED%9A%8C%EA%B7%80_%EB%B6%84%EC%84%9D