Rucrazia's Blog
[통계] 선형회귀분석(Linear Regression) 가정에 대한 고찰 본문
통계학에서, 회귀 분석(回歸 分析, 영어: regression analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다.
하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 경우를 단순 회귀분석(영어: simple regression analysis), 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(영어: multiple regression analysis)이라고 한다.
1. Weak exogeneity(약한 외생성)
- 외생성은 변수가 외적으로 영향 받아 만들어지게 되는 상태를 의미한다.
- 독립변수들이 Random 변수가 아닌 고정적인 변수를 사용 가능하게 해 준다.
- 고정적인 변수는 수준의 선택이 기술적으로 정해져 있고 각 수준이 기술적 의미를 가지고 있는 효과 인자를 말한다. 예로 온도, 압력 같은 것들이다.
- 측정 시에 오류가 없다는 것을 가정한다(ex. 온도계에 다른 문제가 있어서 측정 오류가 생기는 문제가 없다고 가정).
- 실제로는 측정 오류가 있을 수 있으나 이 가정이 없으면 모델에 다른 오류가 생기므로 본 가정을 세워둔다. 그러므로 약간의 외생성을 인정하는 가정이다.
- 외생성이 있는 경우 추정된 계수 값이 편의가 존재한다.
- 도구변수(Y에는 영향을 주지 않으나 X에는 영향을 주는 변수)를 통해서 외생성을 치료하는 방법이 일반적이다.
위의 외생성 가정에서 파생되어 나온 독립변수와 오차항 간의 중요한 가정이 도출된다.
- 독립변수가 오차항과 상관관계가 없어야 한다.
- 독립변수들 간에 상관관계가 있어도 안된다.
2. Linearity(선형성).
- 종속변수의 평균이 독립변수와 파라미터(회귀계수)들의 선형 결합이어야 한다.
- 독립변수의 경우 위에서 언급한 것처럼 고정 변수로 처리되므로 파라미터에 대해서만 선형성을 요구한다.
- 파라미터만 선형성이 만족됨을 요구하는 것을 이용하여 독립변수들을 잘 변환해서 회귀분석을 수행하는 모델들이 있다(ex. Polynomial regression).
3. Constant variance (a.k.a. homoscedasticity) (등분산성).
- 독립변수와 상관없이 회귀식에 의한 예측값과 종속변수의 오차(Error or Residual)는 분산이 같아야 한다. 실제 데이터에서는 분산이 너무 다른 경우에 문제가 된다.
- 각 객체들의 오차는 평균이 0이고 일정한 분산 (constant variance)을 가진 정규분포(normal distribution)를 따른다고 가정한다.
4. Independence of errors (독립성).
- 각 객체들의 오차는 서로 독립(independent)이다. 즉, 자기 자신과 상관관계가 없다.
- 잔차와 독립변수 간에 서로 독립이다. 즉, 상관관계가 없다.
- 만약, 상관관계가 있다면 Bayesian linear regression과 같은 방법을 이용하면 된다.
5. Lack of perfect multicollinearity in the predictors (다중공선성).
- 독립변수들 간에 다중공선성(multicollinearity)가 있으면 안 된다.
- 만약, 두 변수들 간에 완벽한 다중공선성이 있게 되면 회귀 직선이 서로 평행하게 되어 단일 결과값이 나오지 않을 수 있다.
6. 정규성
- 변수와 잔차는 정규분포를 따라야 한다.
- 회귀 계수(regression coefficient)를 만들기 위해 필요한 변수들은 중심극한정리를 이용해서 정규성을 만족한다고 가정 가능하다.
- 잔차는 중심극한정리를 이용해서 정규성을 만족한다고 할 수 없다. Q-Q Plot 등의 방법을 이용해서 정규성 가정 확인해야 한다.
Ref.
https://brunch.co.kr/@gimmesilver/17
https://danbi-ncsoft.github.io/study/2019/08/07/IV.html
https://en.wikipedia.org/wiki/Linear_regression
https://ko.wikipedia.org/wiki/%ED%9A%8C%EA%B7%80_%EB%B6%84%EC%84%9D
'기술 - Data Science > Data Science' 카테고리의 다른 글
[통계] 선형회귀분석(Linear Regression) 결정계수(R^2)에 대한 고찰 (0) | 2019.11.07 |
---|---|
[직무] 데이터 사이언티스트는 어떤 직업인가? (0) | 2019.11.07 |
[통계] ANOVA 가정에 대한 고찰 (0) | 2019.11.06 |
[강의] MIT Introduction to Computational Thinking and Data Science 정리 - Chapter 5. Random Walks (0) | 2019.11.05 |
[통계] 선형 결합(Linear Combination) (0) | 2019.06.24 |