Rucrazia's Blog

Data Science 1. 단순선형회귀 (2) 본문

기술 - Data Science/Data Science

Data Science 1. 단순선형회귀 (2)

DoyoungJ 2017. 8. 7. 22:29

회귀분석은 세 가지 중요한 목적을 지닙니다.

(1) 서술(Description)

(2) 관리(Control)

(3) 예측(Prediction)

 

예를 들어,

서술은 은행 지점에 대한 운영 비용과 지점의 특성 사이의 관계에 대한 지식.

관리는 운영진이 각 지점의 원가표준을 세울 수 있게 하는 것.

예측은 운영진이 비용을 예측한다.

 

제가 예전에 블로그를 돌아다니다 본 내용으로, 회귀분석은 인과 관계를 분석하는 것이고, 상관분석은 상관 관계를 분석하는 것이라는 것을 보았습니다.

 

그러나, 반응변수 Y와 설명변수(예측변수) X의 통계적 관계는 X와 Y의 인과관계를 의미하지는 않습니다. X와 Y의 통계적 관계가 아무리 강하다고 하더라도 회귀모형은 필연적으로 X가 Y의 원인임을 보여 주지 않습니다. 두개의 예를 들어 설명 해보겠습니다.

 

5~10세의 아동에 관한 자료는 양의 회귀 관계를 나타낼 것이나, 어휘량의 증가가 기록 속도를 향상시키는 것으로 해석 할 수는 없는데, 그 이유는, 어휘량의 증가 뿐만 아니라 교육수준과 같은 다른 예측변수들이 어휘량(X)과 기록속도(Y) 둘 다에 영향을 줄 수 있기 때문입니다.

 

온도계의 예시를 들어보면, 온도계 눈금 읽기를 예측변수(X)로 두고 실제 온도인 반응변수 (Y)를 예측한다. 이때 X가 Y의 원인이 아닌 역의 인과관계가 성립하므로, 실제 온도(Y)가 온도계 눈금(X)에 영향을 주는 역방향의 인과관계가 존재하게 됩니다.

 

위의 예시들을 통해서 본 회귀 분석은 우리가 간단하게 '회귀분석은 인과관계를 보기 위한 통계적 분석방법' 이라고 결론을 도출하기에는 주의가 필요하다는 것을 보았스빈다. 회귀분석 자체는 인과관계에 대한 어떠한 정보도 제공하지 않으며 인과관계에 대한 통찰력을 얻기 위해서는 추가적인 분석이 보충되어야 한다고 합니다.

 

 

수학적 모형

회귀모형 수학적 공식은 다음과 같습니다.

는 i번째 시행의 반응변수 관측값으로 함수의 결과 Y라고 생각하면 됩니다.

는 모수로서, 0 는 1차 함수에 나오는 y 절편과 같은 것이며, 1은 기울기로 볼 수 있습니다.

오차항으로, 상수분산(constant variance; 등분산, equivariance) 을 가정합니다. 그렇기 때문에, 어떠한 i번째 시행의 Y의 오차항은 모두 같게 됩니다.

 

반응변수의 관측값는 평균이 E{} = 이고 X의 모든 수준에 대해 동일한 분산 인 확률분포에서 나오게 됩니다.

 

실제로, 선형회귀 분석을 R이나 SPSS와 같은 통계 패키지를 이용해서 분석을 하게 되면, 오차항 값은 안 나오게 되며, 식의 에 대한 값이 나오게 됩니다(오차항이 이미 에 포함되어 나온 결과로 예상). 예를들어, 에 대해 각각 9.5와 2.1이 나왔다고 하면, 가 나오게 됩니다.

그렇다면, X가 45일 때, Y는 104가 나오게 됩니다. 여기서 오차항에 대한 것이 나오는데, 실제로는 돈이 X에 45만원이 들어갔을 때, 실제 나오는 Y의 금액은 108만원이라고 할 때, 예측값과 실제값 간에 4만원의 차이가 존재하게 됩니다. 이 '4만원' 이라는 값이 오차항의 값이라고 할 수 있습니다.

 

이 글은 아래의 출처에 대한 요약 및 작성자의 의견이 들어간 내용입니다.

출처

응용 선형회귀모형 (Applied linear regression models, 4th Edition, Mc Graw Hill)