Rucrazia's Blog

Data Science 1. 단순선형회귀 (1) 본문

기술 - Data Science/Data Science

Data Science 1. 단순선형회귀 (1)

DoyoungJ 2017. 8. 2. 20:00

회귀분석은 두 개 이상의 양적 변수 사이의 관계를 분석하여 반응변수(response variable) 또는 결과변수가 한 변수 혹은 여러 다른 변수에 의해 예측이 가능하도록 하는 통계 방법론입니다.

 

이번에는 단일 예측변수(독립변수)에 선형 회귀모형을 사용하여 반응변수 또는 결과변수(종속변수)를 예측하는 회귀분석을 알아보고자 합니다.

 

 

먼저 변수 사이의 관계를 보면 함수적 관계통계적 관계가 있습니다.

 

함수적 관계는 어릴 때 배웠던 함수를 의미합니다.

y=f(x)          함수 소녀들이 생각나는군요..ㅎㅎ

위의 수학식과 같이 어떠한 x가 들어가면 y가 나오게 되어 하나의 곡선(혹은 직선) 위에 바로 있게 됩니다.

 

통계적 관계는 함수적 관계와 달리 완벽한 형태가 아닙니다. 다시 말해서, 값(관측값)들이 통계적 관계 곡선 위에 놓이지 않습니다 (어떠한 직선, 우리가 앞으로 알아보게 될 회귀 직선과 같은..).

이러한 특성으로 인해서 우리는 산점도(Scatter plot) 등을 그려서 관측값(Observation, observed value)들의 분포를 확인하게 됩니다.

 

 

우리는 수학적인 함수적 관계가 아닌 통계적 관계를 보려고 합니다.

통계적 관계로서 제가 맨 처음 보고자 하는 것은 회귀 분석 입니다.

앞으로 다양한 회귀분석과 다른 통계 기법들을 알아볼것입니다.

 

먼저, 역사적 기원으로는 19세기 말 갈톤에 의해 처음 발전 되었는데, 갈톤은 부모의 키와 자녀의 키 사이의 관계를 연구하였고 키가 작은 부모에서의 자녀의 키와 키가 큰 부모에서의 자녀의 키 둘 다 그룹의 평균에 되돌아가거나 회귀한다는 사실에 주목하였습니다. 갈톤은 이러한 회귀 경향을 수학적인 표현으로 도출하였으며 이는 오늘날 회귀모형의 전형이 되었다고 합니다.

 

 

회귀모형의 구축

회귀모형에서 '모형'은 무엇을 말하는 것일까요?

'모형'은 영문으로 하면 model (롤모델의 모델과는 비슷하면서도 다릅니다..)입니다.

모형을 쉽게 말하자면 위에서 얘기드린 자녀의 키라는 결과(종속변수)에 부모의 키 라는(독립변수) 원인간의 관계를 말해주는 함수를 만드는 것입니다.

 

위에서 분명 회귀 분석은 통계적 관계라고 했는데 갑자기 함수를 만든다고 하면 햇갈리시겠죠?

함수를 만든다고 해도 y=ax+b 라는 1차항으로는 모든 변수를 저 함수에 만족 시킬수는 없습니다. 그래서 통계적 관계라고 말씀드린 것입니다.

 

초등(?),중 학생 때 1차 방정식을 공부 할 때 y=ax+b에서 a와 b를 구하라는 문제가 많이 나온것을 기억 하실 것입니다.

 

부모의 키(x)와 자녀의 키(y)를 이용해서 함수를 만드는데, a와 b를 최대한 모든 값들이 어느정도 근사치로 맞게 구하는 것이 바로 선형 회귀 입니다.

 

 

예측변수 선택

 

 

 

 

 

출처

응용 선형회귀모형 (Applied linear regression models, 4th Edition, Mc Graw Hill)