Rucrazia's Blog

[통계] 선형회귀분석(Linear Regression) 결정계수(R^2)에 대한 고찰 본문

기술 - Data Science/Data Science

[통계] 선형회귀분석(Linear Regression) 결정계수(R^2)에 대한 고찰

DoyoungJ 2019. 11. 7. 21:45

선형회귀분석를 이용한 모델의 성능을 판단할 때 사용하는 방법이 결정계수를 이용하는 것입니다.

결정계수는 설명할수있는부분의총합을변동의총합으로나눈 값 입니다. 즉, 얼만큼 이 모델이 학습 시킨 데이터를 설명하는지에 대한 것입니다. 결정계수는 0~1 사이의 값을 가지는데 만약 0에 가까우면 거의 설명을 못하는 것이며, 1에 가까우면 거의 모든 데이터를 설명 가능하다는 것입니다.

일반적으로 결정계수는 R^2를 쓰지만 논문을 써본 분들이라면 Adjusted R^2(수정된 R^2)를 사용하라는 말을 많이 들으셨을 것입니다. 수정된 R^2는 변수가 많아지면 자연스럽게 R^2가 높아지는 문제를 해결하기 위함입니다. 물론 변수를 많이 넣어서 R^2를 높이는 것이 좋긴 하지만, 변수의 갯수가 다른 모델하고 비교할때 과연 이 모델이 정말로 좋은 모델인가? 라는 고민이 있을 수 있습니다. 변수 한개로 0.9를 내는 것이 좋은지 아니면 변수 1000개로 0.92를 내는 것이 좋은지는 관점에 따라서 다를 수 있긴 하지만 가성비를 따져보는 것이 가장 좋을 것입니다. 

수정된 R^2의 공식은 아래와 같습니다.

여기서 n은 sample의 갯수이고, k는 변수의 갯수 입니다. 수정된 R^2는 변수의 갯수에 따라서 R^2에 비해서 값이 같거나 작아지게 됩니다. 하지만, sample(n)의 갯수가 많아지면 변수(k)의 효과는 크게 작아지게 되어 R^2와 R수정된 R^2가 거의 같아지게 됩니다.

대용량의 데이터 분석을 하는 분들이라면 수정된 R^2에 대한 고민 없이 바로 R^2를 사용하시면 됩니다.