Rucrazia's Blog
Statistics_Introduction 1. Statistics(통계)란 무엇인가? 본문
Statistics_Introduction 1. Statistics(통계)란 무엇인가?
DoyoungJ 2017. 8. 27. 19:37A 연구원이 한국의 대학생들을 대상으로 수업 만족도 조사를 해서 얼마나 한국의 대학생들이 수업에 만족하고 있는지를 연구 한다고 가정해보겠습니다.
근데, A 연구원은 대학원생으로서 수업도 들어야하고.. 과제도 해야하고.. 시간과 돈이 별로 없습니다.. 위에서 말한 연구를 수행하기 위해서는 모든 한국 대학생들을 조사해야 정말 학생들이 수업을 얼마나 만족하고 있는질 정확히 알겠죠? 근데.. 모든 한국 대학생들을 대상으로 조사를 하게 되면 많은 비용과 시간이 필요하기 때문에 그렇게는 못할것입니다..
그래서!! A 연구원은 어떻게 하면 시간을 줄일 수 있고, 한국 대학생들이 생각하는 수업 만족도를 알아낼 수 있을까에 대해서 고민을 해보았습니다!
A 연구원은 선배한테 통계를 이용해서 연구를 하면 너가 원하는 답을 낼 수 있을것이라는 얘기를 들었습니다.
A 연구원은 통계에 대해서 공부를 해보기로 마음 먹고 스터디를 시작했습니다.
통계 란, 모든 대학생들을 조사하기 어렵기 때문에 대표성을 갖는 몇 명(수 십~ 수 만, 그 이상도 가능)을 뽑아서 추론을 하는 과정 입니다.
여기서 통계적인 언어로 위의 내용을 바꾸어보면, 모든 한국 대학생들은 '모집단(population)' 이라고 하며, 대표성을 갖는 몇 명은 '표본(sample)' 이라고 바꿀수 있습니다.
A 연구원은 대표성을 갖을 것 같은 수백명의 대학생들(표본)을 대상으로 설문조사를 했고, 설문조사를 통해서 만족도 결과를 얻었습니다. 여기서 만족도가 10점 만점에 7점이 나왔다고 하면 과연 이게 전체 한국의 대학생들(모집단)의 수업 만족도라고 할 수 있을까요?
그건 앞으로 공부하게 될 대표성이 과연 있는가?, 정확도가 얼마인가? 등에 의해서 결정되게 됩니다.
그래서 통계학은 통계적으로 예측값 또는 예상값에 수반되는 정확성의 정도를 계산하는 학문이라고 할 수도 있습니다. 즉, 100명의 표본에서 얻은 평균값과 1000명의 표본에서 얻은 평균값의 정확성은 다르며, 당연히 후자에서 얻은 정확도가 높을 것 입니다 (같은 방법으로 표본을 얻었다고 했을때).
위의 정확도는 '오차(error)'의 반댓말 이기도 합니다. 즉, 정확도가 높으면 오차는 적습니다.
위의 말을 바꿔서 풀어보면 통계학은 오차에 대한 학문이라고 할 수 있으며, 표본에서 얻은 정보를 모집단에서의 정보로 바꾸는 과정에서 오차를 줄이는 방법을 연구하고, 필연적으로 수반되는 오차의 크기를 계산하여 정보이용자나 의사결정자에게 제공하려는 것이라고 할 수 있습니다.
출처 - 통계학 입문 Introductory Statistics, 자유아카데미
'기술 - Data Science > Data Science' 카테고리의 다른 글
Statistics_Introduction 3. 기술통계(그래프) (0) | 2017.08.28 |
---|---|
Statistics_Introduction 2. 통계의 기본 (0) | 2017.08.27 |
Data Science 1. 단순선형회귀 (2) (0) | 2017.08.07 |
PCA, CLSTURING(K-Means), Association Rule (0) | 2017.08.07 |
Data Science 1. 단순선형회귀 (1) (0) | 2017.08.02 |