Rucrazia's Blog
Statistics_Introduction 7. 표본추출과 표집분포 본문
표본조사와 전수조사
통계를 돌리기 위해서 데이터가 필요합니다. 아무것도 없이 통계를 돌릴 수는 없죠..
이를 위해 데이터를 모으게 되는데, 통계를 돌리기 위한 목적에 맞게 데이터를 모으게 됩니다.
먼저, 한 가지 예를 들어보겠습니다. 대학생들의 유학에 대한 관심도에 대한 통계를 돌리기 위해 데이터를 수집한다고 해보겠습니다. 한국의 모든 대학생들을 대상으로 유학에 대한 관심도를 얻으려고 한다면 정확한 결과값을 얻을 수 있겠지만, 많은 인력과 시간이 필요할 것입니다. 이렇게 모든 대학생들을 대상으로 자료를 조사하는 것을 전수조사라고 합니다.
이와는 반대로, 모든 대학생들을 대상으로 하기에는 힘들기 때문에 대학생들 중에 대표적으로 수십~수백 명을 대상으로 조사하는 것을 표본조사라고 합니다.
위의 전수조사처럼 모든 대학생들을 모집단population이라고 하며 유학에 대한 관심도를 모수parameter라고 합니다.
표본조사에서 조사한 대표 대학생들을 표본sample이라고 하며, 표본으로 얻어진 자료로부터 계산되는 통계 값을 통계량statistic이라고 합니다. 이 통계량이 모수의 추정에 사용하게 되면 추정량estimator가 되며, 실제 자료에서 추정량이 구현된 값은 추정값estimate입니다.
즉, 모수를 예측하는 값은 표본으로부터 관측된 자료로부터 계산하는 추정값 입니다.
표본조사의 특성
위에서 예시로 든 표본조사의 경우처럼 모집단에서 일부 대표적인 표본들을 추출해서 조사하는 것이 일반적인 경우에 많이 사용됩니다. 하지만, 표본조사를 통해서 나온 통계값이 실제와는 전혀 다른 추정값이 계산되는 현상이 일어날수도 있습니다. 여러분들이 쉽게 알수 있듯이, 모든 사람들을 대상으로 조사를 한 것이 아니기 때문에 실제와는 다른 예측을 하게 될 위험이 있습니다. 그렇기 때문에 전체가 아닌 부분만을 조사하는 표본조사의 특성 떄문에 표본에서 얻은 추정값은 반드시 실제값과 차이를 갖게 됩니다.
차이를 최소로 만들기 위해 비용을 많이 투자를 할 수도 있으나, 정해진 조사비용 내에서 이러한 차이를 최대한 작게 만드는 것이 표본조사의 목적입니다.
모집단에서 나온 모수와, 표본집단에서 나온 추정량의 차이를 오차error 라고 합니다. 이러한 추정량의 오차는 표집오차sampling error와 비표집오차nonsampling error로 나뉘어 질 수 있습니다.
표집오차는 모집단의 표본만을 관측하기에 발생하는 오차이며, 표본의 크기가 클수록 작아집니다. 그러나, 표본의 크기가 클수록 비용이 커지므로 표집오차를 최소화하는 표본추출법과 그 추정량을 찾아내는 것이 중요한 문제가 됩니다.
비표집오차는 모집단을 다 조사하여도 발생할 수 있는 오차로서, 무응답, 거짓응답, 설문 문항의 이해 부족 등으로 인해서 생기는 오차입니다.
확률표본
모집단에서 표본을 뽑기 위한 표본추출 유형에는 비확률표본추출과 확률표본추출이 있습니다.
확률표본추출법은 모집단의 각 원소가 뽑힐 확률을 미리 지정하고, 그 값들이 모두 0보다 크게 되는 표본추출법을 지칭합니다. 비확률표본추출은 표본으로 뽑힐 확률을 모르거나 그렇지 않더라도 어느 원소들을 그 추출확률이 0이 되는 것입니다.
확률표본추출은 모집단의 각 원소들이 뽑힐 확률이 지정 되어 있으므로 편향(bias)이 없는 추정량 산출이 가능합니다(표본추출의 주관성을 배제가 된다). 각 원소들이 뽑힐 확률이 결정되어 있으므로 표본추출오차의 추정도 가능해져서, 모집단에 관한 통계적 추론이 이루어질 수 있습니다. 그리고 확률표본에 대해 많은 통계적 이런이 개발되었기 때문에 모집단에 관한 객관성 있는 통계적 추론이 가능합니다.
크기가 N인 유한모집단에서 표본들을 확률표본추출을 하게 되면 표본평균의 분산과 모분산을 구분할 필요가 있습니다. 표본평균의 분산은 표본평균의 분포로부터 얻어지는 분산이고, 모분산은 모집단에서 하나의 자료를 뽑을 떄 얻어지는 분산입니다. 모분산의 제곱근 σ(시그마)는 표준편차standard deviation라고 부르는데 반해, 표본에서 얻은 추정량의 분산의 제곱근은 표준오차standard error라고 부릅니다.
표본추출방법
단순확률추출(Simple random sampling)
가장 기본적인 추출방법으로 어떤 제한도 없는 모집단 전체에서 확률적으로 표본을 추출하는 방법입니다. 표본의 추출에 있어 조사자의 주관이 개입되지 않도록 난수표나 추첨을 통해 표본을 랜덤하게 추출합니다.
층화추출(Stratified Sampling)
전체 모집단을 몇 개의 부차 모집단으로 나눈 후 각 부차 모집단에서 독립적으로 표본을 추출하는 방법을 의미합니다. 각 부차 모집단을 층stratum라고 하고, 여기서 독립적이라는 표현은 어느 한 층에서 표본을 뽑는 결과가 다른 층의 포본추출에 옇양을 미치지 않는다는 뜻입니다. 만약 각 층 내에서 동질적이고 유사한 개체들로 묶이도록 각 층을 형성하는 경우에는, 층화추출이 단순확률추출보다 더 효율적인 추출이 됩니다. ex) 연령층(20대, 30대) 학생(초등학생, 중학생...)
집락추출(Cluster Sampling)
표본을 뽑는 단위를 표본추출단위sampling unit라 하고, 설문조사 등 조사를 실시하는 단위를 관측단위observation unit라 하는데, 표본추출단위와 관측단위가 일치하는 경우를 원소추출element sampling이라 합니다. 이와는 달리 관측단위의 묶음이 표본추출단위가 되는 경우를 집락추출 cluster sampling이라고 합니다.
계통추출(Systematic Sampling)
추출간격(표집간격sampling interval) k를 정하여 매 k번쨰가 되는(크기 N인 모집단으로부터 크기 n인 표본을 추출한다고 할 때 k=N/n을 추출간격이라 합니다.) 들을 표본으로 선정하는 방법을 말합니다. 실제 상황에서는 난수를 발생시키는 단순확률추출법을 적용하기 힘든 경우가 발생하여, 이러한 단점을 보완하기 위해서 계통추출법을 사용하게 됩니다. 이 방법은 모집단 전체에서 골고루 표분이 추출되는 장점이 있습니다.
표본조사절차
조사목적 -> 모집단 설정 -> 조사표 설계 -> 표집 설계 -> 관찰방법결정 -> 표집틀 확보 -> 예비 조사 -> 실제 조사
평균의 표집분포
표본평균으로 모평균을 추정하는 것은 표본평균이 모평균에 가까운 값을 줄 것이라는 믿음 때문입니다. 표본평균이 모평균과 차이가 날 확률이 적을 것이라는 가정하에 하는 것이므로, 모평균과 가까워지려면 표본수가 모집단의 수와 비슷해져가야 할 것입니다. 이것을 대수의 법칙이라고 합니다.
출처
- 통계학 입문 Introductory Statistics, 자유아카데미
'기술 - Data Science > Data Science' 카테고리의 다른 글
Data Engineering - Hadoop 설치기 (0) | 2018.03.01 |
---|---|
Data Engineering - Docker 설치기 (0) | 2018.02.27 |
Statistics_Introduction 6. 연속형 확률변수 (0) | 2017.12.04 |
Statistics_Introduction 5. 이산형 확률변수 (0) | 2017.09.24 |
Statistics_Introduction 4. 확률 (0) | 2017.09.09 |