Rucrazia's Blog

[통계] 샘플링(Sampling) 본문

기술 - Data Science/Data Science

[통계] 샘플링(Sampling)

DoyoungJ 2019. 11. 13. 23:47

* 샘플링 방법과 Bias에 대한 자세한 내용은 아래의 Ref. 부분을 참고 부탁드립니다.

샘플링은 모집단에서 일정한 수만큼 추출하는 작업을 말한다. 샘플링은 개별 관측치의 선택과 관련된 통계적 절차로서, 모집단에 대한 통계적 추론을 하는 데 도움이 된다.

샘플링 방법으로는 아래와 같다.

1. 단순임의추출법(Simple Random Sampling): 모집단에서 추출하는 각 데이터가 뽑힐 확률이 동일한 방법.
2. 층화임의추출법(Stratified Random Sampling): 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 추출하는 방법.
3. 계통추출법(Systematic Sampling): 모집단에 있는 데이터들에게 번호를 임의로 준 다음 일정한 간격마다 추출하는 방법.
4. 집락추출방법(Cluster Sampling): 전체 자료를 Cluster라는 부분 집단으로 분할하고, 몇 개의 샘플 집단을 무작위로 추출해서 Cluster 내의 데이터를 전수 조사하는 방법. 

 

샘플링의 장점과 단점으로는 아래와 같다.

장점
1. 모집단 전체를 분석하기 어려운 경우에 활용한다.
2. 비표본오차가 줄어들고 조사대상의 오염을 막을 수 있다

단점
1. 특정한 특성을 갖고 있는 조사대상을 찾을 때는 비효율적이다.
2. 모집단의 크기가 작을 경우 샘플링이 의미 없어진다.
3. 샘플이 모집단을 잘 대표해야 일반화 가능하다.

 

샘플링이 편향될 수 있는 이유도 알아보자.

1. Househod Bias : 가정이나 그룹 내에 생길 수 있는 편향성을 의미한다.
2. Nonresponse Bias : 답변하지 않는 것에서 생길 수 있는 편향성을 의미한다.
3. Quota Sampling Bias : 샘플을 잘못 할당하는 것에서 생길 수 있는 편향성이다.
4. Response Bias : 거짓말을 하거나 지시에 불성실하게 임하는 것에서 생길 수 있는 편향성이다.
5. Selection Bias : 특정 집단을 집중적으로 선택하는 것에서 생길 수 있는 편향성이다.
6. Size Bias : 특정 집단에게 표본으로 선정될 수 있는 특혜를 줌으로써 생길 수 있는 편향성이다.
7. Underconverage Bias : 툭정 집단을 누락시키는 것에서 생길 수 있는 편향성이다.
8. Voluntary Response Bias : 자발적으로 답변하는 것에서 생길 수 있는 편향성이다.
9. Word Bias : 문제를 잘못 읽는 것에서 생길 수 있는 편향성이다.


Ref.

https://cshlife.tistory.com/291

https://m.blog.naver.com/PostView.nhn?blogId=running_p&logNo=90178959949&proxyReferer=https%3A%2F%2Fwww.google.com%2F

https://canshot.tistory.com/27