Rucrazia's Blog

Statistics_Introduction 2. 통계의 기본 본문

기술 - Data Science/Data Science

Statistics_Introduction 2. 통계의 기본

DoyoungJ 2017. 8. 27. 20:06

모집단과 표본

모집단(population) - 관심의 대상이 되는 전체

표본(sample) - 모집단에서 일부만 뽑힌 부분

추출(sampling) - 모집단에서 표본을 뽑아내는 과정

추론(inference) - 표본에서 계산된 통계를 이용하여 모집단에 대한 정보로 바꾸는 과정

 

측정 척도

자료는 사칙연산 가능 여부에 따라 나뉩니다.

질적(qualitative data), 비계량형(nonmetric data)과

양적(quantitative data), 계량형(metric data)로 나뉩니다.

 

질적 데이터(범주형 자료)는 명목형 자료(nominal data)와 순서형 자료(ordinal data)로 구분.

명목형 자료 : 이름이나 문자로 나타내는 자료이며, 자료 간에는 순서가 없는 자료 (ex, 대학교 전공)

순서형 자료 : 이름이나 문자로 나타내는 자료이나 범주들 간에 순서가 있는 자료 (ex, 학점)

 

양적 데이터는 숫자형 자료(numerical data)입니다.

숫자형 자료 : 숫자로 측정되는 자료로서 사칙연산이 가능합니다 (ex, 연봉).

구간 자료(interval data) : 온도계와 같이 20도가 40도의 1/2 만큼 덜 덥다는 의마가 아닌것 처럼 숫자형 자료이긴 하나 직접적으로 배율을 쓰기에 적합하지 않은 데이터를 의미합니다.

비율 자료(ratio data) : 몸무게와 같이 40kg이 80kg의 1/2만큼 가볍다는 의미인 자료입니다.

 

자료의 계층

자료에는 계층을 나눌 수 있는데, 숫자형 자료는 순서를 갖고 있어서 순서형 자료로 바꾸어 슬 수 있으며, 이러한 순서형 자료는 명목형 자료로도 바꿀 수 있습니다.

예를들어, 연봉에 대한 자료를 갖고 있다고 해보겠습니다. 연봉은 숫자형 자료로서 2000만원 3000만원등 연속형 변수로 되어 있습니다. 연속형 변수를 순서형 변수로 바꾼다면, 연봉 2000만원 미만, 연봉 2000만원 이상 으로 바꾸면 순서형 변수가 됩니다. 여기서 한번 더 명목형 자료로 바꾼다면, 연봉 2000만원 미만을 최저임금 미달, 연봉 2000만원 이상을 최저임금 이상으로 명목형 자료로 바꿀 수 있습니다.

 

시계열자료와 횡단면자료

시계열자료(time series data) : 시간의 변화에 따라 얻는 자료 (ex, 한 환자의 내원 기록)

횡단면자료(cross-sectional data) : 동시간 대에 얻는 자료 (ex, 도시별 온도)

 

패널자료(panel data) : 횡단면자료가 시간에 따라 나열되어 있는것입니다. 횡단면자료가 시간에 따라 있기 때문에 횡단면자료와 시계열자료가 동시에 있다고 볼 수 있는 자료 입니다.

 

출처 - 통계학 입문 Introductory Statistics, 자유아카데미