Rucrazia's Blog
Statistics_Introduction 5. 이산형 확률변수 본문
메인 주제인 이산형확률변수로 들어가기 전에 확률변수를 알아보고 시작 하겠습니다.
확률변수(random variable)는 확률 실험의 결과 또는 결과물에 대한 숫자적 표현입니다.
한 교실 내의 학생수가 30명이 있다고 가정 해보겠습니다. 제비뽑기로 청소 당번을 정할 때 1 ~ 30번 까지의 학생들 중 한명이 나오게 됩니다. 뽑힌 학생이 3번 이라고 할 때, 그 학생의 이름인 김갑돌은 사용 안되고 확률변수의 정의와 같이 결과물에 대한 숫자적 표현인 3번이라고 하게 됩니다.
위의 확률변수는 이산형 확률변수와 연속형 확률변수로 나뉩니다.
이산형 확률변수
이산형 이란 것은 셀 수 있는 것으로서 학점과 같이 유한(finite)개 혹은 셀 수 있는 것을 의미합니다. 학점이 A,B,C,D,E,F만 있다고 할 때 변수로 사용 할 수 있는 것이 6개만 존재하게 되므로 유한개라고 볼 수 있습니다.
연속형 확률변수
연속형 이란 것은 변수 값이 셀 수 없이 무한대로 있는 것을 의미합니다. 예를 들어, A라는 자동차의 무게를 표현할 때 연속형 확률변수를 사용하게 되는데 거기에 들어갈 수 있는 값은 실질적으로 1001Kg = 1001,001g = 1000,001,001mg ... 등 계속 무한히 표현 가능한 값을 의미합니다.
물론, 연속형 확률변수의 표현은 위와같이 하는 경우는 이론상으로만 그런 것이며 실제로는 1001Kg으로 표현할 것입니다.
이산형 확률분포
확률변수가 취할 수 있는 값들에는 확률이 대응되어 있고, 이를 확률분포(probability distribution)이라고 합니다. 이번에 중점적으로 보게 될 이산형 확률분포(discrete probability distribution)은 이산형 확률변수에 대응되는 확률분포를 의미합니다.
이산형 확률분포 확률질량함수는 f(x)로 표기되고, 이는 확률변수 X가 값 x를 갖는 확률로 해석할 수 있습니다.
P(X=x) : 확률변수 X가 값 x를 갖는 확률.
확률질량함수 f(x)는 f(x1),f(x2)...f(xn)으로 표현할 수 있으며, 이 것을 합하면 누적확률함수 F(xn) = 1.0으로 표현 가능합니다.
F(xn)=f(x1)+f(x2)+...+f(xn)으로 표현 가능합니다.
누적확률분포함수 F(x)는 확률변수 X가 x보다 작거나 같은 학률을 의미하고 다음과 같이 정의할 수 있습니다.
단, 이산형 확률질량함수의 조건으로는 두개를 만족시켜야 합니다.
1. 모든 xn에 대하여 f(xn)>=0 입니다.
2. 모든 사건에 대한 확률의 합은 1 입니다.
확률변수의 중심 위치에 대한 측정 방법 중 하나로 평균이 있으며, 확률변수의 퍼진 정도 또는 변동성을 나타내는 표준편차입니다. 평균은 그 확률변수 자신의 기대값이며, 분산은 확률변수와 평균의 차이 제곱의 기대값이며, 이를 제곱근하여 구한 값이 표준편차입니다.
기대값(expected value, expectation)은 연산 부호 E로 나타내며, X의 평균은 E(X)로 표현하며 X의 분산은 E([X-E(X)]^2)입니다.
평균, 분산, 표준편차 기호가 있습니다.
평균 :
분산 :
표준편차 :
이산형 확률변수의 기대값으로는 아래와 같이 표현 가능합니다.
이산형 확률변수의 분산과 표준편차로는 아래와 같이 표현 가능합니다.
이항분포
실험의 결과로 나오는 변수 값이 두 개로만 나오는 '이항분포'의 근간이 되는 베르누이 시행(Bernoulli trial)을 살펴보려 합니다. 베르누이 시행의 결과에 대한 변수 값은 이항분포이기 때문에 성공(success), 실패(failure)로 구분해서 표현합니다.
베르누이 시행은 두가지로 정의 됩니다.
1. 각 시행은 성공과 실패로 표현될 수 있는 두 가지 결과만을 가져야합니다.
2. 각 시행에서 성공의 확률은 p이고, 실패의 확률은 1-p 입니다.
베르누이 시행을 독립적으로 반복하여 나온 결과를 베르누이 확률 과정이라 하는데, 이것은 'n번의 서로 독립적으로 반복된 베르누이 시행' 중에서 성공의 횟수입니다. 이 성공 횟수를 확률변수 X라고 하면, X는 0,1,2...,n의 값을 취하는 이산형 확률변수이고, 이 확률변수의 확률분포를 이항분포라고 합니다.
예를 들어, 서로 모르는 30명의 사람들에게 벤츠 A클래스 차를 보여주고 과연 살 것인지에 대한 실험을 진행한다고 해보겠습니다.
먼저, 베르누이 시행의 정의 첫번째인 각 시행은 성공과 실패로 표현 되어야 한다고 했는데, 본 예제의 결과는 구매-비 구매 이렇게 두개로 나뉘기 때문에 정의대로 따릅니다.
두 번째 정의인 성공의 확률은 p이고, 실패의 확률은 1-p라는 것은 결과에 대한 표현으로서 두개의 결과값을 가지므로 정의대로 따릅니다.
추가적으로 베르누이 시행을 독립적으로 반복하여 나온 결과를 '베르누이 확률과정'이라고 하는데, 30명의 사람들이 서로 모르기 때문에 독립적이라고 할 수 있습니다.
위의 벤츠 A클래스 차를 구매하는 예제는 바로 베르누이 확률과정이라고 할 수 있습니다.
본 베르누이 확률과정을 만족해야 하는 이유는 '모수가 (n, p)인 이항분포를 따른다'고 추론을 할 수 있는 기초 가정이기 때문입니다.
통계는 모수(모집단)에 대한 통계량을 추론하기 위한 과학적인 방법으로서, 베르누이 확률과정에 해당하는 실험을 통해 나온 결과값은 모수의 이항분포를 따르게 되는 특성을 가진다고 할 수 있게 됩니다.
출처
- 통계학 입문 Introductory Statistics, 자유아카데미
'기술 - Data Science > Data Science' 카테고리의 다른 글
Statistics_Introduction 7. 표본추출과 표집분포 (0) | 2017.12.15 |
---|---|
Statistics_Introduction 6. 연속형 확률변수 (0) | 2017.12.04 |
Statistics_Introduction 4. 확률 (0) | 2017.09.09 |
Statistics_Introduction 3. 기술통계(그래프) (0) | 2017.08.28 |
Statistics_Introduction 2. 통계의 기본 (0) | 2017.08.27 |