Rucrazia's Blog

Statistics_Introduction 6. 연속형 확률변수 본문

기술 - Data Science/Data Science

Statistics_Introduction 6. 연속형 확률변수

DoyoungJ 2017. 12. 4. 22:44

1. 연속형 확률변수 : 취할 수 있는 값의 수가 무한대로 많은 변수를 의미합니다.

 

좀 더 풀어서 설명하자면 이산형 확률변수는 1,2,3,4와 같이 셀 수 있는 변수를 의미하며, 연속형 확률변수는 1<X<2, 즉, 1과 2 사이의 모든 실수와 같이 무한대의 변수를 같는 변수를 의미합니다 (1<X<2는 X가 1.1, 1.11,1.111........, ~ , 1.988888888....., ~, 1.9999999999... 등의 값을 가질 수 있습니다.). 

그렇기 때문에 연속형 확률변수는 어떠한 하나의 상수를 가질 확률이 0입니다.
즉, (1 / 연속형 확률변수의 가능한 값) 이기 때문에 이것은 (1/무한대)와 같습니다.
여러분들이 아시다 싶히 분모가 무한대에 가까워지면 분수의 값은 0이 되는것을 알고 있을 것입니다.

 

위의  S자를 길게 늘어뜨린 수학 기호는 적분 기호 입니다. 식의 의미는 음의 무한대에서 양의 무한대까지의 p(x) 그래프 면적을 의미합니다.

p(x)의 그래프 모양은 아래와 같습니다.

 

위의 식은 더 위의 식과 다르게 무한대 대신에 a,b 가 들어갔습니다. 이 식은 a에서 b까지의
p(x) 그래프 아래 면적의 크기라고 생각하시면 됩니다.

즉, 전체 p(x)의 면적의 크기는 1이고 위의 a~b까지의 면적의 크기는 1/2가 되게 됩니다.

통계학에서는 위의 내용을 기반으로 수학적으로 표현 가능합니다. 확률변수 X의 확률밀도함수가 f(x)일 때, 누적분포함수(cumulative distribution fuction)라고 하며, 수학적인 식으로 정의하면,

 로 표현됩니다.

는 음의 무한대에서 x 까지의 확률값입니다.

 

 

 

2. 균일분포 : 랜덤으로 특정한 범위에 골고루 변수가 분포를 표현하는 확률변수입니다.

한 패스트푸드점에서 음식이 나오는 시간을 측정해보니, 5~20분 사이에 랜덤하게 골고루 퍼져 있다면 이것은 '5~20분 사이에 랜덤하게 골고루'를 표현하는 확률변수로서, 균일분포(uniform distribution), 균등분포 또는 일양분포라고 얘기 합니다.

위의 그래프가 균일분포의 그래프 입니다.

위의 그래프를 식으로 표현하면,

 입니다.

 

아까 연속형 확률변수를 설명하면서 누적 분포함수를 설명한것과 같이 f(x)에 적분을 씌우게 되면 아래와 같이 됩니다. 적분을 씌우게 되면 소문자 였던 f(x)가 대문자로 바뀌면서 F(x)가 되게 됩니다. (변수는 그대로 소문자 x를 써주는 이유는 변수의 값은 그대로 있고, 계산하는 함수 식이 변했기 때문에 f->F 만 바뀌는것 같습니다.)

아래의 그래프는 균일분포 F(x)의 누적분포함수 그래프입니다.
그래프를 보시면 직선으로 증가하는 것을 보실 수 있습니다.
그 이유는 f(x)의 값이 균일 했기 때문에 a~b까지의 확률의 덧셈인 F(x) 또한 값이 균일하게 더해져서 직선처럼 보여지게 되는것입니다.  

 

3. 정규분포 : 정규분포는 수집된 자료의 분포를 근사하는 데에 자주 사용됩니다.

 

 

 

 

정규분포는 위와같이 좌우대칭인 종 모양 분포를 의미하며 자연계에서 많이 나타나는 분포입니다. 정규분포에서는 기댓값, 최빈값, 중앙값이 모두 μ(평균 값을 의미하는 수학 기호)입니다.

이것은 수집된 자료의 분포를 근사하는 데에 자주 사용된다고 하였는데, 그 이유는 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문입니다.

(중심극한정리 : 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리)

위에 나온 그래프는 표준정규분포로서,  해당 식을 이용해서 평균이 0, 표준편차가 1인 표준정규분포를 얻을 수 있게 됩니다. 이것을 바로 정규화라고 합니다.

이와 같은 표준정규분포를 이용하게 되면, 표준정규분포를 따르는 확률변수가 특정 구간에 있을 확률을 구할 수 있게 됩니다.

예를들어, 정규화를 한 후에 표준편차가 -0.5~0.5인 X 확률을 구하고 싶다면 표준정규분포 값을 보면 바로 구할 수 있습니다. 즉, 19.1% + 19.1% = 38.2% 가 X가 나올 확률입니다.

 

 

4. 지수분포 : 랜덤 시간의 분포를 설명하기 위한 분포 중의 하나입니다.

위와 같은 분포를 보여주는 함수 그래프가 지수분포입니다. 확률변수 X의 확률밀도함수가

일 때, X는 발생률(incident rate)이 λ인 지수분포 또는 평균이 1/λ인 지수분포를 따른다고 합니다. 위의 그림처럼 지수분포의 확률밀도함수는 X=0에서 최대값을 갖고 X값이 커짐에 따라 기하적으로 감소하게 됩니다.

 

발생률이 λ이 커질수록 점차 그래프가 가파르게 되면서 확률밀도함수가 빠르게 감소하는 것을 볼 수 있습니다.

지수분포의 중요한 성질 중 하나는 무기억성(Memoryless property)을 가진다는 것이고 역속형 확률변수 중에서는 지수분포만이 이러한 무기억성 성질을 가집니다. 
쉽게 이해하기 위해 무기억성의 성질에 대한 예를 들어보겠습니다. 한시간 전에 걷다가 돈을 주웠는데 또 한시간 안에 돈을 주울 확률과, 돈을 주운적이 없었는데 한시간 안에 돈을 주울 확률이 같다라는 것을 의미합니다. 한시간이라는 시간은 연속형 확률변수로서 방금 같은 예제에서는 지수분포가 우리가 특정 구간에서 얻는 확률을 구할 수 있게 해주는 도구가 되게 됩니다.

 

이와 비슷한 것으로 포아송분포가 있습니다. 포아송분포는 주어진 시간 안에 어떤 사건이 일어나느 개수에 대한 분포입니다. 돈을 주울 때 까지의 시간이 지수분포를 이용하게 되며, 한 시간 동안 돈을 몇 번 줍게 되는지를 조사한다면 이는 포아송분포를 이용하게 됩니다.

같은 사건에 대하여 '발생시간' 을 조사하면 연속형 변수인 지수분포가 되고, '발생건수'를 조사하면 이상형 변수인 포아송분포가 되는 것입니다.

              포아송분포 그래프

출처

- 통계학 입문 Introductory Statistics, 자유아카데미

- http://work.thaslwanter.at/Stats/html/statsDistributions.html

- https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)