Rucrazia's Blog

Statistics_Introduction 3. 기술통계(그래프) 본문

기술 - Data Science/Data Science

Statistics_Introduction 3. 기술통계(그래프)

DoyoungJ 2017. 8. 28. 19:14

자료를 시각적 요약을 통해 보여주는 것이 기술통계(descriptive statistics) 입니다.

'기술'통계 에서 기술의 사전적 의미는

'대상이나 과정의 내용과 특징을 있는 그대로 열거하거나 기록하여 서술함. 또는 그런 기록'

입니다.

 

기술통계를 통해서 데이터의 내용과 특징을 보여주는 방법이 어떤 것이 있는지 알아보는 것이 이번 포스팅의 목적 입니다.

 

도수분포표

-자료의 전체적인 구성형태를 파악하기 위하여 같은 항목, 같은 숫자 자료가 몇 개 있는지 정리한 표(table) 입니다.

범주형 자료의 도수분포표는 값 들을 그대로 사용하거나 종류가 많으면 비슷한 것 끼리 묶어서 사용합니다.

 

예를 들어,

10명의 학생이 좋아하는 과목을 조사 했다고 가정해보겠습니다.

미술, 수학, 수학, 과학, 국어, 미술, 과학, 과학, 미술, 국어

 

과목

도수

국어

2

수학

2

과학

3

미술

3

 

 

각 도수를 전체 자료의 수로 나누어 비율로 나타낸 것이 상대도수이고, 이를 표를 만든 것이 상대도수분포 표이다.

 

과목

도수

 상대도수

국어

2

 0.2

수학

2

 0.2

과학

3

 0.3

미술

3

 0.3

합계

10 

  1.0 

 

 

숫자형 자료는 다양한 숫자로 되어있기 때문에 계급구간 또는 계급폭으로 계급을 구성합니다.

 

이번에도 위의 10명에 대한 성적표를 보도록 하겠습니다 (1~10점).

1점, 4점, 2점, 6점, 3점, 8점, 9점, 7점, 10점, 7점

점수

도수

 상대도수

누적도수

상대누적도수 

1~2

2

 0.2

2

0.2

3~4

2

 0.2

4

0.4

5~6

1

 0.1

5

0.5

7~8

3

 0.3

8

0.8

 9~10

2

 0.2

10

1.0

 

 

숫자형 자료는 상대도수 이외에도 누적도수가 있습니다. 명목형 자료의 경우 값들 간의 크기의 순서를 매기기 어렵기 때문에 누적도수를 쓰기가 어렵습니다.

누적도수에서도 상대누적도수를 이용하게 되면, 50%가 6점 이하의 점수를 맞았다고 쉽게 얘기 할 수 있습니다.

 

막대그림과 파이그림 

명목형 자료를 그래프로 표시하려면 막대그림이나 파이그림을 이용하면 됩니다. 순서형 자료의 경우도 막대그림이나 파이그림을 이용가능합니다.

막대그림(bar chart)

파이그림(pie chart)

 

히스토그램

숫자형 자료(양적 자료)를 도수분포표를 이용하여 그래프 형태로 나타낸 것이 히스토그램입니다.

히스토그램은 생긴것만 봤을 때는 막대그림과 비슷하지만, 막대그림은 막대들이 서로 떨어져 있고, 히스토그램은 서로 붙어 있습니다. 그런 이유는 히스토그램은 데이터들의 편향성 또는 대칭성 등을 보기 위함 입니다.

왼쪽은 종모양의 히스토그램이며, 오른쪽은 음의 왜도(negatively skewed, left skewd)를 가진 히스토그램입니다.

 

 

누적도수곡선(ogive)

누적도수곡선은 도수를 누적하여 꺽은선그래프 형태로 그린 것입니다. 

왼쪽 숫자는 점수이며 오른쪽 숫자는 누적도수입니다.

오른쪽의 누적도수는 상대누적도수를 이용해서 표시 가능합니다.

누적도수곡선을 이용하는 이유는 히스토그램을 이용해서 자료를 기술 했는데, 거기에 누적도수곡선을 추가하게 되면 숫자형 자료에서 나온 누적도수를 한 눈에 알아볼 수 있기 때문입니다.

 

상자그림

상자그림은 통계학을 배우기 전에는 쉽게 보기 어려운 그림입니다. 뉴스, 신문기사 등 매체에서 상자그림을 이용해서 기술하는 경우는 거의 없으나 통계적으로는 중요한 그림 중 하나 입니다.

상자그림은 자료를 개괄적으로 알아보기 위하여 자료의 최소값, 일사분위수(first quatile), 중위수(median), 삼사분위수(third quartile), 최대값으로 자료 전체의 값을 요약한 것을 기술하는 그림입니다.

위의 그림이 상자그림입니다. Upper Whisker가 최대값을 의미하며, Q3가 3사분위수를 의미하고, Q1이 1사분위수를 의미하며, Lower Whisker가 최소값을 의미합니다.

만약 그림을 그리게 된다면, 5개의 값을 먼저 찾은 다음에, 각 값에 맞게 그림을 기술하면 됩니다.

    

산점도

산점도는 짝으로 되어 있는 두개의 자료를 나타낼 때 사용합니다. 두 자료가 어떠한 형태로 연관되어 있는지 볼 수 있도록 x,y 축 위에 점으로 각각의 자료를 표시합니다.

이렇게 실제값과 예측값 간의 비교를 할 때, 우상향의 경향을 보이게 되면 양의 선형관계, 우하향의 경향을 보이게 되면 음의 선형관계라고 부릅니다.

 

산점도를 이용해서 먼저 데이터의 분포가 어떻게 되어 있는지를 확인하고 분석을 시작하는 경우가 많기 때문에 산점도는 중요성이 높은 기술통계 중 하나 입니다.

 

시계열그림

시간의 변화에 따라 얻게 되는 자료를 기술 한 것이 시계열자료입니다.

즉, 시간 변화에 따른 특성은 X 축에 시간, Y축에 해당 자료를 그린 그림입니다.

 

평행좌표그림

평행좌표그림(parallel coordinates plot)은 다변량자료를 이차원 평면에 나타내고, 그 해석을 직관적으로 할 수 있습니다. 각 변수를 평행으로 늘어 놓고 다변량 개별 자료를 선으로 이어 놓은 것이 평행좌표 입니ㅣ다.

그러나, 평행좌표에서 자료가 너무 많아 선들이 겹쳐 전체적인 패턴을 볼 수 없는 경우도 있고,변수가 너무 많으면 평행좌표들 사이가 너무 가까이 있게 되고, 어떤 순서로 좌표를 그리는 것이 좋은지 알기 어렵다는 단점이 있습니다.

 

 

 

출처

- 통계학 입문 Introductory Statistics, 자유아카데미

- 국립국어원

- http://informationandvisualization.de/blog/box-plot

- https://technet.microsoft.com/ko-kr/library/bb895169(v=sql.105).aspx

- http://www.asiae.co.kr/news/view.htm?idxno=2013022115060307289

- https://docs.tibco.com/pub/sfire-bauthor/7.5.0/doc/html/ko-KR/GUID-BDA4D37D-377D-4CF5-B372-AF52D7014C85.html