Rucrazia's Blog
[통계] Normalization(정규화) / Standardization(표준화) 본문
[통계] Normalization(정규화) / Standardization(표준화)
DoyoungJ 2019. 11. 12. 23:38데이터 분석을 수행하면서 많이 겪는 문제중 하나가 데이터 단위의 불일치이다. 이를 해결하는 방법으로 Normalization(정규화)과 Standardization(표준화)이 있다. 이 방법들은 대표적으로 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 해준다. 즉, 다른 데이터와 같이 분석을 할 때에도 표준화 또는 정규화된 데이터를 이용하면 단위 차이 문제 등에서 벗어나서 쉽게 사용할 수 있다.
정규화(Normalization)
- 데이터를 특정 구간으로 바꾸는 척도법이다 (ex. 0~1 or 0~100).
- 식 : (측정값 - 최소값) / (최대값 - 최소값)
- 데이터 군 내에서 특정 데이터가 가지는 위치를 볼 때 사용된다.
- 주가와 같은 주기를 띄는 데이터의 경우 과거에 비해서 현재 데이터의 위치가 어느정도 인지 파악하기에 좋아진다.
표준화(Standardization)
- 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법이다. 표준화를 하게 되면 각 데이터들은 평균을 기준으로 얼마나 떨여져 있는지를 나타내는 값으로 변환된다.
- 식 (Z-score 표준화) : (측정값 - 평균) / 표준편차
- 변환된 데이터는 다소 평평하게 만드는 특성을 가진다 (진폭의 감소). 진폭의 감소로 각 데이터의 간격이 감소하게 된다 (ex. 10000의 단위에서 0.1 단위로 감소).
Ref.
https://www.statisticshowto.datasciencecentral.com/normalized/
'기술 - Data Science > Data Science' 카테고리의 다른 글
[통계] 사후검증(Post-Hoc test, 다중비교) (0) | 2019.11.18 |
---|---|
[통계] 샘플링(Sampling) (0) | 2019.11.13 |
[통계] ANCOVA (공분산분석) (0) | 2019.11.11 |
[통계] 선형회귀분석(Linear Regression) 결정계수(R^2)에 대한 고찰 (0) | 2019.11.07 |
[직무] 데이터 사이언티스트는 어떤 직업인가? (0) | 2019.11.07 |