Rucrazia's Blog

[통계] Normalization(정규화) / Standardization(표준화) 본문

기술 - Data Science/Data Science

[통계] Normalization(정규화) / Standardization(표준화)

DoyoungJ 2019. 11. 12. 23:38

데이터 분석을 수행하면서 많이 겪는 문제중 하나가 데이터 단위의 불일치이다. 이를 해결하는 방법으로 Normalization(정규화)과 Standardization(표준화)이 있다. 이 방법들은 대표적으로 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 해준다. 즉, 다른 데이터와 같이 분석을 할 때에도 표준화 또는 정규화된 데이터를 이용하면 단위 차이 문제 등에서 벗어나서 쉽게 사용할 수 있다.

 

정규화(Normalization)

    - 데이터를 특정 구간으로 바꾸는 척도법이다 (ex. 0~1 or 0~100).
    - 식 : (측정값 - 최소값) / (최대값 - 최소값)
    - 데이터 군 내에서 특정 데이터가 가지는 위치를 볼 때 사용된다.
    - 주가와 같은 주기를 띄는 데이터의 경우 과거에 비해서 현재 데이터의 위치가 어느정도 인지 파악하기에 좋아진다.

 

표준화(Standardization)

    - 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법이다. 표준화를 하게 되면 각 데이터들은 평균을 기준으로 얼마나 떨여져 있는지를 나타내는 값으로 변환된다. 
    - 식 (Z-score 표준화) : (측정값 - 평균) / 표준편차
    - 변환된 데이터는 다소 평평하게 만드는 특성을 가진다 (진폭의 감소). 진폭의 감소로 각 데이터의 간격이 감소하게 된다 (ex. 10000의 단위에서 0.1 단위로 감소). 

 

Ref.

https://www.statisticshowto.datasciencecentral.com/normalized/

https://brunch.co.kr/@rapaellee/4

https://gentlej90.tistory.com/26