Rucrazia's Blog

데이터 분석을 수행하면서 많이 겪는 문제중 하나가 데이터 단위의 불일치이다. 이를 해결하는 방법으로 Normalization(정규화)과 Standardization(표준화)이 있다. 이 방법들은 대표적으로 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 해준다. 즉, 다른 데이터와 같이 분석을 할 때에도 표준화 또는 정규화된 데이터를 이용하면 단위 차이 문제 등에서 벗어나서 쉽게 사용할 수 있다. 정규화(Normalization) - 데이터를 특정 구간으로 바꾸는 척도법이다 (ex. 0~1 or 0~100). - 식 : (측정값 - 최소값) / (최대값 - 최소값) - 데이터 군 내에서 특정 데이터가 가지는 위치를 볼 때 사용된다. - 주가와 같은 주기를 띄는 데이터의 경우 ..

ANCOVA(Analysis of Covariance, 공분산분석)는 ANOVA(분산분석)과 Regression(회귀분석)을 섞어놓은 분석 방법이다. ANOVA는 그룹 간에 평균 비교를 하기 위한 모델이고, Regression은 종속변수와 독립변수 간의 관계를 모델링하는 방법이다. 그렇다면, 이 둘을 합친 ANCOVA는 어떤 것을 위해서 하는 것일까? ANCOVA는 독립변수 이외의 잡음인자(noise)들이 종속변수에 영향을 미치는 것을 통제함으로써 독립변수 자체의 순수한 영향을 측정하는데 목적이 있다. 즉, 공변수를 통제 했을 때 집단 간 조정평균차이를 비교하는 분석법이다. 실제 실험에서는 독립변수 이외의 잡음인자를 통제하기 어렵기 때문에 공변수라는 것을 이용해서 독립변수에 대한 종속변수의 반응을 깨끗하..

ANOVA는 Analysis of Variance의 줄임말로 한국어로는 분산분석이라고 쓴다. ANOVA는 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다. ANOVA 분석을 하기 전 데이터가 만족해야 하는 가정이 몇 개가 있다. 정규성 가정, 등분산성 가정, 독립성 가정이다. 자세한 내용은 아래의 포스팅을 참고바란다. https://rucrazia.tistory.com/85 [통계] ANOVA 가정에 대한 고찰 ANOVA(analysis of variance, ANOVA, 분산 분석)은 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산..