Rucrazia's Blog

[통계] P-Value 본문

기술 - Data Science

[통계] P-Value

DoyoungJ 2019. 5. 8. 23:06

물건을 사러 오는 A, B 두 집단이 있다고 가정해봅시다. A, B 두 집단은 물건을 사러 오는데 우리는 두 집단을 한번에 같이 응대 할 수도 있고 두 집단을 따로 응대 할 수도 있습니다. 그런데 만약 두 집단이 서로 구매력이 달라서 한 집단은 명품만 사길 원하고 다른 집단은 저렴한 할인 상품만 사려고 할 수도 있습니다. 두 집단을 한번에 같이 응대하는 것은 효율적인 측면에서 좋습니다. 서로 차이가 있으면 효과가 낮아질 것입니다.
그렇다면 우리는 여기서 집단이 서로 같은 집단인가 다른 집단인가를 알아보려면 어떻게 해야 할까요?
우리는 이런 상황에서 이용 할 수 있는 과학/수학적인 방법이 있습니다. 바로 통계학을 이용하는 것입니다. 통계학에서 우리는 두 집단을 서로 비교하는 방법이 있습니다. 서로 비교해서 결과를 내는 방법으로 T-TEST, ANOVA 등 다양한 방법이 있습니다. 결과를 내기 위해 사용되는 T-test, anova 등을 통계 모형이라고 합니다. 이 통계 모형을 이용해서 의사결정을 하려면 어떻게 해야 할까요?
통계 모형을 통해서 나온는 결과값은 다양합니다. T-TEST는 T값, ANOVA는 F값 등이 나오는데 우리는 여기서 p-value를 봐야합니다. p-value는 의사결정을 할 수 있도록 도와주는 고마운 결과치로 이 값이 어떻게 나오는지에 따라서 의사결정을 하는데 도움이 됩니다.
p-value가 0.05 미만으로 나오면 귀무가설을 기각하는 즉, 없는데 있다고 할 오류수준보다 낮은 상황이 5% 미만이라는 것입니다.
p-value 만으로는 효과, 변화, 관계의 강도나 크기를 설명할 수는 없습니다. 이것을 설명하기 위해서는 통계모형을 통해서 나온 다른 값을 같이 사용해야 합니다. 예를들면, 위에서 언급한 T-TEST의 경우 T값, ANOVA의 경우 F값, 상관계수나 회귀계수 등과 같은 값들을 이용해서 효과, 변화, 관계의 강도나 크기 등을 이끌어 내야 합니다.
즉, p-value를 이용해서 통계적으로 유의한 관계가 있는지 알아낼 때 쓰지만 관계의 강도나 크기를 알아낼 때는 T값, F값과 같은 값을 이용해서 알아내야 합니다.

ref.
https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html
https://www.editage.co.kr/insights/the-correct-way-to-report-p-values