Rucrazia's Blog
연관분석은 A가 팔리면, B가 같이 팔린다와 같은 것을 알아내기 위한 분석이다. 이것을 현업에서는 IF-THEN을 이용해서 규칙을 만든다. 일반적으로 “If 𝑋, 𝑡ℎ𝑒𝑛 𝑌”이 유용하게 쓰일려면 2가지 필요조건이 있다. 1. 두 품목 𝑋와 𝑌를 동시에 구매한 경우의 수가 일정 수준 이상 2. 품목 𝑋를 포함하는 거래 중 품목 𝑌를 구입하는 경우의 수도 일정 수준 이상
사후검증 방법은 ANOVA(분산분석) 결과를 더욱 자세히 분석할 때 사용한다. ANOVA는 세 집단 이상의 평균 비교를 할 때 사용하는데 ANOVA의 귀무가설이 '모든 집단의 평균이 같다'이다. 만약, 귀무가설을 기각하게 되어 적어도 하나의 집단의 평균이 다른 집단들과 다르다고 나온다면 어떤 집단들이 서로 다른지에 대한 궁금증이 생길 것이다. 이 궁금증을 해결해 줄 수 있는 방법이 바로 사후검증 방법이다. 사후검증 방법으로는 크게 3가지 케이스로 나눌 수 있다. - 모수/비모수 - 등분산/이분산 - 집단별 동일 샘플수/집단별 비동일 샘플수 먼저, 모수적 방법에서 데이터가 등분산일 때 쓰는 방법을 먼저 보자. 다양한 방법이 있지만 데이터 분석에서 흔히 쓰이는 방법들만 소개하고자 한다. 모수적/등분산 Tuc..
* 샘플링 방법과 Bias에 대한 자세한 내용은 아래의 Ref. 부분을 참고 부탁드립니다. 샘플링은 모집단에서 일정한 수만큼 추출하는 작업을 말한다. 샘플링은 개별 관측치의 선택과 관련된 통계적 절차로서, 모집단에 대한 통계적 추론을 하는 데 도움이 된다. 샘플링 방법으로는 아래와 같다. 1. 단순임의추출법(Simple Random Sampling): 모집단에서 추출하는 각 데이터가 뽑힐 확률이 동일한 방법. 2. 층화임의추출법(Stratified Random Sampling): 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 추출하는 방법. 3. 계통추출법(Systematic Sampling): 모집단에 있는 데이터들에게 번호를 임의로 준 다음 일정한 간격마다 추출하는 방법. 4. 집락추출방법(..