목록기술 - Data Science (41)
Rucrazia's Blog
* 본 포스팅은 https://youtu.be/8N9ife7fHKk 영상 정리입니다. 개인 스크랩 용으로 작성한 내용이기 때문에 강의 영상과 다른 내용이 있을수도 있으니 참고용으로만 읽어주세요. 영상 만들어 주신 분께 감사 인사드립니다. 사회과학 : 우리 주변(사회)에서 일어나는 일들에 대해서 연구하는 학문. 심리학, 행정학 등 ex) 연구 문제 : 군대 생활에 있어서 출신 지역이 중요한 역할을 할까? 가령, 도시 출신자와 시골 출신자 사이에 군생활 만족도에 유의한 차이가 있을까? 미군 The american soldier에 출간된 연구를 보면 2차 세계대전 때 복무했던 60만 명의 군인들에 대해서 연구. 예상되는 결과로 - 더운 곳에서 왔던 남부 출신자들이 추운 곳에서 왔던 북부 출신자들에 비해 피지에..
# 한글로 적혀져 있는 곳에 해당 설명에 적합한 데이터를 넣으면 된다. 찾고 싶은 데이터가 어느 컬럼(column)에 있는지 알고 싶을 때. df.columns[df.isin([찾고 싶은 값]).any()] # return 'list' 데이터 타입 변환 df = df.astype(데이터 타입) # return dataFrame 특정 데이터 타입만 가져오고(또는 빼고) 싶을 때 df = df.select_dtypes(include=[데이터 형]) #특정 데이터 형만 가져오고 싶을 때. return dataFrame df = df.select_dtypes(exclude=[데이터 형]) #특정 데이터 형만 빼고 가져오고 싶을 때. return dataFrame 데이터프레임 안에 있는 데이터 타입 종류별 갯수 ..
공공데이터에서 사용하는 시군구코드(행정동/법정동)는 지역별 데이터를 합쳐서 분석할 때 유용하게 사용된다. 보통 행정동과 법정동을 주로 사용하는데, 가끔.. 기관코드를 시군구코드라고 적어놓는 곳도 있다. 법정동 코드 (사이트에 들어가서 '법정동 코드 전체 다운로드'를 누르면 저장 가능하다.) https://www.code.go.kr/stdcode/regCodeL.do 행정동코드 http://kssc.kostat.go.kr/ksscNew_web/kssc/common/AdCodeConnectionSearchList.do?gubun=1&strCategoryNameCode=019&categoryMenu=009 기관코드 (사이트에 들어가서 '기관유형선택' -> '자치행정조직'->'기관코드 조회자료' 누르면 저장 가..
연관분석은 A가 팔리면, B가 같이 팔린다와 같은 것을 알아내기 위한 분석이다. 이것을 현업에서는 IF-THEN을 이용해서 규칙을 만든다. 일반적으로 “If 𝑋, 𝑡ℎ𝑒𝑛 𝑌”이 유용하게 쓰일려면 2가지 필요조건이 있다. 1. 두 품목 𝑋와 𝑌를 동시에 구매한 경우의 수가 일정 수준 이상 2. 품목 𝑋를 포함하는 거래 중 품목 𝑌를 구입하는 경우의 수도 일정 수준 이상
사후검증 방법은 ANOVA(분산분석) 결과를 더욱 자세히 분석할 때 사용한다. ANOVA는 세 집단 이상의 평균 비교를 할 때 사용하는데 ANOVA의 귀무가설이 '모든 집단의 평균이 같다'이다. 만약, 귀무가설을 기각하게 되어 적어도 하나의 집단의 평균이 다른 집단들과 다르다고 나온다면 어떤 집단들이 서로 다른지에 대한 궁금증이 생길 것이다. 이 궁금증을 해결해 줄 수 있는 방법이 바로 사후검증 방법이다. 사후검증 방법으로는 크게 3가지 케이스로 나눌 수 있다. - 모수/비모수 - 등분산/이분산 - 집단별 동일 샘플수/집단별 비동일 샘플수 먼저, 모수적 방법에서 데이터가 등분산일 때 쓰는 방법을 먼저 보자. 다양한 방법이 있지만 데이터 분석에서 흔히 쓰이는 방법들만 소개하고자 한다. 모수적/등분산 Tuc..
* 샘플링 방법과 Bias에 대한 자세한 내용은 아래의 Ref. 부분을 참고 부탁드립니다. 샘플링은 모집단에서 일정한 수만큼 추출하는 작업을 말한다. 샘플링은 개별 관측치의 선택과 관련된 통계적 절차로서, 모집단에 대한 통계적 추론을 하는 데 도움이 된다. 샘플링 방법으로는 아래와 같다. 1. 단순임의추출법(Simple Random Sampling): 모집단에서 추출하는 각 데이터가 뽑힐 확률이 동일한 방법. 2. 층화임의추출법(Stratified Random Sampling): 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 추출하는 방법. 3. 계통추출법(Systematic Sampling): 모집단에 있는 데이터들에게 번호를 임의로 준 다음 일정한 간격마다 추출하는 방법. 4. 집락추출방법(..
데이터 분석을 수행하면서 많이 겪는 문제중 하나가 데이터 단위의 불일치이다. 이를 해결하는 방법으로 Normalization(정규화)과 Standardization(표준화)이 있다. 이 방법들은 대표적으로 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 해준다. 즉, 다른 데이터와 같이 분석을 할 때에도 표준화 또는 정규화된 데이터를 이용하면 단위 차이 문제 등에서 벗어나서 쉽게 사용할 수 있다. 정규화(Normalization) - 데이터를 특정 구간으로 바꾸는 척도법이다 (ex. 0~1 or 0~100). - 식 : (측정값 - 최소값) / (최대값 - 최소값) - 데이터 군 내에서 특정 데이터가 가지는 위치를 볼 때 사용된다. - 주가와 같은 주기를 띄는 데이터의 경우 ..
ANCOVA(Analysis of Covariance, 공분산분석)는 ANOVA(분산분석)과 Regression(회귀분석)을 섞어놓은 분석 방법이다. ANOVA는 그룹 간에 평균 비교를 하기 위한 모델이고, Regression은 종속변수와 독립변수 간의 관계를 모델링하는 방법이다. 그렇다면, 이 둘을 합친 ANCOVA는 어떤 것을 위해서 하는 것일까? ANCOVA는 독립변수 이외의 잡음인자(noise)들이 종속변수에 영향을 미치는 것을 통제함으로써 독립변수 자체의 순수한 영향을 측정하는데 목적이 있다. 즉, 공변수를 통제 했을 때 집단 간 조정평균차이를 비교하는 분석법이다. 실제 실험에서는 독립변수 이외의 잡음인자를 통제하기 어렵기 때문에 공변수라는 것을 이용해서 독립변수에 대한 종속변수의 반응을 깨끗하..
선형회귀분석를 이용한 모델의 성능을 판단할 때 사용하는 방법이 결정계수를 이용하는 것입니다. 결정계수는 설명할수있는부분의총합을변동의총합으로나눈 값 입니다. 즉, 얼만큼 이 모델이 학습 시킨 데이터를 설명하는지에 대한 것입니다. 결정계수는 0~1 사이의 값을 가지는데 만약 0에 가까우면 거의 설명을 못하는 것이며, 1에 가까우면 거의 모든 데이터를 설명 가능하다는 것입니다. 일반적으로 결정계수는 R^2를 쓰지만 논문을 써본 분들이라면 Adjusted R^2(수정된 R^2)를 사용하라는 말을 많이 들으셨을 것입니다. 수정된 R^2는 변수가 많아지면 자연스럽게 R^2가 높아지는 문제를 해결하기 위함입니다. 물론 변수를 많이 넣어서 R^2를 높이는 것이 좋긴 하지만, 변수의 갯수가 다른 모델하고 비교할때 과연 ..
ㅇ 데이터 사이언티스트는 분석, 통계, 프로그래밍의 기술을 활용해 대규모 데이터 셋을 모으고 분석하고 해석하는 직업으로, 경영 또는 운영의 난관에 대해 '데이터 주도형 해결책 (Data Driven Solution)'을 제시하는 것으로 요약 - 데이터 사이언티스트는 ① 조직 전반의 활동으로 조직의 데이터를 경영 솔루션으로 전환시킴으로써 사업기회를 포착하는 업무를 하며, ② 회사의 데이터베이스로부터 데이터를 캐고 분석해 제품 개발 향상과 마케팅 테크닉과 경영전략의 최적화를 이끌어 냄. - 아울러 ③ 새로운 데이터 소스 및 데이터를 모으는 방식의 정확도와 효과를 평가하며, ④ 데이터 모델을 커스터마이징하고 데이터 셋에 적용될 알고리즘을 개발 - 또한 ⑤ 예측 모델링(회귀분석 등) 기법을 이용해 사용자 경험,..