목록분류 전체보기 (70)
Rucrazia's Blog
대학 병원에서 환자에게 사용할 목적으로 Depth camera를 Python 기반의 프로그램에서 구동이 필요했습니다. 저희가 사용하는 카메라로는 Orrbec 사에서 만든 Astra S 입니다. Astra S는 비싼 Depth 카메라의 저렴한 버전으로 쓰이고 있습니다. 기본 SDK가 OpenNI2를 base로 되어 있으며 C++, Java 기반으로 되어 있습니다. 홈페이지에는 Python에 대한 SDK도 지원하지만 Beta 버전이고 최신 버전 카메라만 지원하기 때문에 저희가 사용하는 Astra S는 사용할 수 없습니다. 해당 SDK를 실행해보면 계속 USB Connection 에러와 uid를 찾을 수 없다는 에러가 나옵니다. Astra S의 경우 Python은 OpenNI2를 사용해서 구동해야 합니다. O..
* 본 포스팅은 https://youtu.be/8N9ife7fHKk 영상 정리입니다. 개인 스크랩 용으로 작성한 내용이기 때문에 강의 영상과 다른 내용이 있을수도 있으니 참고용으로만 읽어주세요. 영상 만들어 주신 분께 감사 인사드립니다. 사회과학 : 우리 주변(사회)에서 일어나는 일들에 대해서 연구하는 학문. 심리학, 행정학 등 ex) 연구 문제 : 군대 생활에 있어서 출신 지역이 중요한 역할을 할까? 가령, 도시 출신자와 시골 출신자 사이에 군생활 만족도에 유의한 차이가 있을까? 미군 The american soldier에 출간된 연구를 보면 2차 세계대전 때 복무했던 60만 명의 군인들에 대해서 연구. 예상되는 결과로 - 더운 곳에서 왔던 남부 출신자들이 추운 곳에서 왔던 북부 출신자들에 비해 피지에..
Tensorflow 2 버전을 쓰면서 아래 코드에서 에러가 나온다면 다른 버전으로 까는 것을 추천합니다. logs = tmp_logs end_step = step + data_handler.step_increment callbacks.on_train_batch_end(end_step, logs) epoch_logs = copy.copy(logs) UnboundLocalError: local variable 'logs' referenced before assignment 저는 2.2.0 버전을 사용하고 있었는데 GPU를 쓰는 모델을 돌리면서 이러한 에러를 보게 되었습니다. tensorflow github에 들어가 보니 최신 버전에서는 code가 수정되어 있었습니다. 그래서 가장 신버전인 2.1.1 버전으로..
# 한글로 적혀져 있는 곳에 해당 설명에 적합한 데이터를 넣으면 된다. 찾고 싶은 데이터가 어느 컬럼(column)에 있는지 알고 싶을 때. df.columns[df.isin([찾고 싶은 값]).any()] # return 'list' 데이터 타입 변환 df = df.astype(데이터 타입) # return dataFrame 특정 데이터 타입만 가져오고(또는 빼고) 싶을 때 df = df.select_dtypes(include=[데이터 형]) #특정 데이터 형만 가져오고 싶을 때. return dataFrame df = df.select_dtypes(exclude=[데이터 형]) #특정 데이터 형만 빼고 가져오고 싶을 때. return dataFrame 데이터프레임 안에 있는 데이터 타입 종류별 갯수 ..
[출처 : Harvard Data Science Review, https://hdsr.mitpress.mit.edu/pub/5irjez4q] Abstract 데이터 과학이 사용하기 쉬운 도구를 통해 완전히 자동화되거나 비 데이터 과학자가 접근할 수 있다는 최근의 주장을 감안할 때, 나는 조직 내에서 데이터 과학의 다양한 역할을 설명한다. 그런 다음, 나는 데이터 과학이 실제 데이터 과학 프로젝트에서 얻은 완전한 경험뿐만 아니라 기초적인 방법에 대한 자세한 이해를 필요로 한다고 결론짓고, 성공적인 데이터 과학자들의 필요한 기술 세트와 그들이 어떻게 얻을 수 있는지에 대한 관점을 제공한다. 자동화나 사용하기 쉬운 도구를 사용하여 특정 분야에서 몇 가지 쉬운 승리를 거두었음에도 불구하고, 성공적인 데이터 과학..
공공데이터에서 사용하는 시군구코드(행정동/법정동)는 지역별 데이터를 합쳐서 분석할 때 유용하게 사용된다. 보통 행정동과 법정동을 주로 사용하는데, 가끔.. 기관코드를 시군구코드라고 적어놓는 곳도 있다. 법정동 코드 (사이트에 들어가서 '법정동 코드 전체 다운로드'를 누르면 저장 가능하다.) https://www.code.go.kr/stdcode/regCodeL.do 행정동코드 http://kssc.kostat.go.kr/ksscNew_web/kssc/common/AdCodeConnectionSearchList.do?gubun=1&strCategoryNameCode=019&categoryMenu=009 기관코드 (사이트에 들어가서 '기관유형선택' -> '자치행정조직'->'기관코드 조회자료' 누르면 저장 가..
연관분석은 A가 팔리면, B가 같이 팔린다와 같은 것을 알아내기 위한 분석이다. 이것을 현업에서는 IF-THEN을 이용해서 규칙을 만든다. 일반적으로 “If 𝑋, 𝑡ℎ𝑒𝑛 𝑌”이 유용하게 쓰일려면 2가지 필요조건이 있다. 1. 두 품목 𝑋와 𝑌를 동시에 구매한 경우의 수가 일정 수준 이상 2. 품목 𝑋를 포함하는 거래 중 품목 𝑌를 구입하는 경우의 수도 일정 수준 이상
사후검증 방법은 ANOVA(분산분석) 결과를 더욱 자세히 분석할 때 사용한다. ANOVA는 세 집단 이상의 평균 비교를 할 때 사용하는데 ANOVA의 귀무가설이 '모든 집단의 평균이 같다'이다. 만약, 귀무가설을 기각하게 되어 적어도 하나의 집단의 평균이 다른 집단들과 다르다고 나온다면 어떤 집단들이 서로 다른지에 대한 궁금증이 생길 것이다. 이 궁금증을 해결해 줄 수 있는 방법이 바로 사후검증 방법이다. 사후검증 방법으로는 크게 3가지 케이스로 나눌 수 있다. - 모수/비모수 - 등분산/이분산 - 집단별 동일 샘플수/집단별 비동일 샘플수 먼저, 모수적 방법에서 데이터가 등분산일 때 쓰는 방법을 먼저 보자. 다양한 방법이 있지만 데이터 분석에서 흔히 쓰이는 방법들만 소개하고자 한다. 모수적/등분산 Tuc..
* 샘플링 방법과 Bias에 대한 자세한 내용은 아래의 Ref. 부분을 참고 부탁드립니다. 샘플링은 모집단에서 일정한 수만큼 추출하는 작업을 말한다. 샘플링은 개별 관측치의 선택과 관련된 통계적 절차로서, 모집단에 대한 통계적 추론을 하는 데 도움이 된다. 샘플링 방법으로는 아래와 같다. 1. 단순임의추출법(Simple Random Sampling): 모집단에서 추출하는 각 데이터가 뽑힐 확률이 동일한 방법. 2. 층화임의추출법(Stratified Random Sampling): 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 추출하는 방법. 3. 계통추출법(Systematic Sampling): 모집단에 있는 데이터들에게 번호를 임의로 준 다음 일정한 간격마다 추출하는 방법. 4. 집락추출방법(..
데이터 분석을 수행하면서 많이 겪는 문제중 하나가 데이터 단위의 불일치이다. 이를 해결하는 방법으로 Normalization(정규화)과 Standardization(표준화)이 있다. 이 방법들은 대표적으로 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 해준다. 즉, 다른 데이터와 같이 분석을 할 때에도 표준화 또는 정규화된 데이터를 이용하면 단위 차이 문제 등에서 벗어나서 쉽게 사용할 수 있다. 정규화(Normalization) - 데이터를 특정 구간으로 바꾸는 척도법이다 (ex. 0~1 or 0~100). - 식 : (측정값 - 최소값) / (최대값 - 최소값) - 데이터 군 내에서 특정 데이터가 가지는 위치를 볼 때 사용된다. - 주가와 같은 주기를 띄는 데이터의 경우 ..