목록분류 전체보기 (70)
Rucrazia's Blog
DATA SCIENCE LIBRARY Numpy NumPy는 프로그래머가 고성능 배열 및 행렬을 사용하는데 사용할 수 있는 다양한 기능을 제공합니다. NumPy 배열은 수학 연산의 벡터화를 제공하므로 파이썬의 루핑 구문에 비해 성능이 향상됩니다. pandas library의 Series 및 DataFrame 객체는 요소를 자르고 벡터 작업을 수행하는 것과 같은 모든 수학적 계산을 위해 주로 NumPy 배열에 의존합니다. NumPy를 사용하여 대규모 다차원 배열 및 행렬을 사용하는 것은 매우 쉽습니다. NumPy의 또 다른 장점은 루프를 작성하지 않고도 표준 수학 연산을 전체 데이터 세트에 적용 할 수 있다는 것입니다. 저수준 언어 (예 : C 또는 C ++)로 작성된 외부 라이브러리로 데이터를 내보내고 ..
Kivy Windows, MacOSX, Linux, Android iOS 및 Raspberry Pi와 같은 여러 플랫폼을 지원합니다. 오픈 소스이며 툴킷에는 20 개 이상의 위젯이 제공됩니다. Kivy는 빠른 GUI 파이프 라인을 사용하는 것 외에도 20 개가 넘는 확장 가능한 위젯을 제공합니다. Kivy를 사용하여 Android 및 iOS 용 멀티 터치 모바일 앱을 제작할 수 있습니다. 게임을 만들때 좋은 GUI 라이브러리 입니다. PyQT Qt (Nokia 소유) 응용 프로그램 개발 프레임 워크 용 Qt 라이브러리를 구현하는 선호되는 교차 플랫폼 Python 바인딩 중 하나입니다. 현재 PyQT는 Unix / Linux, Windows, Mac OS X 및 Sharp Zaurus에서 사용할 수 있습니..
※ 비전공자분들의 눈높이에 맞춰 작성된 글입니다. 들어가기. 바로 전 포스팅에서 저희는 도커(Docker)를 설치 했습니다. http://rucrazia.tistory.com/53 이제는, Data engineering을 위한 프로그램들을 설치 하려고 합니다. 하둡(Hadoop)은 데이터를 분산 시켜주는 프로그램입니다. 데이터를 한 서버 혹은 컴퓨터에 저장하지 않고 여러 서버, 여러 컴퓨터에 분산 저장 시켜주고, 분산된 데이터를 모아주는 역할도 합니다. 우리는 왜 이렇게 데이터를 여러곳에 놨둬야 하는지를 고민해봐야 합니다. 일반적으로는 하나의 컴퓨터에서 데이터를 저장해놓고 거기서 분석 프로그램까지 돌리는 작업을 하게 될 것입니다. 전혀 문제 없이 데이터를 분석하고 저장했다면 하둡이라는 것도 필요가 없을 ..
※ 비전공자분들의 눈높이에 맞춰 작성된 글입니다. 들어가기. 하둡을 공부해보기 위해 도커(Docker)를 설치하려고 합니다. 도커를 들어보신 분들도 있을것 같긴 한데, 잘 모르시는 분들을 위해 설명해보자면, 도커는 컴퓨터 안에 있는 컴퓨터라고 생각하시면 됩니다. 가상머신(Virtual Machine)을 다뤄본 분들이라면 쉽게 이해하시겠지만.... IT 전공이 아니시면 위의 글이 무슨 뚱딴지 같은 말이냐 라고 하실것 같습니다. 도커나 가상머신은 우리가 사용하고 있는 컴퓨터 안에 또 다른 컴퓨터 들을 만들어서 어떤 목적으로 사용하고자 하는 것입니다. 예를 들어, 한 사람이 큰 집을 사서 거기서 혼자 살고 있습니다. 그 사람은 돈을 더 벌고 싶은 생각이 들어서 그 집안에 방을 여러개를 만들고 그 방안에 주방과..
본 포스팅은 'Greenberg, R. S. (2005;2004;). Medical epidemiology (4th ed.). New York: Lange Medical Books/McGraw-Hill.'을 번역 및 요약한 내용입니다. 미국에서는 당뇨병의 유병률은 인구의 2%에서 4% 사이인 것으로 추산됩니다. 당뇨병의 두 가지 기본 유형은 제 1형 당뇨병과 제 2형 당뇨병이 있습니다. 제 1형 당뇨병은 췌장 베타 세포의 자가 면역 파괴로 인해 인슐린의 생산이 현저히 감소되거나 결핍되는 것을 특징으로 합니다. 포도당이 세포로 들어가는 것을 촉진하는 인슐린이 없으면 혈장 포도당 수치가 상승합니다. 혈장 내 포도당 레벨이 신장에 의해 재흡수 될 수있는 양 (약 180 mg / dL)을 초과하면, 생성된 글루..
본 포스팅은 'Greenberg, R. S. (2005;2004;). Medical epidemiology (4th ed.). New York: Lange Medical Books/McGraw-Hill.'을 번역 및 요약한 내용입니다. 임상적 이유Clinic reasoning 임상 의학은 과학을 예술적으로 응용하는 것입니다. 실제로 임상 추론의 과정은 매우 복잡 합니다. 두 사람의 얼굴이 같지 않으므로 두사람의 신체 비슷하지 않으므로 두 사람이 똑같은 질병의 양상에 따라 반응하고 행동하지 않습니다. 이것은 의사의 교육에있어서 근본적인 어려움입니다. 확률은 삶의 지침입니다. 의사의 임상적 결정 과정은 확률에 근거합니다. 예를 들어 한 의사가 정상적인 유방 검사를 받은 54 세의 여성이 유방암에 걸릴 확률이..
표본조사와 전수조사 통계를 돌리기 위해서 데이터가 필요합니다. 아무것도 없이 통계를 돌릴 수는 없죠.. 이를 위해 데이터를 모으게 되는데, 통계를 돌리기 위한 목적에 맞게 데이터를 모으게 됩니다. 먼저, 한 가지 예를 들어보겠습니다. 대학생들의 유학에 대한 관심도에 대한 통계를 돌리기 위해 데이터를 수집한다고 해보겠습니다. 한국의 모든 대학생들을 대상으로 유학에 대한 관심도를 얻으려고 한다면 정확한 결과값을 얻을 수 있겠지만, 많은 인력과 시간이 필요할 것입니다. 이렇게 모든 대학생들을 대상으로 자료를 조사하는 것을 전수조사라고 합니다. 이와는 반대로, 모든 대학생들을 대상으로 하기에는 힘들기 때문에 대학생들 중에 대표적으로 수십~수백 명을 대상으로 조사하는 것을 표본조사라고 합니다. 위의 전수조사처럼 ..
본 포스팅은 'Greenberg, R. S. (2005;2004;). Medical epidemiology (4th ed.). New York: Lange Medical Books/McGraw-Hill.'을 번역 및 요약한 내용입니다. Introduction 극적인 질병 발생의 증가와 같은 전염병의 개념은 3 장에서 소개 했었습니다. 유행이 갑자기 비교적 제한된 지역에서 발생하면 질병 발병이라고합니다. 질병 발병의 출현은 문제의 시작을 결정하고 궁극적으로 다른 사람이 영향을 받지 않도록 즉각적인 조치가 필요합니다. 질병 발병이 많은 상황에서, 질병에 걸린 사람들의 특유의 임상 특징들을 이용해서 근본 원인 (때때로 병원균이라고 함)에 대해 제안 할 수 있습니다. 작업 가설working hypothesis은..
1. 연속형 확률변수 : 취할 수 있는 값의 수가 무한대로 많은 변수를 의미합니다. 좀 더 풀어서 설명하자면 이산형 확률변수는 1,2,3,4와 같이 셀 수 있는 변수를 의미하며, 연속형 확률변수는 1
본 포스팅은 'Greenberg, R. S. (2005;2004;). Medical epidemiology (4th ed.). New York: Lange Medical Books/McGraw-Hill.'을 번역한 내용입니다. Medical Surveillance 의학 감시 이 장에서는 역학의 가장 기본적인 기능 중 하나 인 대상 집단의 건강 관련 사건 또는 노출 발생 탐지에 중점을 둡니다. 이 탐지 또는 감시의 목표는 인구 집단 내에서 이러한 질병을 예방하거나 통제하기 위해 질병 분포의 변화를 확인하는 것입니다. "감시"란 용어는 감시하는 것을 의미하며 전통적으로 의학 감시 활동은 인구를 통한 전염병 확산을 감시하기 위해 개발되었습니다. 그러나 오늘날에는 선천성 기형, 상해, 직업 건강 문제 및 암뿐만..