목록기술 - Data Science/Data Science (35)
Rucrazia's Blog
DATA SCIENCE LIBRARY Numpy NumPy는 프로그래머가 고성능 배열 및 행렬을 사용하는데 사용할 수 있는 다양한 기능을 제공합니다. NumPy 배열은 수학 연산의 벡터화를 제공하므로 파이썬의 루핑 구문에 비해 성능이 향상됩니다. pandas library의 Series 및 DataFrame 객체는 요소를 자르고 벡터 작업을 수행하는 것과 같은 모든 수학적 계산을 위해 주로 NumPy 배열에 의존합니다. NumPy를 사용하여 대규모 다차원 배열 및 행렬을 사용하는 것은 매우 쉽습니다. NumPy의 또 다른 장점은 루프를 작성하지 않고도 표준 수학 연산을 전체 데이터 세트에 적용 할 수 있다는 것입니다. 저수준 언어 (예 : C 또는 C ++)로 작성된 외부 라이브러리로 데이터를 내보내고 ..
※ 비전공자분들의 눈높이에 맞춰 작성된 글입니다. 들어가기. 바로 전 포스팅에서 저희는 도커(Docker)를 설치 했습니다. http://rucrazia.tistory.com/53 이제는, Data engineering을 위한 프로그램들을 설치 하려고 합니다. 하둡(Hadoop)은 데이터를 분산 시켜주는 프로그램입니다. 데이터를 한 서버 혹은 컴퓨터에 저장하지 않고 여러 서버, 여러 컴퓨터에 분산 저장 시켜주고, 분산된 데이터를 모아주는 역할도 합니다. 우리는 왜 이렇게 데이터를 여러곳에 놨둬야 하는지를 고민해봐야 합니다. 일반적으로는 하나의 컴퓨터에서 데이터를 저장해놓고 거기서 분석 프로그램까지 돌리는 작업을 하게 될 것입니다. 전혀 문제 없이 데이터를 분석하고 저장했다면 하둡이라는 것도 필요가 없을 ..
※ 비전공자분들의 눈높이에 맞춰 작성된 글입니다. 들어가기. 하둡을 공부해보기 위해 도커(Docker)를 설치하려고 합니다. 도커를 들어보신 분들도 있을것 같긴 한데, 잘 모르시는 분들을 위해 설명해보자면, 도커는 컴퓨터 안에 있는 컴퓨터라고 생각하시면 됩니다. 가상머신(Virtual Machine)을 다뤄본 분들이라면 쉽게 이해하시겠지만.... IT 전공이 아니시면 위의 글이 무슨 뚱딴지 같은 말이냐 라고 하실것 같습니다. 도커나 가상머신은 우리가 사용하고 있는 컴퓨터 안에 또 다른 컴퓨터 들을 만들어서 어떤 목적으로 사용하고자 하는 것입니다. 예를 들어, 한 사람이 큰 집을 사서 거기서 혼자 살고 있습니다. 그 사람은 돈을 더 벌고 싶은 생각이 들어서 그 집안에 방을 여러개를 만들고 그 방안에 주방과..
표본조사와 전수조사 통계를 돌리기 위해서 데이터가 필요합니다. 아무것도 없이 통계를 돌릴 수는 없죠.. 이를 위해 데이터를 모으게 되는데, 통계를 돌리기 위한 목적에 맞게 데이터를 모으게 됩니다. 먼저, 한 가지 예를 들어보겠습니다. 대학생들의 유학에 대한 관심도에 대한 통계를 돌리기 위해 데이터를 수집한다고 해보겠습니다. 한국의 모든 대학생들을 대상으로 유학에 대한 관심도를 얻으려고 한다면 정확한 결과값을 얻을 수 있겠지만, 많은 인력과 시간이 필요할 것입니다. 이렇게 모든 대학생들을 대상으로 자료를 조사하는 것을 전수조사라고 합니다. 이와는 반대로, 모든 대학생들을 대상으로 하기에는 힘들기 때문에 대학생들 중에 대표적으로 수십~수백 명을 대상으로 조사하는 것을 표본조사라고 합니다. 위의 전수조사처럼 ..
1. 연속형 확률변수 : 취할 수 있는 값의 수가 무한대로 많은 변수를 의미합니다. 좀 더 풀어서 설명하자면 이산형 확률변수는 1,2,3,4와 같이 셀 수 있는 변수를 의미하며, 연속형 확률변수는 1
메인 주제인 이산형확률변수로 들어가기 전에 확률변수를 알아보고 시작 하겠습니다. 확률변수(random variable)는 확률 실험의 결과 또는 결과물에 대한 숫자적 표현입니다. 한 교실 내의 학생수가 30명이 있다고 가정 해보겠습니다. 제비뽑기로 청소 당번을 정할 때 1 ~ 30번 까지의 학생들 중 한명이 나오게 됩니다. 뽑힌 학생이 3번 이라고 할 때, 그 학생의 이름인 김갑돌은 사용 안되고 확률변수의 정의와 같이 결과물에 대한 숫자적 표현인 3번이라고 하게 됩니다. 위의 확률변수는 이산형 확률변수와 연속형 확률변수로 나뉩니다. 이산형 확률변수 이산형 이란 것은 셀 수 있는 것으로서 학점과 같이 유한(finite)개 혹은 셀 수 있는 것을 의미합니다. 학점이 A,B,C,D,E,F만 있다고 할 때 변수..
확률은 0에서 1 사이의 숫자로 연결시키는 함수이며, 그 정의는 여러가지가 될 수 있습니다. 확률은 전통적 접근, 상대적 접근, 주관적 접근에 따라서 정의가 달라집니다. 전통적 접근 - 똑같은 가능성의 사건을 똑같은 확률값을 갖도록 정의. 상대적 비율 접근 - 전체 케이스 중에 특정 케이스가 나온 상대적 비율로 정의. 주관적 접근 - 어떤 사건이 일어날 가능성에 대한 믿음의 정도로 정의. 통계학자들은 빈도론자(상대적 비율 접근), 베이지안(주관적 접근)으로 나뉘어져 있습니다. 이렇게 나뉘어 있어도 정의만 다를 뿐 확률이 집합에 기초한 수학적 체계이므로 통계이론의 전개와 분석에서 근본적인 차이가 있습니다. 조건 확률(Conditional Probability) 확률에는 어떤 상황이 조건으로 걸려 있는 상황..
자료를 시각적 요약을 통해 보여주는 것이 기술통계(descriptive statistics) 입니다. '기술'통계 에서 기술의 사전적 의미는 '대상이나 과정의 내용과 특징을 있는 그대로 열거하거나 기록하여 서술함. 또는 그런 기록' 입니다. 기술통계를 통해서 데이터의 내용과 특징을 보여주는 방법이 어떤 것이 있는지 알아보는 것이 이번 포스팅의 목적 입니다. 도수분포표 -자료의 전체적인 구성형태를 파악하기 위하여 같은 항목, 같은 숫자 자료가 몇 개 있는지 정리한 표(table) 입니다. 범주형 자료의 도수분포표는 값 들을 그대로 사용하거나 종류가 많으면 비슷한 것 끼리 묶어서 사용합니다. 예를 들어, 10명의 학생이 좋아하는 과목을 조사 했다고 가정해보겠습니다. 미술, 수학, 수학, 과학, 국어, 미술,..
모집단과 표본 모집단(population) - 관심의 대상이 되는 전체 표본(sample) - 모집단에서 일부만 뽑힌 부분 추출(sampling) - 모집단에서 표본을 뽑아내는 과정 추론(inference) - 표본에서 계산된 통계를 이용하여 모집단에 대한 정보로 바꾸는 과정 측정 척도 자료는 사칙연산 가능 여부에 따라 나뉩니다. 질적(qualitative data), 비계량형(nonmetric data)과 양적(quantitative data), 계량형(metric data)로 나뉩니다. 질적 데이터(범주형 자료)는 명목형 자료(nominal data)와 순서형 자료(ordinal data)로 구분. 명목형 자료 : 이름이나 문자로 나타내는 자료이며, 자료 간에는 순서가 없는 자료 (ex, 대학교 전공..
A 연구원이 한국의 대학생들을 대상으로 수업 만족도 조사를 해서 얼마나 한국의 대학생들이 수업에 만족하고 있는지를 연구 한다고 가정해보겠습니다. 근데, A 연구원은 대학원생으로서 수업도 들어야하고.. 과제도 해야하고.. 시간과 돈이 별로 없습니다.. 위에서 말한 연구를 수행하기 위해서는 모든 한국 대학생들을 조사해야 정말 학생들이 수업을 얼마나 만족하고 있는질 정확히 알겠죠? 근데.. 모든 한국 대학생들을 대상으로 조사를 하게 되면 많은 비용과 시간이 필요하기 때문에 그렇게는 못할것입니다.. 그래서!! A 연구원은 어떻게 하면 시간을 줄일 수 있고, 한국 대학생들이 생각하는 수업 만족도를 알아낼 수 있을까에 대해서 고민을 해보았습니다! A 연구원은 선배한테 통계를 이용해서 연구를 하면 너가 원하는 답을 ..