목록기술 - Data Science (41)
Rucrazia's Blog
자료를 시각적 요약을 통해 보여주는 것이 기술통계(descriptive statistics) 입니다. '기술'통계 에서 기술의 사전적 의미는 '대상이나 과정의 내용과 특징을 있는 그대로 열거하거나 기록하여 서술함. 또는 그런 기록' 입니다. 기술통계를 통해서 데이터의 내용과 특징을 보여주는 방법이 어떤 것이 있는지 알아보는 것이 이번 포스팅의 목적 입니다. 도수분포표 -자료의 전체적인 구성형태를 파악하기 위하여 같은 항목, 같은 숫자 자료가 몇 개 있는지 정리한 표(table) 입니다. 범주형 자료의 도수분포표는 값 들을 그대로 사용하거나 종류가 많으면 비슷한 것 끼리 묶어서 사용합니다. 예를 들어, 10명의 학생이 좋아하는 과목을 조사 했다고 가정해보겠습니다. 미술, 수학, 수학, 과학, 국어, 미술,..
모집단과 표본 모집단(population) - 관심의 대상이 되는 전체 표본(sample) - 모집단에서 일부만 뽑힌 부분 추출(sampling) - 모집단에서 표본을 뽑아내는 과정 추론(inference) - 표본에서 계산된 통계를 이용하여 모집단에 대한 정보로 바꾸는 과정 측정 척도 자료는 사칙연산 가능 여부에 따라 나뉩니다. 질적(qualitative data), 비계량형(nonmetric data)과 양적(quantitative data), 계량형(metric data)로 나뉩니다. 질적 데이터(범주형 자료)는 명목형 자료(nominal data)와 순서형 자료(ordinal data)로 구분. 명목형 자료 : 이름이나 문자로 나타내는 자료이며, 자료 간에는 순서가 없는 자료 (ex, 대학교 전공..
A 연구원이 한국의 대학생들을 대상으로 수업 만족도 조사를 해서 얼마나 한국의 대학생들이 수업에 만족하고 있는지를 연구 한다고 가정해보겠습니다. 근데, A 연구원은 대학원생으로서 수업도 들어야하고.. 과제도 해야하고.. 시간과 돈이 별로 없습니다.. 위에서 말한 연구를 수행하기 위해서는 모든 한국 대학생들을 조사해야 정말 학생들이 수업을 얼마나 만족하고 있는질 정확히 알겠죠? 근데.. 모든 한국 대학생들을 대상으로 조사를 하게 되면 많은 비용과 시간이 필요하기 때문에 그렇게는 못할것입니다.. 그래서!! A 연구원은 어떻게 하면 시간을 줄일 수 있고, 한국 대학생들이 생각하는 수업 만족도를 알아낼 수 있을까에 대해서 고민을 해보았습니다! A 연구원은 선배한테 통계를 이용해서 연구를 하면 너가 원하는 답을 ..
회귀분석은 세 가지 중요한 목적을 지닙니다. (1) 서술(Description) (2) 관리(Control) (3) 예측(Prediction) 예를 들어, 서술은 은행 지점에 대한 운영 비용과 지점의 특성 사이의 관계에 대한 지식. 관리는 운영진이 각 지점의 원가표준을 세울 수 있게 하는 것. 예측은 운영진이 비용을 예측한다. 제가 예전에 블로그를 돌아다니다 본 내용으로, 회귀분석은 인과 관계를 분석하는 것이고, 상관분석은 상관 관계를 분석하는 것이라는 것을 보았습니다. 그러나, 반응변수 Y와 설명변수(예측변수) X의 통계적 관계는 X와 Y의 인과관계를 의미하지는 않습니다. X와 Y의 통계적 관계가 아무리 강하다고 하더라도 회귀모형은 필연적으로 X가 Y의 원인임을 보여 주지 않습니다. 두개의 예를 들어 ..
PCA 입력 변수를 분석함으로써 모형의 예측변수의 수를 줄이기 위한 유용한 기법. 의사결정을 위해서 필요한 변수가 많을 때는, 어떤 변수를 사용 해야 할지 모름.. 다중공선성이 있다는 것은 이 현상을 위한 데이터 중에서 그 다중공선성(상관관계)가 있다는 것은 그 만큼 중요하다는 것이다. 상관 관계가 깊은 애들을 뭉쳐서 하나 이상의 변수로 합쳐준다. 그렇게 되면 변수가 줄어들기 때문에 의사결정이 쉬워진다. 종류가 여러개 있는 변수들을 최사한의 변수의 갯수로 줄여서 정보의 유실 없이 최대한 많은 정보를 뽑아낼수 있는 최소의 변수를 뽑아내는것. 두 변수 사이의 가장 관련 있는 축(직선)을 만드는것(회귀 분석과 비슷 but, 다름) 2차원으로 보았을 때 첫번째 주성분은 가장 길게, 가장 퍼져있는 방향의 축에 해..
회귀분석은 두 개 이상의 양적 변수 사이의 관계를 분석하여 반응변수(response variable) 또는 결과변수가 한 변수 혹은 여러 다른 변수에 의해 예측이 가능하도록 하는 통계 방법론입니다. 이번에는 단일 예측변수(독립변수)에 선형 회귀모형을 사용하여 반응변수 또는 결과변수(종속변수)를 예측하는 회귀분석을 알아보고자 합니다. 먼저 변수 사이의 관계를 보면 함수적 관계와 통계적 관계가 있습니다. 함수적 관계는 어릴 때 배웠던 함수를 의미합니다. y=f(x) 함수 소녀들이 생각나는군요..ㅎㅎ 위의 수학식과 같이 어떠한 x가 들어가면 y가 나오게 되어 하나의 곡선(혹은 직선) 위에 바로 있게 됩니다. 통계적 관계는 함수적 관계와 달리 완벽한 형태가 아닙니다. 다시 말해서, 값(관측값)들이 통계적 관계 ..
Neural Network 딥러닝의 기초이자 거의 모든것 이다. 이것을 알아야 CNN, ALEX NET 등을 알아들을수 있다. 뉴럴 넷은 뇌가 처리하는 방식을 본 따서 처리하는 알고리즘을 만든다. 뉴런보다 컴퓨터가 처리 속도가 빠르다. 뇌는 분산 처리, 칩은 중앙 처리 방식(BUT 분산처리 화 시키는 기술들이 나온다). 뇌는 Non-linear processing을 하고, 컴퓨터는 선형적인 수학적 프로세싱을 한다. 뇌는 전기자극을 통해서 신호가 전달 된다. 자극들이 들어와서 Soma에서 모인다. 모이는데, 문턱 값을 넘으면 다른 애로 넘어간다. 뉴럴넷의 기본 알고리즘은 E= Sum(Wi*Xi) 인데, 여기서 Wi는 가중치(기울기) 이고 Xi는 각 input이다. 가중치에 따라서 결과 값이 예측이 된다. ..
Regression Model(회귀 분석) 변수들 간의 상호 관련성을 구명하고 어떤 변수들의 변화로부터 다른 변수들의 변화를 예측하는 통계 기법 모델을 만든 다음 독립변수들을 이용해서 종속변수 결과를 내는것 -> Prediction. ex) - 매출액은 광고 횟수에 따라 어떻게 변하는가? - 담배 판매량과 폐암 환자수와의 관계는 어떠한가? Least Square Method(최소자승법) 모델의 파라미터를 구하기 위한 대표적인 방법 중 하나로서 모델과 데이터와의 Residual^2의 합을 최소화 하도록 파라미터를 결정하는 방법. 여기서 Residual은 실제값과 예측값의 차이 제곱의 합을 의미한다. 최소자승법으로 만든 회귀선은 선형이 overfitting의 문제를 피할수 있다. 회귀 예측 모델은 잔차(실제..
이해는 세 단계로 viewer들에게 거치게 됩니다. 인식, 해석, 소화 첫째, 인식(Perceiving) : 이것은 무엇을 보여줍니까? 이것은 단순히 차트를 읽는 행위와 관련이 있습니다. 이것에 대한 물음으로는 '당신이 보여주는 차트는 무엇인가요?', '묘사되는 데이터의 값에 대해 얼마나 쉽게 이해 할 수 있습니까?' - 가장 큰, 중간 크기 및 가장 작은 값은 어디에 있습니까? - 값의 합계는 어느 정도입니까? - 이 값들의 순위는 어떻게 비교됩니가? - 어떤 다른 값들과 연결된 관계가 있습니까? 여기에서 이해의 개념은 viewer가 차트를 통해 표시되는 데이터의 표현(모양, 크기, 및 색)을 인식 한 다음 수량의 추정 및 다른 값과의 관계와 같은 것으로 인식 된 값이 변환 됩니다. 둘째, 해석(Int..
먼저, 데이터시각화 포스팅에서 사용하는 기본 reference에 대해서 소개하고자 합니다. 데이터시각화를 배우고 정리하는 입장에서 한 책을 이용하여 정리하려고 합니다. 저자 Andy Kirk의 책 'Data VIsualisation a handbook for data driven design'(2016)을 이용하고자 합니다. 최신의 데이터시각화 관련된 정보와 지식을 갖고 있는 책으로서 기존 데이터시각화의 이론서들 보다 넓게 정리해주기 때문에 이 책을 이용해서 전체적인 정리를 진행합니다. 저자는 데이터시각화의 정의를 'The representation and presentation of data to facilitate understanding' 내리고 있습니다. 한국어로 번역 하자면, '이해를 돕기 위한..