목록기술 - Data Science (41)
Rucrazia's Blog
#!/usr/bin/env python # coding: utf-8 # Refrences ## https://mulder21c.github.io/2018/06/20/creating-web-crawler-in-python/ ## http://hellogohn.com/post_one98 ## https://medium.com/@nsh235482/python-selenium으로-웹사이트-크롤링하기-2-웹-사이트-제어해보기-1ffc5e05179d ## https://selenium-python.readthedocs.io/locating-elements.html ## T아카데미 - Python을 활용한 웹 크롤러 만들기 # HTML 실행용 (해당 코드는 없어도 된다.) from IPythttp://localhos..
테이블의 컬럼들로 다른 테이블의 컬럼을 수정 및 확인하는 방법 A와 B라는 테이블이 있다. Table A ID AGE PHONE asd12 20 01012341234 sdf13 21 01012341234 Table B SELL_ID BUY_ID COUNT DATE sdf13 asd12 20000 2018.01.01 dfsd22 asd12 10000 2018.01.01 Table A의 ID 중에서 Table B의 SELL_ID에 있는 것만 CHECK(새로 생성, default=false)라는 컬럼 안에 TRUE라는 값을 넣으려고 한다. Result Table와 같이 만드는 코드를 짜려고 한다. Result Table SELL_ID BUY_ID COUNT DATE CHECK sdf13 asd12 20000 ..
## # 주말 리스트 ## #1년 일자를 생성하고 요일 표시하기 #시작일 지정 start_date
DATA SCIENCE LIBRARY Numpy NumPy는 프로그래머가 고성능 배열 및 행렬을 사용하는데 사용할 수 있는 다양한 기능을 제공합니다. NumPy 배열은 수학 연산의 벡터화를 제공하므로 파이썬의 루핑 구문에 비해 성능이 향상됩니다. pandas library의 Series 및 DataFrame 객체는 요소를 자르고 벡터 작업을 수행하는 것과 같은 모든 수학적 계산을 위해 주로 NumPy 배열에 의존합니다. NumPy를 사용하여 대규모 다차원 배열 및 행렬을 사용하는 것은 매우 쉽습니다. NumPy의 또 다른 장점은 루프를 작성하지 않고도 표준 수학 연산을 전체 데이터 세트에 적용 할 수 있다는 것입니다. 저수준 언어 (예 : C 또는 C ++)로 작성된 외부 라이브러리로 데이터를 내보내고 ..
※ 비전공자분들의 눈높이에 맞춰 작성된 글입니다. 들어가기. 바로 전 포스팅에서 저희는 도커(Docker)를 설치 했습니다. http://rucrazia.tistory.com/53 이제는, Data engineering을 위한 프로그램들을 설치 하려고 합니다. 하둡(Hadoop)은 데이터를 분산 시켜주는 프로그램입니다. 데이터를 한 서버 혹은 컴퓨터에 저장하지 않고 여러 서버, 여러 컴퓨터에 분산 저장 시켜주고, 분산된 데이터를 모아주는 역할도 합니다. 우리는 왜 이렇게 데이터를 여러곳에 놨둬야 하는지를 고민해봐야 합니다. 일반적으로는 하나의 컴퓨터에서 데이터를 저장해놓고 거기서 분석 프로그램까지 돌리는 작업을 하게 될 것입니다. 전혀 문제 없이 데이터를 분석하고 저장했다면 하둡이라는 것도 필요가 없을 ..
※ 비전공자분들의 눈높이에 맞춰 작성된 글입니다. 들어가기. 하둡을 공부해보기 위해 도커(Docker)를 설치하려고 합니다. 도커를 들어보신 분들도 있을것 같긴 한데, 잘 모르시는 분들을 위해 설명해보자면, 도커는 컴퓨터 안에 있는 컴퓨터라고 생각하시면 됩니다. 가상머신(Virtual Machine)을 다뤄본 분들이라면 쉽게 이해하시겠지만.... IT 전공이 아니시면 위의 글이 무슨 뚱딴지 같은 말이냐 라고 하실것 같습니다. 도커나 가상머신은 우리가 사용하고 있는 컴퓨터 안에 또 다른 컴퓨터 들을 만들어서 어떤 목적으로 사용하고자 하는 것입니다. 예를 들어, 한 사람이 큰 집을 사서 거기서 혼자 살고 있습니다. 그 사람은 돈을 더 벌고 싶은 생각이 들어서 그 집안에 방을 여러개를 만들고 그 방안에 주방과..
표본조사와 전수조사 통계를 돌리기 위해서 데이터가 필요합니다. 아무것도 없이 통계를 돌릴 수는 없죠.. 이를 위해 데이터를 모으게 되는데, 통계를 돌리기 위한 목적에 맞게 데이터를 모으게 됩니다. 먼저, 한 가지 예를 들어보겠습니다. 대학생들의 유학에 대한 관심도에 대한 통계를 돌리기 위해 데이터를 수집한다고 해보겠습니다. 한국의 모든 대학생들을 대상으로 유학에 대한 관심도를 얻으려고 한다면 정확한 결과값을 얻을 수 있겠지만, 많은 인력과 시간이 필요할 것입니다. 이렇게 모든 대학생들을 대상으로 자료를 조사하는 것을 전수조사라고 합니다. 이와는 반대로, 모든 대학생들을 대상으로 하기에는 힘들기 때문에 대학생들 중에 대표적으로 수십~수백 명을 대상으로 조사하는 것을 표본조사라고 합니다. 위의 전수조사처럼 ..
1. 연속형 확률변수 : 취할 수 있는 값의 수가 무한대로 많은 변수를 의미합니다. 좀 더 풀어서 설명하자면 이산형 확률변수는 1,2,3,4와 같이 셀 수 있는 변수를 의미하며, 연속형 확률변수는 1
메인 주제인 이산형확률변수로 들어가기 전에 확률변수를 알아보고 시작 하겠습니다. 확률변수(random variable)는 확률 실험의 결과 또는 결과물에 대한 숫자적 표현입니다. 한 교실 내의 학생수가 30명이 있다고 가정 해보겠습니다. 제비뽑기로 청소 당번을 정할 때 1 ~ 30번 까지의 학생들 중 한명이 나오게 됩니다. 뽑힌 학생이 3번 이라고 할 때, 그 학생의 이름인 김갑돌은 사용 안되고 확률변수의 정의와 같이 결과물에 대한 숫자적 표현인 3번이라고 하게 됩니다. 위의 확률변수는 이산형 확률변수와 연속형 확률변수로 나뉩니다. 이산형 확률변수 이산형 이란 것은 셀 수 있는 것으로서 학점과 같이 유한(finite)개 혹은 셀 수 있는 것을 의미합니다. 학점이 A,B,C,D,E,F만 있다고 할 때 변수..
확률은 0에서 1 사이의 숫자로 연결시키는 함수이며, 그 정의는 여러가지가 될 수 있습니다. 확률은 전통적 접근, 상대적 접근, 주관적 접근에 따라서 정의가 달라집니다. 전통적 접근 - 똑같은 가능성의 사건을 똑같은 확률값을 갖도록 정의. 상대적 비율 접근 - 전체 케이스 중에 특정 케이스가 나온 상대적 비율로 정의. 주관적 접근 - 어떤 사건이 일어날 가능성에 대한 믿음의 정도로 정의. 통계학자들은 빈도론자(상대적 비율 접근), 베이지안(주관적 접근)으로 나뉘어져 있습니다. 이렇게 나뉘어 있어도 정의만 다를 뿐 확률이 집합에 기초한 수학적 체계이므로 통계이론의 전개와 분석에서 근본적인 차이가 있습니다. 조건 확률(Conditional Probability) 확률에는 어떤 상황이 조건으로 걸려 있는 상황..