Rucrazia's Blog

Data Engineering - Hadoop 설치기 본문

기술 - Data Science/Data Science

Data Engineering - Hadoop 설치기

DoyoungJ 2018. 3. 1. 23:10

※ 비전공자분들의 눈높이에 맞춰 작성된 글입니다.

 

들어가기.

바로 전 포스팅에서 저희는 도커(Docker)를 설치 했습니다.

http://rucrazia.tistory.com/53

이제는, Data engineering을 위한 프로그램들을 설치 하려고 합니다.

하둡(Hadoop)은 데이터를 분산 시켜주는 프로그램입니다. 데이터를 한 서버 혹은 컴퓨터에 저장하지 않고 여러 서버, 여러 컴퓨터에 분산 저장 시켜주고, 분산된 데이터를 모아주는 역할도 합니다.

우리는 왜 이렇게 데이터를 여러곳에 놨둬야 하는지를 고민해봐야 합니다. 일반적으로는 하나의 컴퓨터에서 데이터를 저장해놓고 거기서 분석 프로그램까지 돌리는 작업을 하게 될 것입니다. 전혀 문제 없이 데이터를 분석하고 저장했다면 하둡이라는 것도 필요가 없을 것 입니다.

우리의 컴퓨터 용량을 뛰어 넘는 수준의 데이터를 가지게 된다면 데이터를 분산시켜 저장 해야하는 문제가 생길 것 입니다. 특히, 실시간으로 데이터가 초당 수십메가(Mbyte)가 생성이 된다면 금방 우리의 컴퓨터 용량을 다 차지하게 될 것입니다. 그럴 때 데이터를 특정 단위로 쪼개서 수십, 수백, 수천대의 컴퓨터에 저장한다면 한 컴퓨터에 저장되는 해당 데이터는 몇 Kbyte로 줄어들 것입니다.

위에서 저장한 데이터를 쉽게 가져오기 위한 방법도 하둡에 존재하게 됩니다. 하둡의 좋은 점은 아주 비싼 워크스테이션 컴퓨터 한대를 사는 것 대신 다수의 저렴한 컴퓨터들을 여러대 사는 것이 성능면에서도 좋고 유지보수 측면에서도 좋습니다 (워크스테이션 한대만 있다면 그게 망가지면 아무런 작업을 못하겠지만, 다수의 컴퓨터가 있다면 한대가 망가졌다고 해도 다른 컴퓨터들을 이용해서 작업을 할 수 있기 때문에 유지보수 하기 좋습니다. 물론 데이터도 백업을 하는 방식이 있어서 데이터가 날라갈 걱정도 덜합니다.)

 

설치하기.

먼저, 보다 쉽게 하기 위해 docker에서 제공해주는 프로그램인 Kitematic를 설치 해보겠습니다.

아래의 사이트에 들어가시면 "Get Docker Toolbox for Windows" 라는 버튼이 있습니다. 그것을 누르게 되면, 우리가 설치한 윈도우 버전의 Docker에 해당하는 Toolbox를 설치할 수 있습니다. 참고로 Kitematic은 Toolbox에 들어가 있는 프로그램 중에 하나 입니다.

https://docs.docker.com/toolbox/toolbox_install_windows/

설치중에 아래와 같은 이미지가 나와도 겁먹지 마시고 설치 하시면 됩니다 (virtual machine이라는 프로그램을 설치해야 되기 때문에 이런 메시지가 나오게 되는것 입니다).

 

설치가 완료 되면 탐색기에 이런 프로그램들이 나올 것이고, Kitematic을 실행시켜보면 로그인 화면이 나올 것 입니다.

 

아이디랑 비밀번호를 치라고 나와있는데, 가입을 아직 안하셨으면 밑에 Sign Up을 눌러서 가입을 하시거나  https://cloud.docker.com/ 여기서 가입을 하시면 됩니다.

로그인을 하셨으면 위와 같은 화면이 나올 것 입니다. 위의 검색 창에 hadoop이라고 쳐서 하둡이 설치된 container을 가져옵니다(create 버튼). 저는 두번째의 hadoop-docker라는 container를 가져왔습니다.

여기서 container는 하둡과 거기에 필요한 설정들을 모두 해놓은 컴퓨터를 가져온다고 생각하시면 됩니다.

 

 

설치 중엔 위와같은 화면이 뜰 것이고, 정상적으로 설치되고 있는 것을 알 수 있습니다.

참고로 container 이미지에 대한 자세한 정보를 보고 싶으시면 create 버튼 옆의 세개의 점 버튼을 누르면 'View on docker hub'라고 나올 것 입니다. 그것을 누르면 해당 container에 대한 정보를 볼 수 있습니다 (컴퓨터를 사기 위해 해당 컴퓨터의 스펙을 보는 것과 같은 것 입니다.).

설치한 Docker image는 아래와 같은 것을 포함하고 있다고 합니다.

#Apache Hadoop 2.7.0 Docker image

 

설치가 완료되면 화면이 이렇게 바뀌게 될 것입니다. Container가 Running 중이며, 만약 정지하고 싶으시면 Stop을 누르면 됩니다.

그리고 EXEC를 누르면 아래와 같은 화면이 나오게 됩니다. 아래의 화면에서 sh-4.1은 바뀔수 있습니다.

여기에서 이제 Hadoop을 이용해서 데이터 처리 및 저장을 할 수 있습니다.

 

 

 

출처

- https://ahea.wordpress.com/2017/07/18/docker-%EC%97%90%EC%84%9C-hadoop-%EC%9B%8C%EB%93%9C-%EC%B9%B4%EC%9A%B4%ED%8A%B8-%EC%98%88%EC%A0%9C%EB%A5%BC-%EB%8F%8C%EB%A0%A4%EB%B3%B4%EC%9E%90/

- https://docs.docker.com/toolbox/toolbox_install_windows/#step-3-verify-your-installation