1) 필요한 소프트웨어
① Hadoop은 Java로 작성되었기 때문에 Java 버전 6이상이 필요하다. Java는 http://java.sun.com/에서 다운받아서 설치할 수 있다.
② Hadoop은 3가지 실행 모드가 존재하는데 독립 실행 모드를 제외하면 모두 SSH를 사용한다. 우분투에서는 다음과 같이 SSH를 설치할 수 있다.
% sudo apt-get install ssh
2) Hadoop 설치
① Hadoop을 설치하기 위해서는 hadoop release 페이지에서 배포판을 다운로드하여야 한다.. http://hadoop.apache.org/common/releases.html에서 하둡을 다운로드 한다. 최신버전인 0.20.2버전을 다운 받도록 한다.
② 다운받은 하둡의 압축을 해제한다.
% tar xzf hadoop-x.y.z.tar.gz
③ 하둡을 사용하기 위해서는 자바의 설치 경로를 명시할 필요가 있다. JAVA_HOME 환경변수가 설정되어 있다면 그대로 사용하면 되고 그렇지 않다면 conf/hadoop-env.sh를 수정하고 JAVA_HOME변수를 명시하면 된다. 우분투에서는 다음과 같이 작성한다.
% export JAVA_HOME=/usr/lib/vjm/java-6-sun
④ Hadoop을 설치한 디렉터리를 가리키는 환경변수를 생성하고 명령행으로 경로를 포함한다.
% export HADOOP_INSTALL=/(하둡 설치경로)
% export PATH=$PATH:$HADOOP_INSTALL/bin
⑤ 하둡이 동작하는지 확인한다. 설치가 제대로 되었다면 version정보가 나타난다.
% hadoop version
3) Hadoop 환경설정
① Hadoop은 아래와 같은 3가지 실행 모드가 있다.
Standalone Mode |
데몬 프로세스가 동작하지 않고 단독 JVM 내에서 동작한다. 테스트와 디버깅이 쉽기 때문에 개발용 사용한다. |
Pseudo-Distributed Mode |
데몬 프로세스가 로컬컴퓨터에서 동작한다. 소규모 클러스터를 시뮬레이트할 수 있다. |
Fully-Distributed Mode |
데몬 프로세스가 다수의 컴퓨터로 구성된 그룹 상에서 동작한다. 실제 사용 방법이다. |
② Hadoop의 실행모드는 core, HDFS(Hadoop Distributed Filesystem), 맵리듀스의 속성에 의해 결정되며, 각각 conf 디렉터리에 있는 core-site.xml, hdfs-site.xml, mapred-site.xml을 통해 설정 할 수 있다.
Component |
Property |
Standalone |
Pseudo-distributed |
Fully distributed |
Core |
fs.default.name |
file:///(default) |
hdfs://localhost/ |
hdfs://namenode/ |
HDFS |
dfs.replication |
N/A |
1 |
3(default) |
MapReduce |
mapred.jop.tracker |
local(default) |
localhost:8021 |
jobtracker:8021 |
③ 독립 실행 모드 (Standalone Mode)
l 설치 후 기본 설정이 독립 실행모드로 맞춰져 있기 때문에 별다른 설정이 필요하지 않는다.
④ 의사 분산 모드 (Pseudo-Distributed Mode)
l Hadoop 설정 : Pseudo-Distributed Mode에서는 설정 파일들을 아래와 같이 바꿔주면 된다.
가 conf/core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration> |
나 conf/hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> |
다 conf/mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration> |
l SSH 설정 : Pseudo-Distributed Mode는 데몬 프로세스를 실행하기 때문에 SSH가 설치되어 있어야 한다. 로컬호스트에 암호 없이 로그인 할 수 있도록 SSH키를 생성한다.
% ssh-keygen –t rsa –P ‘’ –f ~/.ssh/id_rsa
% cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
l HDFS 포멧팅
가 HDFS 설치를 위해 포멧팅이 필요하다. 포멧팅 과정은 저장소의 디렉터리와 네임노드의 데이터 구조체의 초기 버전을 생성하여 빈 파일 시스템을 만들어낸다.
% hadoop namenode –format
l 데몬 프로세스 실행
가 데몬 프로세스는 아래와 같이 실행한다.
% start-all.sh
l 데몬 프로세스 확인
가 로그파일 : 하둡 설치 디렉터리의 logs에 있는 로그파일을 통해 알 수 있다.
나 UI : 잡트래커의 경우 http://localhost:50030/에서 네임노드의 경우 http://localhost:50070/에서 확인 할 수 있다.
l 데몬 프로세스 중지
가 데몬 프로세스는 아래와 같이 중지한다.
% stop-all.sh