2010. 11. 29. 19:02

Hadoop 설치

1)    필요한 소프트웨어

    HadoopJava로 작성되었기 때문에 Java 버전 6이상이 필요하다. Java http://java.sun.com/에서 다운받아서 설치할 수 있다.

 

    Hadoop 3가지 실행 모드가 존재하는데 독립 실행 모드를 제외하면 모두 SSH를 사용한다. 우분투에서는 다음과 같이 SSH를 설치할 수 있다.
% sudo apt-get install ssh

 

2)    Hadoop 설치

    Hadoop을 설치하기 위해서는 hadoop release 페이지에서 배포판을 다운로드하여야 한다.. http://hadoop.apache.org/common/releases.html에서 하둡을 다운로드 한다. 최신버전인 0.20.2버전을 다운 받도록 한다.

 

    다운받은 하둡의 압축을 해제한다.
 % tar xzf hadoop-x.y.z.tar.gz

 

    하둡을 사용하기 위해서는 자바의 설치 경로를 명시할 필요가 있다. JAVA_HOME 환경변수가 설정되어 있다면 그대로 사용하면 되고 그렇지 않다면 conf/hadoop-env.sh를 수정하고 JAVA_HOME변수를 명시하면 된다. 우분투에서는 다음과 같이 작성한다.
% export JAVA_HOME=/usr/lib/vjm/java-6-sun

 

    Hadoop을 설치한 디렉터리를 가리키는 환경변수를 생성하고 명령행으로 경로를 포함한다.
% export HADOOP_INSTALL=/(
하둡 설치경로)

% export PATH=$PATH:$HADOOP_INSTALL/bin

 

    하둡이 동작하는지 확인한다. 설치가 제대로 되었다면 version정보가 나타난다.
% hadoop version

 

 

 

 

 

 

 

 

3)    Hadoop 환경설정

    Hadoop은 아래와 같은 3가지 실행 모드가 있다.

 

Standalone Mode

데몬 프로세스가 동작하지 않고 단독 JVM 내에서 동작한다. 테스트와 디버깅이 쉽기 때문에 개발용 사용한다.

Pseudo-Distributed Mode

데몬 프로세스가 로컬컴퓨터에서 동작한다. 소규모 클러스터를 시뮬레이트할 수 있다.

Fully-Distributed Mode

데몬 프로세스가 다수의 컴퓨터로 구성된 그룹 상에서 동작한다. 실제 사용 방법이다.

 

    Hadoop의 실행모드는 core, HDFS(Hadoop Distributed Filesystem), 맵리듀스의 속성에 의해 결정되며, 각각 conf 디렉터리에 있는 core-site.xml, hdfs-site.xml, mapred-site.xml을 통해 설정 할 수 있다.

 

Component

Property

Standalone

Pseudo-distributed

Fully

distributed

Core

fs.default.name

file:///(default)

hdfs://localhost/

hdfs://namenode/

HDFS

dfs.replication

N/A

1

3(default)

MapReduce

mapred.jop.tracker

local(default)

localhost:8021

jobtracker:8021

 

 

 

    독립 실행 모드 (Standalone Mode)

l  설치 후 기본 설정이 독립 실행모드로 맞춰져 있기 때문에 별다른 설정이 필요하지 않는다.

 

    의사 분산 모드 (Pseudo-Distributed Mode)

l  Hadoop 설정 : Pseudo-Distributed Mode에서는 설정 파일들을 아래와 같이 바꿔주면 된다.

 

    conf/core-site.xml

<configuration>

<property>

<name>fs.default.name</name> <value>hdfs://localhost:9000</value>

</property>

</configuration>

 

    conf/hdfs-site.xml

<configuration>

<property>

  <name>dfs.replication</name>

<value>1</value>

 </property>

</configuration>

 

    conf/mapred-site.xml

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

l  SSH 설정 : Pseudo-Distributed Mode는 데몬 프로세스를 실행하기 때문에 SSH가 설치되어 있어야 한다. 로컬호스트에 암호 없이 로그인 할 수 있도록 SSH키를 생성한다.

% ssh-keygen –t rsa –P ‘’ –f ~/.ssh/id_rsa

% cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

 

l  HDFS 포멧팅

    HDFS 설치를 위해 포멧팅이 필요하다. 포멧팅 과정은 저장소의 디렉터리와 네임노드의 데이터 구조체의 초기 버전을 생성하여 빈 파일 시스템을 만들어낸다.

% hadoop namenode –format

 

l  데몬 프로세스 실행

    데몬 프로세스는 아래와 같이 실행한다.
% start-all.sh

 

l  데몬 프로세스 확인

    로그파일 : 하둡 설치 디렉터리의 logs에 있는 로그파일을 통해 알 수 있다.

 

    UI : 잡트래커의 경우 http://localhost:50030/에서 네임노드의 경우 http://localhost:50070/에서 확인 할 수 있다.

 

l  데몬 프로세스 중지

    데몬 프로세스는 아래와 같이 중지한다.
% stop-all.sh

[출처] Hadoop 설치|작성자 간단