雑多もんだ

技術的なことをメインに書くつもり

Fedora19にCDH4をインストールする

hadoopディストリビューションの1つであるCDH(Cloudera's Distribution Including Apache Hadoop)をFedora19(64bit)にインストールするまでの手順

1. java のバージョンを確認
[ishisak@fedora ~]$ java -version
java version "1.7.0_45"
OpenJDK Runtime Environment (fedora-2.4.3.0.fc19-x86_64 u45-b15)
OpenJDK 64-Bit Server VM (build 24.45-b08, mixed mode)

別途入手しなくてもFedora19はデフォルトでインストールされているはず

2. CDH4のパッケージを入手

以下のページから "1-click Install" packageを取得して、ローカルに保存
(今回の場合、Red Hat/CentOS/Oracle 6 link (64-bit))
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_4_4.html

3. ダウンロードしたrpm をインストール
[ishisak@fedora ~]$ sudo yum --nogpgcheck localinstall cloudera-cdh-4-0.x86_64.rpm 
4. 確認
[ishisak@fedora ~]$ rpm -ql cloudera-cdh
/etc/pki/rpm-gpg
/etc/pki/rpm-gpg/RPM-GPG-KEY-cloudera
/etc/yum.repos.d/cloudera-cdh4.repo
/usr/share/doc/cloudera-cdh-4
/usr/share/doc/cloudera-cdh-4/LICENSE
5. もろもろインストール
[ishisak@fedora ~]$ sudo yum install hadoop-0.20-conf-pseudo

このパッケージをインストールに指定すれば
依存関係の解決のためにもろもろインストールされる。

一部抜粋

Installing for dependencies:
 hadoop
 hadoop-0.20-mapreduce
 hadoop-0.20-mapreduce-jobtracker
 hadoop-0.20-mapreduce-tasktracker
 hadoop-hdfs
 hadoop-hdfs-datanode
 hadoop-hdfs-namenode
 hadoop-hdfs-secondarynamenode

など

6.確認
[ishisak@fedora ~]$ hadoop version
Hadoop 2.0.0-cdh4.5.0

CDHをインストールするとhdfsユーザとmapredユーザが作成されているはず。

/etc/passwd を確認

以上