2016年9月20日火曜日

Hadoop クラスタ管理ツール ambari を試す

ambariを使ったhadoopクラスタ構築は、1からHadoopクラスタを構築するよりもかなり楽ですが、実際には色々とハマリどころがあります。ネット上に情報も少ないので、意外と手間取ります。

Hadoopクラスタ管理ツールのAmbariをGCPで試す場合、最もおすすめの方法は、bdutilです。

HORTONWORKSとGCP謹製のambari構築用エクステンションが用意されています。

GCPを日常的に使っている方ならば、ごく簡単にambariを試すことができます。

bdutil HDP

手順

基本は、上記の通りですが、いろいろと説明が含まれてるので、手順をまとめます。

  1. projectIdをセットする

    gcloud config set project ${projectId}
  2. Storageでバケットを作る

    gsutil mb -p ${projectId} gs://${bucketName}
  3. bdutilをクローンする

    git clone https://github.com/GoogleCloudPlatform/bdutil
    cd bdutil
  4. バケットを以下のように設定します

    grep BUCKET= bdutil_env.sh
    CONFIGBUCKET=${bucketName}
    
  5. ambari.confを確認する
    ambari.conf

    # チェックすべき箇所は、ワーカー数(+1マスターが立ち上がる)と、マシンタイプです。
    デフォルトで起動すると、月間110ドル程度のインスタンスが5個立ち上がります。
    NUM_WORKERS=4 
    GCE_MACHINE_TYPE='n1-standard-4'
  6. deployする

    # bdutil以下で。
    ./bdutil -e ambari deploy
  7. SSHトンネルを設定する

    gcloud compute config-ssh
    ssh -L 8080:127.0.0.1:8080 hadoop-m
  8. 管理画面にアクセスする

    open http://localhost:8080/
  9. インスタンスにアクセスする

    gcloud compute ssh hadoop-m
    # ここでHadoopクラスタを使うことができます
  10. deleteする

    # bdutil以下で。
    ./bdutil -e ambari delete

公式ambari をDebian 8に入れる時に

ambari 2.2.2 install ambari 2.2.2 は、Debian7のリポジトリしか載っていませんが、Debian8でもそのままインストールできます。

BigQueryや、トレジャーデータなど、フルマネージドのサービスでは、ニーズに合わないということで、自前のクラスタを立ち上げる場合に、このような管理ツールはかなり役立ちます。

0 件のコメント:

コメントを投稿