Pig の導入

前回、分散処理技術 Hadoop
で hadoop をインストールし
パスフレーズなしのSSHでSSH公開鍵認証で
ログインできるようになったので、今度は
Pig をインストールします
Pig は。大容量データの集計処理などに使うようです
Pig の使用例としては
米Yahoo! がログデータ解析に使ったということがあるようです
ほかにも、Pig の使用例を調べると
いろいろとでてきそうです
それでは、インストール開始です
今回もダウンロードの手間を省くため
日経 Linux 2011-05 の付録DVDに収録されているものを使います
cp /media/LIN201105/article/rensai_pighive/pig-0.8.0.tar.gz $HOME
でファイルをコピー
sudo tar zxvf pig-0.8.0.tar.gz -C /opt/
で/opt へディレクトリ展開
作業効率化のため
cd /opt
sudo ln -s ./pig-0.8.0 pig
でシンボリックリンク作成
環境変数の追加のため
vi $HOME/.bashrc
でファイルを開き
最終行へ
export PIG_INSTALL=/opt/pig/
export PIG_CLASSPATH=/opt/hadoop/conf/
export PATH=$PIG_INSTALL/bin:$PATH
を追記
設定内容を反映するために
source $HOME/.bashrc
を実行
ここまでで、Pig の準備完了です
続いて、データ処理の実験のためのファイルをダウンロードします
http://131.193.40.52/data/
へアクセスし、
reviewsNew.rar
というファイルをダウンロードします
容量は約1.7GB あるので、続きは明日以降になります

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です