引き続き、Pig の実験です
続いて、データ処理の実験のためのファイルをダウンロードします
http://131.193.40.52/data/
へアクセスし、
reviewsNew.rar
というファイルをダウンロードします
このファイルは。
.rar という形式なので、解凍するために
sudo apt-get -y install unrar
で必要なソフトをインストールします
解凍するには
unrar e reviewsNew.rar
を実行します
続いて解析の準備です
まず
hadoop dfs -mkdir amazon
hadoop dfs -copyFromLocal reviewsNew.txt amazon
を実行し
pig
で起動し、無事に起動成功すると
grunt>
という端末になります
本来、JobTracker へのアクセス成功などのメッセージが
でるようですが、なぜかこのあたりはエラーになりました
とりあえず、今回の実験では問題がなかったのですが
残念ながら、次の実験には使えませんでした
とりあえず、今回のログをメモしてみました
A = LOAD ‘amazon/reviewsNew,txt’;
A = LOAD ‘amazon/reviewsNew.txt’ as(mem_id:chararray,pro_id:chararray,date:chararray,
date:chararray,num_hf:int,num_f:int,
rating:double,title:chararray,body:chararray);
AG = GROUP A ALL;
A2 = FOREACH AG GENERATE COUNT(A),AVG(A.rating),MAX(A.rating),MIN(A.rating);
DUMP A2;
を実行すると
データ集計ができます
今回の設定は、ソースから行っていますが、
ubuntu の場合、apt-get でインストール、設定が可能のようです
[Hadoop][Pig]Pigのインストール
1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)
を参考に、一度 apt-get で環境を構築してみます