Hadoop Conference Japan 2013 Winter レポート

こんにちは。
落合です。

遅くなりましたが、
Hadoop Conference Japan 2013 Winter
に参加したので、聞いてきたセッション＋発表したセッションの内容を書きます。

場所：東京ビッグサイト
参加者数：820名

事前予約は1000人を超えていたそうです。
すごい人数ですね。

キーノートの講演は、
・Publickey
・ITpro
・Gihyo.jp
など記事が多数なので割愛して、

3並列のセッションのうち聞いてきたものの内容を書きます。

1. リクルート式Hadoop の使い方 2nd Edition

石川信行さん (リクルートテクノロジーズ)
昨年10月にグループ会社を
7事業会社、3機能会社に再編。
研究拠点としてのリクルートテクノロジーズも強化された。

Hadoopの使いどころとしては、
主にレコメンドで事業の収益向上をさせるために活用している。

「8割の会社が情報活用に失敗する」
と言う調査結果がある中、
リクルートは「ここが生命線」と、力をかけている。

Hadoopの通常利用だけでなく、
　・HBaseのリアルタイムレコメンド
　　→HBase0.9.2 から使えるコプロセッサにも注目
　・Apache Drill, Cloudera Impara 導入の検討中
　　→事業担当者がHiveQLに慣れた今が導入のチャンスと見ている
など、
よりリアルタイム性を追求した、他に先んずるための施策にも取り組んでいる。

2. Introduction to Impala 〜Hadoop用のSQLエンジン〜

小林大輔さん（Cloudera）
川崎さんの代打で、急遽小林さんが登壇。

Hiveと同じクエリ（一部制限あり）を投げると、
高速に処理結果を返してくれるのがImparaである。

C++で実装されており、
MapReduceの機構を使っていない。

Impara は Hiveのメタストアを利用している。

各ノードの
　Query Planer ←Javaで実装（Hiveメタストアにアクセスするため）
　Query Coordinator ←C++で実装
　Query Executer ←C++で実装
が処理を司る。

Hiveと比較したときの制限事項は、
・扱えるクエリの種類が一部制限されていること
・メモリ上で処理して結果を返すため、処理できるデータ量に制限があること
である。

3. Hadoop上の多種多様な処理でPigの活きる道

山下真一さん（NTTデータ）

収集→バッチ処理→レポートの定期出力

からHadoop利用をスタートしたユーザは、
次第に、
収集するデータの種類と量が増え、
複数の分析をしたくなる。

早く結果が欲しくなるため、
MapReduceによるバッチ部分を、
HiveやPigで置き換えて用意に集計処理をするニーズが出てくる。

Pigについては、
UDFの利用で、
MapReduceと同様に分散キャッシュを利用する事ができる。

カウンターも利用可能。

Pigの性能については、
MapReduceを直接書くより遅い場合があるのは事実だが、
バージョンが上がるにつれて改善されてきている。
50%くらいは、MapReduceで書くのと処理時間が変わらない。

開発工数を考えると、
やはりMapReduceを直接書くより高級言語を使った方がよい。

4. Log analysis system with Hadoop in livedoor 2013 Winter

田籠聡さん（NHN Japan）
　この講演は特に面白かったです。
　4世代に渡るHadoopクラスタの進化の歴史が解説されていて、
　どこに苦労したかもよくわかります。
　（何と言っても、これを一人で構築しているのだからすごい。）

livedoor の複数のサービスのログを集めると、
1.5TB/日数十億行のレコードが毎日発生する。

2011年の第一世代Hadoopクラスタから改良を重ねた結果、
今月移行したCDH4.1.2 の第4世代では、
問題点が解消されている。

・Hiveによる処理実行までのタイムラグの解消
　Fluentd を使って、Hadoopにデータを流し込む際に、パーズ処理を終えているので、
　ログ発生後すぐにHiveの処理の対象にすることができる
・リアルタイムに欲しい情報が取れる
　Fluentd を使って、簡単な集計処理は終わらせてしまい、
　4xx, 5xxステータスコードの増加などは、
　リアルタイムにグラフ化し、警告も出す
・クラスタのバージョン変更の影響を最小化
　WebHDFSを使う事により、
　Hadoopのバージョンを意識せずに通信できる。
　また、HTTPFS(Hoop)を使うとそこがSPOFになってしまうが、
　WebHDFSを使う事で回避。
・SPOFの解消
　CDH4にしたことで、NameNodeがSPOFになっている問題が解消された。

これが第4世代の状況。