Taste of Tech Topics

Acroquest Technology株式会社のエンジニアが書く技術ブログ

Hadoop Conference Japan 2011 Fall に参加しました

Hadoop Conference Japan 2011 Fall に参加したので、
報告を書こうと思います。

これだけのイベントを開催してくださった、
運営のリクルートさん、主催のHadoopユーザ会のみなさんに感謝です。
昨日も深夜まで準備をしていたと聞きました。ありがとうございます。

個人的には、
「帰ってブログを書くまでがカンファレンスです」
という太田さんのコメントが秀逸だったかな、と。

ということで、リンクを貼っておきます:
Hadoop Conference Japan 2011 FALLで使用された資料やつぶやき #hcj11f
Attending Hadoop Conference Japan 2011 Fall in Shinbashi, Bellesalle Shiodome! #hcj11f
Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実

前回(2月)とは違う雰囲気

今回は参加者が300名→1000名と増えたこともありますが、
リクルートさんの運営ということで大分雰囲気が違いました。

・会場を流れる音楽
・スポットライトで壁に映し出される象
・カラフルなステージの照明
・豪華なオープニングムービー

と、さすがリクルートさん。

半数以上の参加者はHadoopを未使用

申込1100名のうち600名はHadoopを未使用、
残りの半分も使い始めてまだ半年以内ということで、
まだまだ「これから」という注目の集まり方のようですね。

Hadoopはまだまだ伸びる!

セッションの内容

私が聞いていたセッションの情報を書いておきます。

10:05〜10:35『The role of the Distribution in the Apache Hadoop Ecosystem』 Cloudera Inc, Todd Lipcon

CDHの説明。
「SCM Express」
を紹介していました。
https://ccp.cloudera.com/display/CDHDOC/Installing+CDH3+with+Service+and+Configuration+Manager+Express+Edition

CDHをウィザードに従ってインストールできるツール。
50ノードまではフリー。
うちの社内ではまだ誰も使ってないはずなので、
今度試してみよう。

10:45〜11:15『About Hortonworks』 Hortonworks, Owen O'Malley

Hortonworks の紹介。
Hortonworks はYahoo!のHadoop部門が2011年6月に独立した組織。
「世界の半分のデータをHadoop上に」というヴィジョンを掲げていました。

内容は、Yahoo!のHadoopに対する取り組みが中心。

Yahoo! は、42,000台のマシンをHadoopに使っており、
それらを1000人を超えるエンジニアが利用しているとのこと。

Yahoo! のApache Hadoop に対する圧倒的なコミット数、つまりHadoopへの貢献度の高さをアピール。
これからもHadoopの進化に対する取り組みを続けていく模様。

11:25〜11:55『How Hadoop needs to evolve and integrate into the enterprise』 MapR Technology Inc, Ted Dunning

MapR は、分散ファイルシステムC++ で実装したもので、
その上でHadoopのMapReduce やHive, Pig, HBase などを動作させる事が可能。

特徴は、

・Hadoopより3〜5倍の処理性能を持つ(Random read/write, MapReduce job)。
 特に、Hadoopが苦手とする「小さいサイズの多数のファイル」の扱いでは圧倒的な差
・NameNodeの冗長化など、SPOFの排除
・MapR fs は、外部のサーバから直接NFSマウントして読み書きすることが可能。
 つまり、Hadoop外のアプリケーション、Webサーバが直接参照可能
(http://www.mapr.com/products)

MapRは、OEM relationship を EMCと結んでおり、「Greenplum HD」の名前で販売します。
今日は、講演したMapRのTed Dunning氏の他に、
EMC Japan のスタッフが会場のカフェスペースでブースを構えていらっしゃったので、ご挨拶しました。

なお、リクルートがGreenplum HDを日本で初めて採用したとのことです。

講演の中で強調していた点は、
「スタートアップ(創業間もないベンチャー企業)と違い、
 成熟企業のIT戦略では過去のIT資産との互換性が重要」
ということ。

MapRを使うと、
レガシーシステムとのシームレスな連携を取る事ができ、
過去のデータをHDFSに"ジャンプ"させる必要がない、と。

12:10〜13:00 ライトニングトーク

DeNA

分析のニーズが増大。
「3日で分析して」等の要望が急増し、人手が足りない。
分析を担当のエンジニア達が引き受けるのではなく
「Hive, Pig を自分で書いて」
と各ゲームの製作部門に投げることに。

そこで現れた問題が、アクセス権限。
例:Aゲーム担当者には、Bゲームの売り上げ情報は見せない

Hueの機能、Hueに追加したプラグイン、
LDAPによるアカウント管理の独自実装によって、
アクセス権限の付与を実現。

なお、Hueのプラグイン作成は、
Python(Django), js, JFrame の知識が必要で、なかなか難しいらしい。

ブレインパッド

パネルログ分析について。

普通のWebログは、
特定サイトのログ、
あるいは、
いくつかのサイトのログを集めたもの。

パネルログは、
「人」の行動ログ。
つまり、
一人の人がどこのサイトからどこのサイトへ行ったか、行動を追うことができる。

ブレインパッドでは、
パネルログの解析をMapReduceで実装している。
複数の処理を1ジョブで実行しているため、HiveやPigは使うことができなかった。

玉川竜司氏

「象本」の翻訳者の方です。
10/1発売予定で、本日の会場で割引先行販売していた
『Hadoop MapReduce デザインパターン』の翻訳者でもあります。

私は玉川さんの話が終わるか終らないかくらいの時間に2Fに駆け上がって、
他の人の分もまとめて『Hadoop MapReduce デザインパターン』を2冊買いました。
そのあとはやっぱり行列が。

13:00〜13:45 『Apache HBase: an Introduction』Cloudera Inc, Todd Lipcon

HBase の紹介。

HBaseの最大データサイズは1PB, 1000ノードまで。
制限と言うより、「これ以上大きなものを見た事がない」ということらしい

ランダム書き込み、ランダム読み込みがないのなら、HDFSを使うべき。

また、
FacebookでのHBaseの利用は、
「一つのクラスタ
ではなくて、
「100台程度のクラスタを複数」
使っているらしい。

13:50〜14:35 『Architectural details and implications of MapR technology』MapR Technology Inc, Ted Dunning

午前の説明の項にこの講演の内容も含めたため省略。

14:40〜15:25 『基幹バッチ処理から見たHadoop』ノーチラス・テクノロジーズ, 神林 飛志

「基幹バッチをHadoopで」
をテーマに、Hadoopによるバッチ処理フレームワーク「Asakusa」普及活動に余念のない、
ノーチラス・テクノロジーズ神林さんの講演。

Hadoopが良く使われるBIツールと、
基幹システムとの違い。

BI 基幹
金額 30M〜100M円 100M円〜1B円 桁が一つ違う
潜在的な案件の数 その差は20倍。市場が大きい
処理内容 単純 複雑 基幹バッチはHiveやPigでは実現不可
開発方式 職人 チーム 50人、100人体制が必要
求められる品質 そこそこ 高い 試験が最重要。工数の7割が試験に当てられることも


(1)西鉄ストア
(2)アンデルセンサービス
(3)名古屋の某流通業者

の事例を紹介。


(1)西鉄ストア
データの総量は100〜500GB。
少ない!
ただし、件数、種類が圧倒的に多い。
中間データの種類は500〜600。

管理会計の方法を、
売価還元法(在庫の棚卸結果と比較。商品カテゴリごとの集計)から、
個別原価法(商品一つ一つの仕入れ値、売価から利益を確定)に変更することは、
集計のコスト(ホストコンピュータを何台も入れなければならない)がかかりすぎることにより、
今まで見送られてきたとのことです。
個別原価法にした場合の計算量は1000倍にも及ぶんだとか。

Hadoopによるバッチ処理でこれを低コスト・短時間で実現できれば、
他の小売業者に与える影響も大きい。

(2)アンデルセンサービス
パンの原価計算に、今までは4時間かかっていたそうです。
それをなんと20分で実現!
(もっと速くなるらしいです)

これにより、
原材料や商品ラインナップの変更に対するシミュレーションが行えるようになりました。
経営に与えるインパクトが大きい。

実現にはAmazon VPC を利用。
Hadoop 環境を自社に構築する手間がいらず、
「SIを劇的に変える」ツール、と神林さん。

Amazon VPC には注目せねば。

(3)名古屋の某流通業者
LSP(レイバースケジュールプラン:人員の配置)をHadoopで実現。
30分に1回データを集める。

データ総量は1〜2GBと少ない。

驚いたことに、
分散しないHadoopということで、スレーブ1ノードで動かしているんだそうです。
その代わり、今後データ量が増えても大丈夫(確実に増える事が見込まれている)。
「備えあれば憂いなし」

そして、注目すべき点:
・基幹バッチは設計が大事
・「人力」をシステム化した処理は、分散が可能。
 元は複数人でやっていた処理をシステムによって効率化したのだから、
 原理的に分散処理が可能なはず
 →10年、20年使われているシステムはほとんどみな対象となる

15:45〜16:30 『NTTデータ流 Hadoop活用のすすめ 〜インフラ構築・運用の勘所〜』NTTデータ, 猿田 浩輔

・マスタノードの可用性向上について
 →従来の技術でOK。Pacemaker(旧 Heartbeat)
・大量サーバの運用効率化
 →PXEブート+Kickstart
  Puppet
  100台のサーバ群の構築に90分、設定変更に3分
クラスタのリソース使用状況監視
 →ガングリアを使う

16:35〜17:20『Hadoop 0.23 and MapReduce v2』HortonWorks, Owen O'Malley

Hadoop 0.23 の目指すものについて。

HDFS Federation でNameNodeを複数にする。

従来のJobTrackerは、
  - 4,000ノードまで
  - 40,000 concurrent tasks
  - Wire compatibility の問題(バージョンが違うと動かない)
  - Iterative Application が10倍遅い(K-Means, PageRankなど)
 これを、
  - 6,000から10,000ノードまでを可能に
  - 100,000 concurrent tasks, 10,000 concurrent jobs を実現
  - Wire compatibility の解消
  - MapReduce 以外の programming paradigms をサポート
 とする。
キーワードは、
Resource Management, Application life-cycle management の分離。

17:25〜18:10 『MapReduceによる大規模データ処理 at Yahoo! JAPAN』ヤフー, 角田 直行 吉田 一星

Yahoo! JAPAN のHadoop利用事例における、
MapReduceプログラミングの手法について。

(1)地図の緯度・経度情報と、住所とを結びつける処理
(2)Web検索のための indexing
(3)機械学習によるページのランキング

@IT に連載あり
http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm02/01.html


Hadoopの今後にさらに期待ですね!
それでは。