「RDBMSだけではない最新テクノロジーとそのユースケースを学ぶ」――JDMCは2016年1月28日、第32回目となる定例セミナーを開催した(場所はインプレス・セミナールーム)。タイトルから推察できる通り、HadoopやNoSQL DBに焦点を合わせたもの。これらは着実に普及しているとはいえ、一般企業のデータマネジメント責任者/担当者から見れば、まだ敷居が高い技術である。なぜ今このテーマなのか?
JDMCセミナー部会メンバー 三原氏(MapR Technologies)は冒頭で、次のように説明した。「モバイル、IoTなどが大きな関心事になっている。それらが生み出すデータは膨大であり、特に分析業務の領域ではすべてをRDBで構築することはコスト、データ種類、処理時間の面で現実的ではないことは皆さんがご承知の通り。近年Hadoopが脚光を浴びているのは、ビジネスニーズを考えると自然なことだ。最近ではバッチ処理やインタラクティブなシステムでの活用にもHadoopの利用が拡大し始めている。NoSQLも同じである。RDBのロックやロールバックなどの機能がないか不十分だが、性能は桁違いに速い。これらのことから、いずれもRDBを補完するテクノロジーであり、データマネジメントに携わる方々が理解し、適材適所で利用することが大事になっている」。
今日のビジネスニーズ、データ爆発とも言えるデータ量の急増、データの種類や特性に応じた処理・・・。こういった様々な要件を考慮すると知らない、出来ないでは済まされないというわけだ。早速、講演内容を紹介しよう。
◇◇◇
データ活用の武器、「SQL on Hadoop」
1つ目の講演では、クリエーションライン シニアコンサルタント 木内氏が「データ活用の新しいテクノロジー SQL on Hadoopとは?」と題して講演した。なおクリエーションラインはクラウドなど最新技術に特化したインテグレータ、コンサル担当会社である。
木内氏によると、ネット系に限らず、一般企業でもRDB以外のDBMSが使われ始めている。これは非構造化データ(メール、文書、画像、SNSなど)の利用が拡大しているためで、市場シェアを見るとNoSQLの中でもMongoDBの利用が増えているとのこと。
一方、複数のデータ永続的に管理・処理する「Polyglot Persistence」という考え方があると話す(Polygoltは「多言語を操れる人」)。これに基づくと、透過的に多種多様なデータにアクセスできることが重要であり、HadoopやNoSQLにもRDBと同様にアクセスできることが重要になる。そこにSQLという広く定着した言語を使ってHadoopを操作するSQL on Hadoopの必要性が出てくるという。これが本講演のメインテーマである。
システム技術的には、Hadoop上にRDBを構築するものと、SQLを使ってHadoopのファイルにアクセスするものの2つがある。すでに関連ソフトウェアや技術は多く存在しており、これらを理解し利用することでビッグデータを扱うことが容易になる。
このほか、Spark、Drillなど最新のテクノロジーに言及。それらがどんな領域で利用されているのか、課題は何かなどについても、コメントがあった。
◇◇◇
サイバーエージェントが自社の事例を発表
2つ目の講演は、サイバーエージェント アドテク本部 技術戦略室 マネージャの鷹雄 健氏。「NoSQLやHadoopの最新活用事例」というテーマだった。アドテクとは、いうまでもなくアド(広告)+テクノロジー(技術)の造語である。広告主とユーザの間には数多くのアドテクが関与するが、鷹雄氏は特にHadoopに焦点を当てて解説した。
題材は10PB(ペタバイト)、レスポンス性能5msのデータ基盤を2ヶ月で作るプロジェクトである。HadoopをAmazon EC2 の仮想サーバ で稼働させる構成を机上で料金算出したところ、毎月3.3億円必要となり、断念せざるを得なかった。そこでオンプレミスでMAPRを選択し構築することにした。結果、DWHとの連携を例にすると、従来1TBのデータをDWHにロードするには何時間も必要であったが、これを30分でロードすることができたという。分析の精度や頻度を高められ、広告効果を向上できるなどビジネス面でプラスの効果を生んでいるという。
また、サイバーエージェント アドテク本部 チーフエンジニア 神田 勝規氏によればSparkにより集計・レポート・ETL・分析・予測での利用、オンプレミスとクラウドの両方を利用したシステム例を紹介した。アドホック分析のニーズは多く、その際には人間の(根拠のある)直観が案外正しいことが多いらしい。このため思い立った分析のフィーリングが無くならない10分以内に結果を見ることを大事にしているという。
今後2つのことにチャレンジしたいという。1つはETLの観点。分析システムではETLが重要であり、例えばデータフォーマット担当者が関係者に通知することなく変更することによりETL処理が異常終了するということを、データフォーマットのメタデータをきちんと管理することで解決したいと考えている。もう一つは、データ転送の処理時間、データ保管場所、コストを考慮し、なるべくシステム間でのコピーが発生しないようなシステム構成を考えているという。目的に応じて複数のシステムを組み合わせることで最適なパフォーマンスに近づけられると考えている。
◇◇◇
講演を通じ、データ活用、データ分析に関係する最新テクノロジーを学ぶということができたと思う。技術よりの難しい話も出たが、多くの質疑応答により会場の退出時間ぎりぎりまで続いたことからも聴講者の関心の高さがうかがえた。JDMCとしては本セミナーにより、最新技術を知って頂くことで業務部門の方には最適なシステムの利用、情報システム部門の方には最適なシステム構築に役立てて頂ければ幸いである。(セミナー部会・濱田 光保)
関連サイト
・第32回定例セミナー案内