日本データマネージメント・コンソーシアム

レポート

第16回JDMC定例セミナー報告

2013年4月25日、第16回JDMC定例セミナーが日本記者クラブで開かれた。講演に先駆けて2つの研究会(テーマ4・5)から活動報告がなされた。テーマ4「顧客獲得、顧客サービス強化のためのデータ活用研究」(2013年度よりテーマ6「顧客行動分析による新たなマーケティングアプローチとは」として活動)の報告では、リーダーの山内康志氏から、顧客獲得のカギとなるデータ利用の留意点が紹介された。続いて、テーマ5「最新技術の研究と実現アプローチ法の構築」(2013年度よりテーマ2「最新技術の研究と適用事例の考察」として活動)の報告では、メンバーの國正興一氏がインメモリー・データベース製品の動向を取り上げた。

講演では、NTTデータ 基盤システム事業本部システム方式技術ビジネスユニット 課長の立石良幾氏、課長代理の菊池洋光氏が登壇した。分散配置された大規模データを効率良く処理できるHadoopのメカニズムや、内包される各コンポーネントの役割、それらの特徴を生かしたデータ分析など、同技術のビジネスにおける活用ポイントを説明した。


 

◆JDMC研究会報告&質疑
テーマ4「顧客獲得、顧客サービス強化のためのデータ活用研究」

<研究会リーダー>
山内康志
楽天株式会社
パーソナライズプラットフォーム開発G
スーパーDBプラットフォーム開発チームリーダー

新規の顧客獲得だけでなく、既存顧客の離反を防ぎ、そこから多くの優良顧客を育てることがB2Cビジネス成長のカギとなる。同研究会では、B2CビジネスにおけるPOSデータやWebデータの活用について、企業各社の事例や取り組みで顕著な特徴などを調査してきた。

「主に研究メンバーが所属する企業の事例において、顧客データをどのように“おもてなし”に活用しているのか、活発な情報・意見交換を行った。そして具体例に基づいて顧客とのタッチポイントおよびデータ活用の全体像を定義していった」と山内氏は活動を振り返る。

研究の一環で、同研究会は、企業における情報利活用を推進するファクターについても分析を試みた。山内氏が所属する楽天の事例などを整理したところ、社員がデータを取り扱う環境整備のみならず、リテラシーの高さ、ツール環境、そして企業風土が大きな要因にあることが浮き彫りになった。

同研究会は、2013年度もケース研究という位置づけで活動を継続する。「調査内容の精度を高めながら、顧客データ活用について、定点観測を続けていく」(山内氏)。
顧客の獲得や顧客サービスの向上には、“データの活用や、その元となるデータを正しく運用するノウハウ”を常にスパイラルアップできる体制が求められる。その活動は、組織内での教育、必要な技術の選定・調達、ソースデータの収集・品質維持、プロジェクトの効果測定などの多様な側面から成り立つものだ。

山内氏によれば、そうした各側面において、データを活用する組織を巻き込む仕掛けや、スキル・ノウハウ向上のあり方を、2013年度以降もさらに深掘りしていく方針だという。「メンバー各自が持ち寄った課題に対して多様な意見やアドバイスを得られる相談の場としても本研究会を活用してほしい」と山内氏は研究会への参加を呼びかけた。

テーマ5「最新技術の研究と実現アプローチ法の構築」

<研究会メンバー>
國正興一
有限会社ベルウェザー
取締役社長

テーマ5「最新技術の研究と実現アプローチ法の構築」では、データに関わる最新技術の動向、企業における採用状況、適用効果を研究している。対象技術は、インメモリー・データベース(In-Memory DB)、データウェアハウス・アプライアンス、BI、データ仮想化技術、NoSQL/データグリッド、ソフトウェア・デファインド・ストレージなど多岐にわたっている。

報告では、高いデータ処理性能を発揮するインメモリーDBとして、「SAP HANA」と「NEC InfoFrame Data Booster」の両製品を取り上げた。メモリーストレージ処理方式は、回転する磁気ディスクを利用した既存のストレージ処理方式と比較して、データの読み書きに要する時間が圧倒的に短い。さらに、両製品ともカラム(項目)辞書方式を用いることで、SortやJoinといったデータの制御・操作においては従来のRDB方式のインメモリー方式比べて性能比で 50倍以上の開きが生じるという。Discベースとの比較では1000倍以上の性能差となる。近年は、1TBのメモリーを搭載したサーバーが1千万円規模の価格で販売されている。仮にPOSデータの取引明細一件分の容量を50バイトとし、それを約3分の1に圧縮をかけると想定すれば、600億明細が1TBのメモリー上で処理できる計算だ。

「両製品はまだ進化の途上にあるとはいえ、CPUのマルチコア化、キャッシュメモリーの大容量化、バスの高速化が進んだ、インメモリーDB向けの安価な高性能サーバーが市場にそろいつつある。中期的に見れば、情報処理システムのデータ処理に関して、大きなパラダイムシフトを起こしていく技術となるだろう」と國正氏は述べた。なお同研究会は、今年度は2013年度より、テーマ2「最新技術の研究と適用事例の考察」という名称になり、勉強会のスタイルで研究が継続される。

◆講演「Hadoopのビジネス活用事例」

立石良幾氏
株式会社NTTデータ
基盤システム事業本部
システム方式技術ビジネスユニット 課長

菊池洋光氏
株式会社NTTデータ
基盤システム事業本部
システム方式技術ビジネスユニット 課長代理

NTTデータでは、研究開発・SIビジネスで培ってきた知識と人材をベースに、Linux/OSSを活用した業務システムの構築・運用サポートサービスを展開している。その中で本講演のテーマであるオープンソースの分散処理フレームワーク「Hadoop」については、システムのスケーラビリティ向上に資する中核技術として、2008年から技術整備と人材育成に注力してきた。
「扱うデータのサイズとスコープがあまりに“ビッグ”(大容量・大件数)であるがゆえに、従来のITアーキテクチャでは困難、もしくは極めて高いコストでしか実現し得なかったビッグデータ活用を可能にする技術だ」と、立石氏はHadoopの位置づけを説明する。

「ある小売業では、膨大な数の顧客の購買行動をHadoopによって分析し、属性別の行動パターンを浮き彫りにすることで、ニーズを先取りすることに成功している」(立石氏)。次に、立石氏と菊池氏は、Hadoopが購買履歴などの大規模なデータを、どのようにしてハンドリングしているのか、そのメカニズムについて説明を加えた。

Hadoopの技術面での源流は、グーグルが自社の検索サービス用に開発した大規模データ分散処理の基盤技術にある。この基盤技術は、分散ファイルシステム(Google File System:GFS)、分散処理フレームワーク(MapReduce)、キー・バリュー型データストア(Big Table)というコンポーネントをコアに構成されている。この基盤技術に関する論文を参考にして米ヤフー・リサーチのDoug Cutting氏がJavaを用いてオープンソース版クローンを開発した。それがHadoopである(現在は、Apacheソフトウェア財団の開発プロジェクトに帰属している)。

Hadoopは、Googleの基盤技術に対応する形で、Hadoop Data File System(HDFS)、MapReduceといったコンポーネントから構成されている。さらに、SQLライクな言語で MapReduceを実行するHiveや、データの追記・少量データの取り扱いを簡素化するカラム指向型キー・バリュー・ストアHBaseといった周辺ツールが、Apacheの開発者コミュニティを通じて拡充されている。

Hadoopでは、大規模なデータが保存されたファイルを並列処理に適したサイズに分割し、前もって複数のスレーブサーバに分散配置しておく。データの管理、すなわちジョブの分散処理や、データの分散保存位置といったメタデータを保持する役割はマスタサーバ側に集中している。一方、処理の実行やデータ実体の保存は、スレーブサーバ側で行う。さらに、データの複製を複数のスレーブサーバに分散配置することにより、スレーブサーバ障害時のデータ喪失リスクを回避している。また、スレーブサーバを数千台規模へと増強するスケールアウト型拡張により、全体の処理性能を引き上げることが可能だ。

「Hadoopは、構造化データのみならず、準定型データ (非構造データ) にも対応する。また、既存のRDBでは、データの重複を避けるための正規化を行うが、Hadoopではデータを非正規化して並列処理することで処理のスループットを高めている。さらにRDBではデータの意味づけが格納時点で必要になる(スキーマ定義が必要になる)が、Hadoopではデータの利用時に意味づけして処理することができる。そのため、RDBに比べると、データ構造の変化に対して柔軟に対応することができる」(菊池氏)。

現在、Hadoopは、金融、通信、流通といった世界トップクラスの主要企業で幅広く活用されている。たとえば、GE(General Electric)では、TwitterやFacebook、ブログといったソーシャルメディアからデータを蓄積し、顧客の感性分析を行っている。従来、RDBで42時間かかっていた処理をHadoopで48分ほどに短縮し、ビジネス機会損失の低減や迅速なインシデント対応が可能となった

「Hadoopの利用は、ログ解析やレコメンデーションエンジン、検索エンジンなどでの活用が主体だ。ただし、全データの走査・加工を要する大容量バッチの高スループット化や、大規模データ分析での活用を目的に、その他の領域でも利用が拡がっている。このことは、当社の事例からも伺える」と立石氏は述べた。

いまや広く認知されるに至ったHadoopだが、重要なのはもちろん「ビジネスでいかに使いこなせるか」である。各テーブルでのグループ討議と会場全体での質疑応答でも実務に踏み込んだ意見や質問が交わされた。ビジネス要件と絡めて分散処理基盤を支える技術、各コンポーネントの役割を解説する講師の姿が、NTTデータがこの分野において蓄積してきたノウハウと人材の厚さを物語っていた。

(文責・柏崎吉一/エクリュ)

RELATED

PAGE TOP