JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。
今回、バトンを受け取ったのは、NECソリューションイノベータの重松宏幸さんです。
データ分析の現場で得た『データマネジメント3つの心得』
JDMCらしいコラムとなるよう、「データマネジメント」に関するつたない経験を書かせていただきます。
弊社NECソリューションイノベータでは、ビッグデータ活用をお客様にとっての価値に結びつけやすくするために、ビッグデータに関するさまざまな事業を1つの事業体でまとめて対応する体制を取っています。この事業体では、データから価値を探索するためのコンサルティングや、実際のデータ分析を経て、価値を継続して生み出すためのシステムの構築、そのシステムのためのさまざまな製品やサービスの提供まで行っています。
今回書かせていただくのは実際のデータ分析での経験です。データをお持ちのお客様から、「データ分析によって価値を見出したい」というご要望をいただいたとき、あらかじめ以下の点をご理解いただく必要があります。それは、「お預かりしたデータの『状態』にはお客様の想定外の『状態』もあり得るため、クレンジングに時間がかかったり、望む分析ができなかったりすることもある」ということです。具体的な例を説明します。
(1)データは正確とは限らない
金融機関での取引データをもとに給与額を算定しようとしたとき、給与振込を示すコードと、「摘要」の情報にある「キュウヨフリコミ」、「キュウフリ」「給与」などをまとめなければ正確なデータは取れません。
(2)データは画一的に解釈することはできない
年収と月収の関係を考えるとき、同じ年収でも月によって収入が大きく異なる場合があります。自営業でなくサラリーマンであっても残業代が計上される月とか特別な報償がある月等で「ブレ」は生じます。これを「賞与を除く収入が600万なら月平均50万の収入があるはずで、だから……」と解釈しようとすると見誤ります。
また、別の例ですが、消費税の増税の前後では「費用」「金額」が変わります。このタイミング前後のデータを同じに解釈することはできません。
(3)データ量は「ビッグ」でない場合もある
お客様が「10年分のビッグデータがあるので十分に分析に値するはず」と思っていらしても、そのデータから特定の商品の「優良顧客」を抽出し、その顧客の初期契約後2年分の行動を分析したいと考えたとき、実はその商品は3年前から販売したものだった――そのようなケースでは分析に使えるデータはたかだか1年分しか存在しません。
これら3点の問題は、データマネジメントの重要性をご存じであれば当たり前のことですが、ご存じでないお客様にはデータ分析の前にきちんと納得していただく必要があります。(1)の正確性や(2)の解釈性については、データのクレンジング等で対処できますが、(3)のデータ量の問題でデータ分析ができないようなケースは深刻で、データを追加したり分析対象を変更したりする必要があるため、事前にそのような可能性を合意することが重要なのです。
これらのデータマネジメント上の問題に、現場で突貫対応しなくて済むよう、我々がデータ分析を行う場合は、データ分析に先立って、データ観察と基礎的な見える化に時間をかけることをお勧めしています。
データ分析は、焦らず、じっくり取り組んではいかがでしょうか。
重松宏幸(しげまつ・ひろゆき)
NECソリューションイノベータ イノベーション戦略本部に所属。NECグループでシステムインテグレーション・ソフトウェア開発系の事業を担うNECソリューションイノベータに入社以来、OSの開発からアプリケーションの開発までソフトウェアの開発を中心にキャリアを積む。ビッグデータを分析する技術を用いた製品の開発をきっかけに、2014年度からビッグデータ事業に関わる。