スマートフォンのGPSデータ分析に奮闘する日々
JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。
今回、バトンを受け取ったのは、株式会社NTTアドの高松裕二さんです。
データ分析の専門家としてGPSによるスマホの位置情報分析を手がける
最初に、私の簡単な経歴をお話ししましょう。35年前に大学の数学科を卒業。入社3年目にアンケート調査の集計、分析を行う部門に異動になり、そこで6年ぐらいデータ分析を手がけていました。当時の言語はFORTRANでツールはSASなどを使い、さらに電算部門に半年間在籍してCOBOLやデータベースを勉強しました。その後はコンピュータ部門から離れ、紆余曲折を経て3年前に現職に着任したというわけです。
現職についてからはずっと、スマートフォンのアプリが取得するGPSデータ(位置情報)の分析を行っています。このデータはアプリに搭載されている GPS センサーによる計測値なので、精度もそれなりです。ご存知のように GPS 衛星の位置と測量場所の環境によって生じる誤差が含まれ、さらにサーバーとの通信状態やアプリの設定、スマートフォン端末の使用状況などから受ける、いまだに原因がはっきりしないさまざまな影響を受けた結果が、私の手元に届くのです。
そう書くと、いい加減なデータを使っていると思われそうですが、「大数の法則」と言って、たとえばコイン投げで実際に裏表の出る確率が、投げる回数を多くするほど理論上の2分の1に近づくといった法則があります。ビッグデータ分析もまさにそれで、私の扱うGPS データも膨大な数を重ねるほどに、さまざまな環境から受けた影響が互いに打ち消しあって、正確な観測値に収斂していくのではないかと思っています。
ちなみに分析ツールには、データベース用の「SQL」や統計解析用の「R」といったコンピュータ言語、地理情報システム用のソフトウェアである「QGIS」などを必要に応じて学習し、データハンドリングにはVBAを使って何とかしのいでいます。
誤差や曖昧さでいっぱいのGPSデータと格闘する分析者の毎日
スマートフォンのアプリから得たGPSデータの分析なんて、何のためにするのかと思われるかもしれません。たしかにこれらのデータは分析を目的に収集されているわけではないし、それだけに分析している最中は、あらかじめ予想はしていても驚くことばかりです。
今の業務につくことが決まった時点では、昔取った杵柄で何とかなると思っていましたが、以前扱っていたのは、もともとどんな集計・分析を行うのかを見通した上で蓄積されたデータです。このため分析に取りかかる際も、論理矛盾のないよう簡単にデータクリーニングするだけで、あとはいつものツールを使って簡単に処理が可能でした。
それが現在のGPS データのように、取得に厳密さが求められず、分析する側のコントロールがきかない、しかもある程度の誤差が含まれていることは予定済みとなると、いろいろなケースが発生します。それこそ「なぜこんな時間のこの場所に、このデータが存在するのか?」とか、「この点からこの点へ、こんな短時間での移動は、現在の人間の技術では不可能だ!」なんてことも、ままあります。
データ分析では、分析処理にかかる前に「データクリーニング」といって、時間の遡及(時間がさかのぼっていること)や、包含関係とか大小関係の矛盾など論理的にありえないことを排除します。しかし今私が扱っている GPS データの場合、誤差が含まれているのが前提になっているため、どこまで誤差を許容するか、また状況としてありえないと言い切れない場合は、どういう扱いをするかという悩みがついて回ります。
ビッグデータ分析というのは、そうした割り切れない問題を抱えながら行わなければならず、そうした“いい加減さ”への寛容さのような姿勢が要求されます。しかし分析する側からすれば、やはり微に入り細を穿って正確さを求めたくなるもの。そこでつい色々と追求していくと、「これは変だ」となり、「これを含むと結果が歪まないか」とか首をひねったり、類似のケースを探し出して分析データから除外し、その上で集計・分析のやり直しといった繰り返しです。
そうして得られた分析結果というのは、結局「こういう傾向が見られました」ということにとどまらざるを得ないのですが、その裏で分析者は曖昧さや不明瞭さでいっぱいのデータたちと、日々格闘していることを理解して欲しいと、分析を依頼してくる人たちに対していつも思っています。
膨大なデータが瞬時に地球の裏側に届く現代は、まさに仮想世界さながら
それにしても現代は、ビッグデータ解析だけでなく、クラウドやインターネットによって膨大な量のデータが世界中にあふれ、瞬時に地球の裏側まで情報を移動することが可能な時代です。私のような世代の人間からは、まさに今は昔の思いもひとしおです。
社会人になりたての頃、データ移動のための可搬媒体といえば、ようやくパンチカードやMT(磁気テープ)、さらに8インチフロッピーディスクが普及し始めたところでした。またデータというのは最後は目で見るもので、ふだんはRAWデータ(未加工のダンプデータ)をテキストエディターで見ていました。データ量が多くなるとテキストエディターでは開けませんが、その場合はUNIXのDUMPコマンドで出力して見ていたので、こちらとしては納得いくまでチェックができたものです。
それが今や、データがいくつものデバイスやアプリケーションを経由して来る時代。しかもデータ量が昔とはケタ違いです。私のような年寄りからすると往年のSF映画さながらで、まさに仮想世界とはこのことかと感慨をおぼえてしまいます。
高松裕二(たかまつ ゆうじ)
株式会社NTTアド デジタルビジネス局ビッグデータ解析担当部長。大学卒業後、外資系広告代理店の市場調査部門に配属。その後、玩具メーカーのマーケティング担当を経て、現会社へ。2009年にSNSデータの分析担当になり、データ分析を開始。現在は緯度・経度データなどを中心に、アプリが取得するデータの分析に従事している。