【Vol.9】遠藤国枝氏「ソーシャルメディア・データ活用をもっと信頼できるものに」


colum_title

JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。
今回、バトンを受け取ったのは、富士通の遠藤国枝さんです。
 

ソーシャルメディア・データ活用をもっと信頼できるものに

 
 皆様、はじめまして。今回、リレーコラムを書く機会をいただきました富士通の遠藤と申します。私は現在、富士通でビッグデータの活用、その中でもソーシャルメディア・データの活用に取り組んでおり、JDMCでは今年度から「企業におけるソーシャルメディア活用WG」に参加しております。
 
 これまでの経緯を簡単に紹介しますと、入社後、CRMソリューションの立ち上げに関わってきました。2000年前後には、当時まだ新しい技術であったレコメンドの技術開発などにも関わり、その後「顧客の声」の活用に取り組んだ流れで、現在はテキストデータの解析と顧客の声・市民の声の活用に取り組んでいます。ここでは、ソーシャルメディア・データの活用について日々考えていることを書きたいと思います。
 
 今年のソーシャル分野の一番のトピックと言いますと、やはりネット選挙の解禁でしょうか。各種イベントや選挙期間内の新聞・メディアにおいても、この業界で有名な方々が日々講演されていましたのでテレビなどの報道を見た方も多いと思います。
 
 私も、直近2回の選挙についてソーシャルとの関連を分析してみました。衆議院選挙においては、政党に関する選挙期間中のTwitterでの発言数と相関:0.91(議席獲得数上位4党に関してのみの相関は0.98!)で、今回の参議院選挙においても、政党名得票数との相関は0.93でした。これは、めちゃめちゃ相関が高いと言えます。どちらも、発言のカウントは“自民党”“民主党”などの政党名の出現回数です(ニュース的に双方が出ているものもそのままカウントしています)。
 
 ソーシャルデータの面白いところは、「シンプルに考えた方が、説明力が高いことが多い」と言う点ですね。しかし、現実に現れる事象との相関が強いからといっても、そのまま予測に使えるわけでもなく、企業の業務に使ってもらえるかというとまだまだ高いハードルが存在するのも事実です。
 
 今認識しているハードルは2つ。1つは、現象の結果が説明できるとはいえ、どこまで信用できるのか?と言うこと。ソーシャルメディアは発信者も様々で、実際の人口動態とも合っていない。そんな状態で信用してよいのか――ということです。
 
 新聞業界の方々とディスカッションすると、ソーシャル分析は既存の世論調査に比べてどれだけ真剣に客観性・公平性を考えているのか、と言う指摘を必ず受けます。オールドメディアでは長年にわたって、数的に制限されたデータの中で公平性を担保した分析を行ってきた歴史があります。それに比べて、ソーシャルはどれだけ確たるものなのか、と。
 
 この議論こそ、ビッグデータによる時代の変わり目の好例だと思います。大量のデータを基に分析した結果、現実の事象をうまく説明できる結果が出てきた。しかし、説明はできても、それがなぜそうなったのかまではわからない。誰が言っているのか、IDは判明しているが、それ以外はまったくわからない。だから、その結果に意味はあるのか――。
 
 確かにそうなのですが、そこは「ビッグデータで分析対象データの量がこれまでより圧倒的に多い中で、結果の妥当性が上がる」としか言いようがないのです(笑)。ある全国紙の役員の方とディスカッションして上記のような指摘を受けた際、「それでも数の力で説得力が上がるのです」と答えたら、「なるほど、目から鱗だ」とのお言葉をいただきました。
 
 とはいえ、個人情報の扱いなどまだ困難な問題も残されています。ソーシャルメディア分析がいかに民意を的確に表したものになるかについて、より納得のゆく説明ができるようにしておくことは、私達にとって必須と考えています。従来型の調査分析を置き換えるというのではなく、その前に、観点などに漏れがないよう仮説を作るための基礎データとしてソーシャル分析を使うというアプローチが現状では理にかなっていると感じます。
 
 ソーシャルメディア分析のもう1つのハードルは、どれだけ先行して動向を察知できるかです。ソーシャルメディアでの発言数とニーズに高い相関があるケースは比較的多く見受けます。しかし、リードタイムを考慮した上で正確な予測ができていなければ、結局実戦では使えないですよね。有名な話では、ソーシャルメディアでインフルエンザの流行がどのくらい深刻かを予測できても、ワクチンやマスクの製造に間に合わないのでまるで役に立たないというわけです。
 
 そうは言いつつも、いくつか面白い例も見つけています。先日の参議院選ですと、時系列に相関を見た場合(単日、累積)、なんと、公示日の発言数と得票数の相関が最も高かったことがわかりました(ただ、今回は最初から結論は読めていましたが)。
 
 こんな例もあります。去年の紅白歌合戦に初出場した歌手のシングルCDの初週販売数をソーシャルメディアでの発言数から予測してみたところ、発売10日前~4日前のデータから5%以内の誤差で説明の付くモデルを作れたそうです(新譜の場合、1カ月前にはわからないとだめらしいですが、このケースでは発売前2週間までのデータで分析)。このような知見を蓄積することで、ソーシャルメディア・データを活用できる場面をより多く見つけたいと考えています。
 
 さて、企業でのソーシャルメディア・データの活用は徐々に広がりつつありますが、行政の現場でも活用例がいくつか出てきています。「新総合計画策定にビッグデータ活用 浜松市方針」<http://www.at-s.com/news/detail/775162139.html>という記事を見ると、浜松市は、これまでの「市民の声」に基づいた政策決定だけでは狭い範囲の意見に縛られてしまうことから、外部のデータを活用する方針を定めました(もちろん、浜松市のような有名な市であれば、ソーシャルメディアでのつぶやきの量もある程度期待できるからこそ可能な施策ではあります)。
 
 ソーシャルメディア・データは、まだまだ既存の業務の中に組み込めるまでの認知は得ていません。それでも、これほどおもしろくて可能性のあるデータはないし、何とかして、信頼に足る統計的な分析に持ち込めるようまでしていきたい――これが私の今の最大の目標になります。言語処理的に定性分析をするだけでは非常にもったいないです。JDMCの研究会でも、こういう議論がもっとできるといいなと考えています。最後まで読んでいただきありがとうございました。
 
 
endousan 遠藤国枝(えんどう くにえ)

1995年、富士通株式会社入社。以降、CRMパッケージの企画開発と導入に従事。特にカスタマセンターにおける顧客の声の分析に注力する。現在は、最も注目される顧客の声であるソーシャルメディア・データに対する分析技術の開発や活用に取り組んでいる。
https://www.facebook.com/kunieend
 
 
 
*~*~*~*~*~*~*~*~*
次回のコラムのバトンを受け取ったのは、真野 正さん(株式会社データアーキテクト)です。お楽しみに!