JDMCセミナー部会は、2016年度最初の定例セミナーを、2016年6月13日に開催した。
関東は既に梅雨入りして当日も朝から雨模様だったが、IHIの河野氏によるビッグデータ基盤での「Apache Spark」への取り組み、オープンテキストの市野氏などによる文書の電子化と管理というテーマが関心を惹いたのか、申込み数73名に対し参加者数51名という高出席率かつ、高アンケート評価の開催となった。
ここではIHIの河野氏による講演を中心に、概要とポイントをお伝えする。ただし活発に飛び交った質疑応答の詳細まではお伝えしきれないことをお許し頂きたい。また会場を提供して頂いたJDMCメンバーのSAPジャパンには、この場を借りてお礼を申し上げる。
講演1:製品・サービスの高度化に向けた データ収集・分析基盤構築への取り組み
2015年度のJDMCの表彰制度においてデータ基盤賞を受賞したIHI。同社は航空機や船舶向けのエンジン、シールドマシン、圧縮機、建設機械など様々な事業を展開している企業である。
同社ではIoTの進展の中でそれぞれの事業部門が、個別に機器・機械の予防保全や稼働情報を収集する仕組みを構築してきたという。
しかしコストはもちろん、情報キュリティも考慮すると、仕組みや基盤のレベルでは共通化することが望ましい。そこで構築したのが、リモートメンテナンス共通プラットフォーム「ILIPS」である。対象機器ごとに異なる機器制御は個別だが、そこから先の通信やデータ収集、データ分析といった機能を共通化したのだ。部門の壁を乗り越えた原動力には、「ICTが重要というトップの強い意思があった」という。
ここまでは前段で、すでに数百の製品からデータを収集できるILIPSで、どのようにデータを活用するか、そのためのデータ活用基盤をどうするかが重要なテーマになったという。2014年、米国で開かれたSpark Summitに参加。Sparkのインメモリー処理による高速性、分散処理によるスケールアウトの可能性、機械学習やストリーム処理など機能が豊富であることなど知り、オープンソースに知見のあるNTTデータの支援を得てSparkによる基盤を構築した。今でこそ、Sparkは知られつつあるが、2014年に採用に踏み切ったのは賞賛されるべきだろう。
基盤を構築しても役立たなければ意味はない。そこで多変量の時系列データを対象に何ができるかを検証したという。具体的には船舶の位置情報(時系列データ)を元に、港湾の混雑状況を予測する問題に挑戦した。RDDとDataFrameというデータ保持方式、あるいは1船舶のデータのレコード長の違いによる分析性能の差異を調べたのである。
一口にビッグデータと言われるが、データの管理の仕方によって性能に差が生じてしまう。しかし「このような形で持てばいい」という決まった法則があるわけではない。実際、レコード長に大きな偏りがあり、メッシュ毎の計算をしようとするとSparkの自動調整機能ではカバーできないことが分かったという。このあたりがデータ基盤賞を受賞したゆえんかも知れない。「今回はまだ評価したというフェーズ。今後、IHIグループならではの価値を出していきたい」と河野氏は講演を締めくくった。
Q&Aでは、ビッグデータになるとインメモリー処理では追いつかないのでは?どうやって部署を超えてデータを管理しているのか?実際に使用しているハードウェア構成は?など多様な質問や意見が飛び交い、河野氏は一つ一つ丁寧に回答していた。
講演2:デジタライゼーション時代にあるべき基幹システムデータ及びドキュメント活用
契約書や指示書、仕様書、設計図面といった紙のドキュメントを電子化し、SAPのERPソリューションと統合して扱うオープンテキストのソリューションの解説があった。具体的には、顧客情報管理を例に、データと文書の統合管理がどれほど業務プロセスを効率化するか、コンプライアンス上の効果があるかといった話である。データマネージメントというと、どうしても電子化されたデータに着目しがちだが、企業が保有するデータには紙のドキュメントが大量にあることを忘れてはならない。そういう意味で極めて有意義な講演だった。
(セミナー部会・谷本一樹)
※関連リンク