データ管理温故知新 第3回

2017-09-21

第3回 改めてデータ管理とは何か。そして今データ管理に何が求められているか。

 

株式会社データアーキテクト 代表取締役 真野 正

 

IoTの基盤統一やIoTでトイレの個室の空き状態をスマホで知ることができるなど、毎日IoT、AIの話題で事欠かない。IoTにより、随時発生するデータをストリーミングとして利用した後は、現在あるサービスのためのデータとしては不要となる。しかし、前もって使途が定まっていなくても、将来新たなサービスで利用するかもしれないと蓄積しておくことが多い。このようにして、IoTデータが蓄積されデータレイクが形成されていく。
 
前2回でデータ管理について、黎明期から一世代前を振り返ってみた。これからのデータ管理はどう変わるのか変わらないのか。今日のように大量にデータが溢れている時代において、益々必要とされる背景とどのような方向に進むのか。また、データ管理自身のやり方が最新のITの取り込みによってどのように変わっていくかを筆者なりに想像してみたい。
 
<データレイクでのメタデータの役割>
データ管理など面倒なことはしなくても、ビジネスに必要なデータが直ぐに取出せればよい。社内で蓄積あるいは外部から購入したデータが利用できれば良いと考えている経営者は多いだろう。
 
企業内でデータを活用するために、売上データや顧客情報を蓄積したデータウェアハウスを構築するというのが、一昔前の常道だったが、最近では、データレイクと呼ばれることが多い。データウェアハウスでは、社内で発生した、構造化されたデータがほとんどであったが、データレイクでは、社内データに加え、外部からの購入データを含む。さらに大きな違いは、RDBとして格納できる構造化されたデータだけでなく、非構造のデータを含んでいることだ。
 
データレイク、即ち、データの湖から必要なデータを取出すにはどうしたらよいか。データ処理能力が進んだとはいえ、数ペタバイトのデータからやみくもに、探していたのではらちがあかない。
 
そこでデータ管理の成果である「メタデータ」が必要とされる。メタデータは、蓄積されているデータについての意味や生い立ちや変遷を記した、データに関するカタログまたは取扱説明書のようなものだ。まずカタログを検索して、そのデータの素性を取説により知り、実際のデータを取出す。
 
ガートナーレポートで、メタデータは、データレイクの魚群探知機の役割を果たしていると記している。メタデータが無ければ、無作為に湖の中を全て探らなければならないが、メタデータにより、欲しいデータの群れを絞り込んであたりを付けてから検索することにより、速度を速めることができる。
 
メタデータ無しでは、データレイクからの抽出作業は無限大に時間を要することになり、徐々に使われなくなってしまう。また時間をかけて取出したデータの素性がわからなければ信頼性も低くなる。そうなると、濁った水だけが溜まった汚れた湖となってしまう。かつて、データウェアハウスも、せっかくデータを蓄積しても、活用できていないということが多く囁かれた。
 
例えば、メタデータ無しでは、先月の購買顧客のデータを取出すのに、6カ月前からの見込み客を含んだデータから順次探しているようなことになる。外部から購入したデータでは、商品毎に顧客データの書式が異なっていたりするとさらに厄介になってくる。
 
データが増え続けている中で、そこから必要とするデータを検索するには、益々メタデータの重要性は増してくるだろう。但し、メタデータに属性として求められることは、不変部分も多いが、少し変わってくるかもしれない。
今までは企業内でのディクショナリに留まっていたが、データが広域に流通することにより、企業間でのメタデータの交換が重要となる。そこで、グローバルディクショナリの構築が必要となる。業界標準辞書やデータモデルが提言されてきたが、中々普及しなかったという歴史を今一度紐解いてみる価値がありそうだ。
 
<データのマネタイゼーション>
ITシステムから見ると、主はプログラムであり、データは従と取らえられる向きがあった。それが、システム開発においてもデータ中心の考え方が取り入れられていったが、ITシステムの資産としては、ソフトウェア、即ちプログラムであった。
 
今後は、データを資産として捉えて行く必要がある。そのためには、データが如何に資産価値を持つのか、データを貨幣価値として捉える必要がある。今後、データの売買がビジネスとして盛んになってくるであろうが、企業内に保有しているデータの資産価値もバランスシート一の一部に資産数値として公開できるようになって欲しいものだ。企業には、保有しているデータをどれだけビジネスに活用しているか、貨幣価値変換しているかが求められている。企業内で蓄積してきたデータは、個人情報を隠ぺいすれば、いつでも販売できるという気構えが必要ではないか。
 
マネタイゼーションは、データ管理を推進するための普遍的な課題である、費用対効果が可視化できないということに対する解ともなる。
 
<AI支援が進むメタデータ管理>
データ管理者の重要な作業としてデータ項目の命名、意味定義を行うメタデータの管理がある。企業内のデータ項目の意味を考えて、命名し、同じデータに別の名前が二重に付与されたりすることが無いようにまた、本来別な意味を持つデータに同じ名前が付与されることが無いようにする。
 
これらは、蓄積されたデータを機械学習することによるAIで置き換わる部分が多いだろう。データ管理者といえども、何千、何万項目ものデータを全て把握するのは難しい。そこで、新たなデータ項目の定義依頼が来た場合に、AIにより、項目名や意味から、既に定義済みのデータ項目に合致するものがあるのか、それとも新たに定義すべきものなのかをリコメンドしてくれるというものだ。データ管理者の支援ツールは、データディクショナリィや用語集の整備など、昔から取り組まれてきているが、さらに一歩踏み込んでということだ。
 
しかし、セマンテックスはAIでは把握できないところが残るだろう。同義語や同音語の最終判断は、データ管理者の持っている形式知化できないナレッジや経験に基づく技行に委ねられるのではないだろうか。
 
またデータを資産価値として捉える上で、直観的にデータの重要度に応じてデータ管理の重みづけを変えることもデータ管理者の職務となるだろう。
 
以上、データ管理の過去を振り返りつつ、今後の有り様を垣間見たが、その必要性は無くなるどころか、企業資産価値を維持していくために必須のものとなるだろう。そして、企業内に閉じていたデータは、どんどん流通していき、データ産業が形成されるようになるかもしれない。1次産業としてのデータ生成元、そして複数の生データを加工して新たなデータを製造する2次産業、さらにデータを組み合わせた新たなサービスを提供する第3次産業といった具合だ。そこでは、各データ産業に応じたデータ管理が求められるようになるだろう。
 
以上
 
 
(連載)
第1回 なぜ今データ管理が必要なのか -データ管理の歴史を振り返る (こちら
第2回 データ管理されていないと何が問題か (こちら
第3回 改めてデータ管理とは何か、そして今データ管理に何が求められているか
 
 
■著者プロフィール
真野 正(まのただし)株式会社データアーキテクト 代表取締役
大手SI会社勤務(株式会社シーエーシー他)を経て2005年データアーキテクトとして独立。システム基盤はメインフレーム、C/S、Web系を経験、RDB黎明期より携わり、データモデリングは、概念レベルにとどまることなく、実装を意識した設計を心掛けている。モデリングからDBA、SQL性能改善までと幅広くデータ系全般をカバー領域として多くのプロジェクトに携わる。主な著書に、実践的データモデリング入門(2003年翔泳社刊)、ITエンジニアのためのデータベース再入門(2017年リックテレコム刊)がある。
 

Facebook にシェア
[`google_buzz` not found]


※会員企業ロゴをランダムに表示しています。

 

 

Copyright© 2011-2017 JDMC All Rights Reserved.