JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。
今回、バトンを受け取ったのは、ZEKKOの伊藤宏二さんです。
仮想データベース技術の応用で目指す仮想データマート
ZEKKOの伊藤と申します。現在、ZEKKOでは「仮想データベース」に取り組んでいます。外部データベースとクライアントプログラムの間に配置され、データベースコンテンツの実体を持たない仮想的なデータベースのことです。
なぜ仮想データベースが重要なのでしょうか。それは、データコンテンツの爆発的増大と経営意思決定のアジャイル化が進む中、できるだけデータコンテンツの複製を作りたくないからです。コンテンツを複製すれば、原始データと複製データの同期が必須になり、データ整合の維持が大きな負担になります。以下、私が仮想データベースに取り組もうと思い至った経緯をお話ししようと思います。
私とデータマネジメントの出会いは、検索エンジンの開発プロジェクトからでした。1991年当時、全文検索エンジンをゼロからスクラッチで開発するプロジェクトに、主任設計技師として携わりました。検索条件を入力し、該当するレコード集合がどこにあるのかを知るための仕組みですので、検索エンジンの世界ではインデックスが主人、データレコードは従者の関係でした。
ここから自然と、検索インデックスをデータマネジメントの中心に置いて、検索に都合のよいデータ形式から設計する手法を採りました。そうしますと、検索はデータ項目(列)に紐付きますから、列データを効率よく検索するデータ形式になります。したがって、列指向(英語ではカラムナ〈Columnar〉と呼ぶ)のインデックスになります。
この全文検索エンジンは、主に知財に関わる特許検索に応用され、大変役に立ちました。インターネット黎明期のWebの検索エンジンとしても一時期利用されました。
時は経ち1990年代の後半、データウェアハウスやデータマートの黎明期が訪れます。まだBI(ビジネスインテリジェンス)という言葉は普及しておらず、OLAP、多次元データベース、多段集計管理帳票などと呼ばれていた時代です。当時、定型帳票のビジュアル設計とオープン系出力のパッケージソフトはすでに普及していました。今後、管理帳票の動的生成と自由検索の需要が高まることが予想されましたので、そのような分野のパッケージソフト製品を企画・開発できないかという提案がありました。
そこで、検索エンジンとOLAPエンジンの知見を統合して、動的OLAPエンジンを内蔵した「多次元高速集計検索エンジン」という新しいカテゴリーの検索エンジンを自社開発し製品化しました。この検索エンジンには、世界で最も早い時期に実用化された独自のカラムナデータベース編成技術が使われています。この製品は、国内で最も普及したデータマート/BI製品として現在も販売されています。
しかし、データ量やデータ種類の増大と共に課題が明らかになってきました。データコンテンツの複製がデータ整合の維持に大きな負担となっている点です。この点を改善するには、データコンテンツの複製を止めることです。そこで冒頭に述べたとおり、現在の私とデータマネジメントの関わりは、仮想データベースの製品化にシフトしました。
仮想データベースは、備わる特徴を含めて次のように言い表すことができます。(1)さまざまなロケーションにあり(配置属性の隠蔽)、(2)さまざまなDBMSに格納され(DBMS属性の隠蔽)、(3)さまざまな業務データベースのデータを(業務属性の隠蔽)、(4)外部データソースとして中間データベースサーバー経由で接続し(外部データソース属性の隠蔽)、(5)中間データベースサーバーのビューを通じて参照することができる(SQLインターフェースの統一)仮想的なデータベースです。
ここで言う中間データベースサーバーとは、外部データベースとクライアントプログラムの間に配置されたデータベースサーバーを指しています。中間データベースサーバーは仮想的なデータベースなので、データベースの実体であるデータコンテンツは保持しません。あくまで実体はメタデータのみなのです。
仮想データベースの重要な応用は、仮想データマートであると考えています。仮想データベースの仕組みを利用して、主題に応じたデータマートを実体化(データコンテンツのコピーと格納)することなく仮想的に編成し、直ちに参照できるように配置された中間データベースサーバーとして利用する仕組みです。仮想テーブルを用いた仮想的なデータマート編成なので、非常にアジャイルに定義できます。また、外部データソースの実体には影響を与えないので、思いついたらすぐに試すことができます。
こうした特性から、仮想データマートでは試行錯誤が推奨されます。結果が思わしくなければ、その実体であるメタデータで記述された定義体を捨てればよいのです。業務部門の担当者チームが最も深く主題を理解し、担当者チームが業務用語を使って主題に最適なデータモデルを編成するのが正しい姿だと考えています。これが今日求められているEUC(エンドユーザーコンピューティング)ではないでしょうか。
EUCによる「データモデリング」や「データクレンジング」、その結果としての「データディスカバリー」や「データ連合」、「データ統合」、これらを支援するミドルウェア製品の開発――これらが今の私のミッションです。今後、仮想データベースはさらに発展し、ネットワーク機序の中でオンライン化された仮想データベースの参照ネットワークが形成され、アジャイルな経営意思決定が日常的になることが期待されています。できるだけデータコンテンツの複製をせずに参照し、使い捨てできるデータマートが一般化するのが自然でしょう。
ネットワーク機序の中でオンライン化された仮想データベースの参照ネットワークは、やがてオンライン化された人工知能に接続されることでしょう。そこに未来を見ています。
伊藤宏二(いとう・こうじ)
ZEKKO INC. 創業者・代表取締役社長。国産BIの代表的製品である「Dr.Sum EA」のエンジン開発を担っていたディジタル・ワークス株式会社の創業者。「Dr.Sum EA」の生みの親として、日本のBIエンジンの研究開発をリードしてきた実績を持つ。全文検索エンジンとデータマート用高速DBエンジン、OLAPエンジンに深い造詣を持つ主任設計技師(ITアーキテクト)。余暇にはプレイヤーとしてゴルフをこよなく愛す。「人生に諦めの文字は無い」がモットー。