〜データ・ガバナンス(DG)方法論の提言③
伊阪コンサルティング事務所 伊阪哲雄
スニール・ソワールのDG方法論モデル(IBMが提唱するDG統合プロセス)について、前回に続き、ライフサイクル6から13の概要を記述する。
6)必要ライフサイクル:製品ロードマップ作成と中核DGツール群整備
図3に示すようなDGソフトウェア・ツール・モデル構造図をスニール・ソワールが提唱している。3)ライフサイクルで述べた「人・プロセス・技術のオーケストレーション」の思想をベースに全体ロードマップに従い、最初に担当する人材を想定し、次にDG製品ロードマップを作成する。投入可能な人材とスキルとDGツールは密接な関係にあり、三者を十分に考慮し、DG製品ロードマップを作成する。留意点としては、例えば既に導入されているETL製品がDG製品として活用できることもあり、導入済の製品と機能を注意深く調べるべきである。当然、DG製品は決して安価ではないため、自社に必要な機能を考慮し、手組で対処する場合も十分存在する。
図3の1.から8.の中核DGツールと9.から14.の広義DGツールとに分類できる。本ライフサイクルでは中核DGツールの整備(選定と導入)を行う。理由は以降のライフサイクルを実行する際には各種ソフトウェア・ツールの整備状況が作業効率に大きな影響を与えるためである。
図3. DGソフトウェア・ツール・モデル構造図
各カテゴリーのソフトウェアの機能概要と代表的ベンダーは表2.に示す通りである。
カテゴリー | 機能概要 | 代表的ベンダー*(ABC順) | |
中 | 1)データ統合 | 3種の技術(大量データ移動/データ複製/データの見える化) | IBM, Infomatica, Inforteria, SAP, SAS, Talend |
2)データ・プロファイリング | データを理解するプロセスで、システム内の所在と他のデータとの関係の明確化する機能 | Collibra, Global ID, IBM, Infomatica, SAP, SAS, Syncsort, Talend | |
3)データ品質管理(DQM) | データの品質と完全性を測定し、改善する方法並びに名寄せを含む統制機能 | Global ID, IBM, Infomatica, SAP, SAS, Syncsort, Talend | |
4)データ辞書(業務用語集) | 重要用語のリポジトリーで業務とIT横断し共通の定義をまとめる辞書機能 | ASG, Collibra, IBM, Infomatica, Orchestra Networks, SAP, SAS | |
5)メタデータ管理 | 名前、場所、値、桁数、形式などの関係するデータの特徴を記述されたデータ管理機能 | ASG, Collibra, Global ID, IBM, Infomatica, SAP, SAS | |
6)情報方針管理 | データ管理実務を当局などからの厳しい監視に従うための情報方針管理機能 | Collibra | |
7)マスターデータ管理:EAIツール/ MDM/ ETL | 複数のデータドメインを統合し、A single version of truth (事実に従うユニークなバージョン)を確立する機能 | IBM, Infomatica, Inforteria, Oracle, Orchestra Networks, SAP, SAS, Talend | |
8)データ管理(RDM) | データでシステム共通に参照されるデータの管理 | Collibra, IBM, Infomatica, Orchestra Networks, SAS | |
広 義 の デ | タ ・ ガ バ ナ ン ス ・ ツ | ル | 9)データ・モデリング | 企業内データモデルの作成と管理機能 | IBM, Orchestra Networks, SAP |
10)データウェアハウス・データマート | データウェアハウスとデータマート | EMC, HP, IBM, Oracle, SAP, Teradata | |
11)解析・レポーティング | データの解析とレポーティングを支援する機能 | ASG, Infomatica, Inforteria, SAP, SAS, Tableau | |
12)業務処理管理(BPM) | 業務処理を調整する全体論的な管理機能 | Collibra, IBM, Infomatica | |
13)データ・セキュリティとプライバシー | データ・セキュリティとプライバシー確保、具体的にはデータ・マスキング/データ暗号化/データのトークン化**/データ監視機能 | IBM, Infomatica | |
14)情報ライフサイクル管理 | 情報の作成から廃棄に至るプロセスの一連を管理する機能 | Collibra, IBM, Infomatica, SAP |
*:北米と西欧市場のベンダーで、国内参入ないし日本語化されていないベンダーも含む。
**:トークン化(Tokenization)とは機密データを差しさわりのないデータに置き換え、必要に応じて機密データに戻すことができる機能
表2.中核及び広義のDGツール
各ソフトウェアについては問い合わせを頂ければ、回答するので、遠慮なくお問い合わせをお願いしたい。
7)必要ライフサイクル:データ辞書策定とデータ理解
業務用語の効果的管理の目的は同一記述言語で企業横断的に言葉の定着を確実性確保できることにある。データ辞書ないし業務用語は重要な専門用語の定義リポジトリーであり、企業の技術と業務側との間に一貫性と合意を得るために用いられる。顧客データ統合の事例としては、以下のような基本的な課題がある。当然、製品データ統合や納入先データ統合の課題も同様に存在する。
①どのように顧客を定義するか?
②顧客のだれが購入したか?
③だれが購入を検討したか?
④過去の社員がまだなお社員としてカテゴリーされているか?
⑤パートナーとセーラーは同義か?
⑥ディーラーとディストリビューターは同義か?
これらの疑問は共通データ辞書を構築することにより対処可能となる。一度共通データ辞書が導入されると業務専門用語はメタデータを介して、技術的専門用語に結びつき、また企業は一つの共通理解を持つことを確実するために、データ辞書は組織間の横断を可能となる基盤になる。避けられない問題・課題として時間経過により変遷するデータ内容の変化が存在するため頻繁にデータ維持の継続的作業は必然である。
今日では単独の適用プログラムはほとんど無い。むしろ、ソフトウェアが扱うメタデータは、企業内に分散され、多少統合されるか、少なくとも互いに関係を持っている業務とデータベースと共に個別システムないし統合システムから成っている。
所謂シノニム(同義異音語:同じものを指すが、名称が異なる)・ホモニム(同音異義語:名称が同一であるが、別なものを指す)問題が多様に存在する。その問題を解決するためにも本ライフサイクルは極めて重要である。ストレージに対する業務エンティティの断片化により、リレーショナル・データベース・モデルは実際には事態を悪化させているが、いかに全てが関係しているのか?
DGPO(データ・ガバナンス・プログラム・オフィス)は企業内を横断する重要なデータ関係を発見する必要がある。情報システム内の機密データの所在と同様に、データ発見は単純で見出すのが難しい関係を含むことも多い。
8)必要ライフサイクル:メタデータ・リポジトリーの作成
メタデータはデータについてのデータである。①データ技術的名称、②業務名称、③場所、④認知された重要性、⑤大企業内の他のデータ遺産に対する関係の五者のようなメタデータは、全データの特性に関する情報である。本ライフサイクルは、発見フェーズでデータ辞書と多くの技術的メタデータからの多様な業務メタデータを生成する。多くのプロジェクト間で共有され機能させるため、このメタデータをリポジトリーに収納され、継続的に管理される必要がある。
9)必要ライフサイクル:広義のDGツール整備
6)必要ライフサイクル:製品ロードマップ作成と中核DGツール群整備」で検討された製品ロードマップに従い、本ライフサイクルでは図3に示す9.から14.の広義DGツールを表2.を参考に吟味し、その整備(選定と導入)を行う。各カテゴリーのソフトウェアの機能概要と代表的ベンダーは表2.に示す通りである。
10)必要ライフサイクル:評価基準の定義
DGは経過を測定・追跡する強固な評価基準を有する必要がある。DGPOは何時、何を測定し、効率改善を行うべきかを評価しなければならない。結果としてDGPOは、プログラムの現状パフォーマンスを測定するいくつかの重要な重要業績評価指標(KPI: Key Performance Indicators)を選定しなければならない。例えば、銀行では業種別全体的信用リスクのアセスメントを要望している。このような場合、DGプログラムは、KPIとして、リスク管理情報品質の追跡のために、ヌルの標準業界分類コードの割合を選択する場合もある。
追加ライフサイクルに関する基本的な考慮点
上記は初期に要求されるライフサイクルである。少なくとも4個の追加ライフサイクル(マスターデータの統制と解析ガバナンス・セキュリティとプライバシーと情報ライフサイクル・ガバナンスの四者)を選択する必要がある。
短期的なDG成熟度評価とロードマップの定義を行う必要があり、短期的効果を確実にするために業務とITを同調するDGPOのいくつかのレベルがあるべきで、そのレベルの設定には一般的なモデルが存在しないため個別に検討する課題である。「顧客」はマスターデータ・ドメインの基本的課題であり、「顧客」のような業務用語を定義の必要性は自明である。なぜなら解っているようで各部門と各担当者により定義は異なるためである。従ってDGプログラムの実施においては関係者間の合意できる明解な定義は必須である。DGPOはデータ・ソースと重要なメタデータの存在を理解することが前提条件である。発見プロセスからの業務用語定義と技術的メタデータは、メタデータ・リポジトリー内に収納され、最終的にDGPOは、顧客重複排除、マスターデータの統制プログラムの現状効率測定などのKPIを確立する必要がある。
本プロセスで選択された追加ライフサイクルの重点レベルは、業界や企業の環境により変化する。事例として、追加ライフサイクルないし選択されたライフサイクルをベースにライフサイクル「7)必要ライフサイクル:データ辞書策定とデータ理解」がそれぞれ以下に適用されるかをレビューしてみよう。
①マスターデータ統制ライフサイクルではマスターデータ統合対象となるキー・メタデータのマッピングを行い、そのプロセスでキー・メタデータの理解は必須であり、データ辞書策定に深く関わる。
②解析ガバナンス・ライフサイクルは、重要なレポートとキー・メタデータ間の関係の理解は前提的な与件である。
③セキュリティとプライバシ・ライフサイクルは、細心の注意を要するものである。データの収納場所の把握は必要条件である。
④情報ライフサイクル・ガバナンス・ライフサイクルは、顧客とか製品とか納入業者などの業務オブジェクトの位置付けについて社内的に深く理解する助けになる。
後続の章でこれらのトピックスの深く詳細に討議する。それで本章の残り部分でいくつかの事例疑問と潜在的中心領域をカバーする。IBMDG統合プロセス内での付加ライフサイクルの概要は以下の通りである。
11)追加ライフサイクル:マスターデータの統制
大企業内の最も価値のある情報—顧客と製品と仕入先について業務の決定的なデータはマスターデータとして共通に知られている。その重要性にも関わらずマスターデータは、大企業の隅から隅までの業務プロセスとシステムと適用業務を横断的にしばしば複製され、ばらまかられる。業務部門責任者は業務の円滑な実行のために明確な方針を設定し、必要なプロセスと業務ルールと評価基準を定義する。その実現のためにマスターデータ品質管理目標も併せて規定する。これらはマスターデータ統制も同様に必要プロセスである。
マスターデータについての取り組みは大半の企業を混乱させる傾向にあるが、課題の核心的な原因と解決する業務支援者の正しい水準を得るのは容易ではない。結果としてマスターデータ・イニシアティブに関する投資の正当化は重要である。例えば、同一世帯に複数の郵送を送付する銀行のような企業を考察してみると、世帯のシングル・ビューを作るために銀行の顧客データを名寄せし、当該銀行は短期的な投資回収を確立できる。DGプログラムの大多数が、データスチュワード職務とデータ品質とマスターデータとコンプライアンスの周辺の課題を処理することが肝心である。
12)追加ライフサイクル:解析の統制
解析ガバナンスとは、いわゆる情報系システムやデータウエアハウスのような仕組みを対象としている。企業や団体はこうした分野に相当な投資をしていながら、それに見合うリターンをしっかり得ているとは言いにくい。解析基盤についての投資と業務ユーザーの上手く整合するための方針と手続の設定として、“解析ガバナンス”の付加ライフサイクルを定義する。データガバナンスの実務者は以下の質問を組織内に投げかける必要がある。
①各業務領域に何人のデータ利用者がいるか?
②各業務領域にいくつのレポートを作成するか?
③これらのレポートからユーザーは価値を引き出しているか?
④一ヶ月当たりいくつのレポートの実行をしているか?
⑤新レポートを作成するためにどれくらいの時間を要するか?
⑥新レポートを作成するためにどれくらいの費用を必要とするか?
⑦ユーザーに自身でレポートを作成できるように育成しているか?
多くの企業はユーザーを教育し、ビジネス・インテリジェンスを啓発し、レポートを開発するためにビジネス・インテリジェンス・コンプテンシ・センタ(Business Intelligence Competency Center:BICC)の設置を必要としている。
13)追加ライフサイクル:セキュリティとプライバシーの管理
国内ではまだなじみが余りない職制であるが、CISO(最高情報セキュリティ責任者)ないし相当する責任者を任命し、プライバシーやセキュリティを管理していく場合、DGが当然求められる。米国の医療機関は健康情報のプライバシーとセキュリティを守る規制を遵守しなければならない。DGPOはその際に重要な役を実行する。例えば、患者のカルテが混ざらないようにする、同一患者の重複カルテを排除するといったことを確実に成し遂げる方針と手続を用意し、実行し、管理しなければならない。マイナンバー制度の導入が始まったこともあり、日本企業にとっても重要課題である。次のような質問を投げかける必要があるだろう。
①細心の注意を要するデータはどこにあるか?
②プライバシー規制に沿うための非生産環境(開発とテストとトレーニング)における企業は企業の細心の注意を要するデータにマスクをかけているか?
③給与と顧客リストのような個人データへのアクセスから、データベース監査のコントロールはDBAのような特権ユーザーによるアクセスの防止について適切な状態にあるか?
文字数制約から詳細には言及できないが、データ統合、MDM、DGなどの推進、ソフトウェア選定とSI事業者選定などに関して、具体的な関心がある方は、遠慮なく問い合わせ(isaka@isaka.com)をお願いしたい。
参考文献:
日経コンピュータ2013.12.12日号と26日号
Data Governance Tools, Sunil Soares著, 2015, MC Press Online LLC
Data Stewardship, David Plotkin著, 2014, Morgan Kaufmann Publishers
Copyright©2017 Isaka Consulting Office, All rights reserved.
─ 伊阪哲雄プロフィール ──────────────────────
データ・マネジメントを専門とするITコンサルタント。1970年に外資系大手コンピュータ・メーカーに入社して以来、一貫してデータ・モデリング/設計やデータ・クレンジング、データ統合、マスターデータ管理、DG、人材育成に関わる支援を行ってきた。特に通信業界、医薬業界や、金融業界のデータ・マネジメントに詳しい。米国のデータ管理系コンサルタントと幅広い交友関係があり、米国など海外の事情にも通じ、例えば米MDM Instituteが主催するカンファレンスに頻繁に参加している。