(9) MDMとデータ・ガバナンスの動向

2017-11-14

データ・ガバナンス(DG)方法論の提言④

伊阪コンサルティング事務所 伊阪哲雄


 
スニール・ソワールのDG方法論モデル(IBMが提唱するDG統合プロセス)について本稿では前回に続き、ライフサイクル14から15の概要を記述する。

 

14)追加ライフサイクル:情報ライフサイクルの統制

国内では余り認識されていない「14」情報ライフサイクル管理(LCM)」についての概要を表3に示す。

現状では企業や組織内のデータの80%以上がコンテンツ、即ち文書や電子メールなど非構造データだとされている。情報ライフサイクルといった場合、主に非構造データの作成と廃棄に至る流れを指す。情報ライフサイクルは作成と既存の廃棄から排除によるデータ創造と廃止で開始される。情報ライフサイクルについての以下の課題を対処しなければならない。

  • デジタル化された紙のドキュメントについてのどのような方針であるか?
  • 紙のドキュメントと電子ドキュメントと電子メールの記録管理方針は何か?(言い換えれば、記録としてどの記録を維持し、その管理期間はどれくらいか?)
  • 記憶保存費用を削減と効率改善のために、いかに構造データを管理しているか?
  • 方針と管理の共通のフレームワークの基で構造と非構造データを共に適正な管理をしているか?

情報LCMは以下の八種の項目から構成されている。

①情報アーキテクチャ確立

②基準データベース・サイズとストレージ・アーキテクチャ

③業務オブジェクト発見

④データの分類とサービス水準の定義

⑤データと非構造化コンテンツ保管

⑥テスト・データ管理方針の確立

⑦電子文書の法的発見方針の定義

⑧コンテンツ解析

 

情報LCM

管理対象

概要
①情報アーキテクチャ確立 企業が情報アーキテクチャに対する標準設定を確実にすることをDGPO(データ・ガバナンス・プログラム・オフィス)が対処する必要がある。

最も重要なのはDGPOがアーキテクチャ標準を遵守する権限を確保する必要がある。情報アーキテクチャはIT効率を促進する重要な役割を持つ。例えば、ライセンス費用とソフトウェア保守とサポート・コストを削減の視点のように、ツール標準化とレガシー・システム適用プログラム撤去は決定的な課題である。全国規模のヘルスケア・システム内での病院とクリニックを横断するテスト・コードのような事柄についての標準名称方法手法化は同様に重要である。

②基準データベース・サイズと

ストレージ・アーキテクチャ

個々の事業領域別にコンテンツの蓄積度合いは多様であり、どの領域が大半情報を蓄積しているかを完全に理解する必要があり、最も有効な情報ライフサイクル・ガバナンス戦略の立案と実施により、その理解が可能になる。下記四項目の情報ソースは「IBM 白書(2009年8月)に記載されたものであり、即ち、「適用プログラム・データの拡大が業務を制御する前に、適用プログラムのデータの拡大を制御せよ。」と警告を発している。少々古いように思われるかもしれないが、普遍的かつ本質的課題である。

1)データ重複は統計の精度に極めて大きな影響を与える。

2)他の機能をサポートないし適用プログラム開発とテストのためにしばしば本番データベースのクローンを作成やコピーなどを行う。

3)重要データのいくつかのバックアップ・データを維持しないしデータ紛失対策のためにミラー・データベースの実行を行う。最終的には災害復旧計画は代替地における重要データ保存のためのデータ重複を要求する。本重複の全ては “データ乗数効果”として知られる現象が発生する。

4)データが重複されると、ストレージと保守のコストが比例的に増大する。データベースがバックアップ、災害復旧、開発、テストとユーザー受け容れのためにコピーされ、延べデータ負荷が1テラバイトから6テラバイトに増加することが散見される。

③業務オブジェクト発見 データ・プロファイリング機能を利用し、最初に既存データを鳥瞰的に理解することが決定的課題である。それをしなければ、データを統治することはできない。

データ・プロファイリングとは顧客、患者、ないし請求のような情報ないし業務オブジェクトの論理的単位に異なるデータ・エレメントをリンクする関係を特定するためのデータ値とパターンを解析することである。

これらの業務オブジェクトはアーカイブのための不可欠なインプットを提供する。データ関係を特定し業務オブジェクトを定義するための自動化プロセスは存在しない。完全性ないし正確性の保証なく手作業解析の実行に数か月の時間を消耗する。それらの作業を効率的に対処できるツールのディスカバリ機能により自動的に関係を特定し業務オブジェクトを定義することができる。

④データの分類とサービス水準の定義 大企業では非構造化コンテンツの量は年々驚異的な割合で増加している。DG視点からコンテンツ管理システムにより効果的に管理できるように莫大な情報量カタログ(目録)の作成は極めて重要であり、効果的である。法的証拠開示はドキュメントと電子メール類別ないし種別の重要性の良い業務事例である。

大企業における民事訴訟を標的とする場合、潜在的に関連のある文書と電子メールは自動的に類別され、記録管理システムの管理下で収納されることを確保が必要である。各文書に対する適正維持と配置ルールを割り当てる必要がある。ストレージと法的レビューコストを制御するために、関連が乏しいデータ、即ち懸案の法的事例に関連性が乏しい企業広報、ニュースレター、個人的な電子メールと個人的な文書などをフィルターを通して取り除く必要がある。 記録管理担当部門は法務部門により提供されたキーワードのリストに従い開始し、種別システムが最適に稼働を保証するために時間経過と共にキーワードを微調整する。

文書の分類ないし種別機能を有するツールにより文書の全テキストと電子メールの解析により企業新規のタクソノミーの作成と既存のタクソノミーにコンテンツの追加が可能になる。

⑤データと非構造化コンテンツ保管 電気通信事業者の事例を考えると、典型的な巨大電気通信事業者は定常的に莫大なデータ量を生成する。例えば、ある電気通信事業者毎年数十億の通話明細(Call Detail Records: CDRs)を生成し、CDRの収納と分析を必要とする。 CDRストレージは時間経過に従い複雑かつ能率の悪く、面倒で費用が掛かる。ある巨大な電気通信事業者はCDRデータの4 テラバイト近いことを発見し、それらが過去二年毎にほぼ倍に増加していた。電気通信事業者はアーカイブ内にとデータウェアハウス内と分析のためにCDRデータの複数のバージョンを管理している。課金適用プログラムは12種のクローン・データベースを保持している。災害復旧のための追加コピーが存在する。電気通信事業者自身が存在を把握していないデータのための極上のテープ装置を発見する。

業務に逆に影響を受けないストレージ・コストを減少する目的でアーカイブ、保存、削除の方針を立案にDGプログラムは従事される。方針疑問のいくつかは以下のような課題が含まれる。

①何か月分のCDRデータをウェアハウス内で維持すべきか?

②3か月以上古いデータはウェアハウス内ででは集計を保持できるか?

DG視点からはストレージ・コストの削減とシステム効率の改善と規制要求とのコンプライアンス保証のために構造化と非構造化コンテンツの双方をアーカイブする必要がある。電子メールとその他文書の形式の特に非構造化コンテンツは典型的な大企業内の80%以上のコンテンツからなる。事実先進的な多くの企業はパラダイムシフトを認識しており、“情報ガバナンス”としてDGプログラムのイメージ変更、即ち構造コンテンツ管理のベースから非構造コンテンツを中心にドライブを切っている。このようなコンテンツはストレージ・コストを削減するためにアーカイブされる必要がある。

コンテンツ収集ツールはロータス®ドミノ®、マイクロソフト・エクスチェンジ®、マイクロソフト・シェアポイント®とWindows®ファイル・システム内でコンテンツをアーカイブするために設計されたアーカイビング・ソリューションである。加えてコンテンツ収集ツールはレコードとして動的に公表されるコンテンツを許容する。最終的には、自然と種別決定を行うことがクラスフィケーション・ツールからメタデータに影響力を発揮する。データの業務価値に従いアーカイブされたデータ収納は統合化されたデータ管理戦略論理的コンポーネントである。三階層種別戦略は問題に近づく便利な方法である。現在のトランザクション・データは高速で、最上位階層のストレージ維持される。レポーティング・データは中間層ストレージに位置づけられる。監査要求発生時に利用な可能な状態で維持され、参照データは安全な更新一度に対して、参照が多数(WORM: Write Once Read Many)機器に保持される。階層ストレージとアーカイビング戦略についてのこの方法は  コスト削減と業務価値最大化に良い手法である。データベース・アーカイビング機能を有するツールは既存データから歴史的データを分割して、共通アクセスを維持すると同時に安全かつコスト効果的にデータを収納により組織の能力向上を促進する。

⑥テスト・データ管理方針の確立 適用プログラム・テスト改善の大企業戦略についての白書(IBM、2008年4月)によると、テスト目的で互いに関係する数百のテーブルからなる全体の本番データベースのクローンを作ることは現実的ではない。最初に、テストのための全体のデータベース環境を備える容量とコストと時間制約が存在する。第二に品質課題が存在する。即ち、大規模テスト・データベースを扱う場合、開発者は特定のテスト・ケースを追跡し妥当性を確認が難易であることを理解する。

効果的なテスト・データ管理要求は以下のようものである。

1)   実際的なデータ作成:比較的小規模で実際的なデータの部分の作成が重要である。そのデータは適用プログラム本番データを正確に反映していること。

2)   テスト・データ参照統合保存:データ部分集合はデータベースと適用プログラム内で実行される参照統合ルールに従う必要がある。典型的なのは適用プログラムが実行する参照統合がより複雑であることである。例えば、適用プログラムが関係を包含する可能性があり、その関係は互換性があるが、特定不可能なデータ・タイプとカラム(複合的で部分的な)とデータ主導関係を使用する。

3)   エラーと境界条件の強制:本番データベースからテスト・データに関連する実際的な部分集合の作成は合理的な開始である。しかし、特定のエラー条件を強制するか特定の処理機能を有効にするデータ編集が時々必要となる。

4)   テスト・データの秘匿と変換:データの機密性に関する関心は拡大しており、 開発とテスト実施環境における機密データの変換と非特定化ができることはデータ違反と厳しい罰則を防ぐ決定的な機能である。

5)   処理前後のテスト・データ比較:継続テストの前後のテスト・データを比較できることは適用プログラムの全体の品質への根本的事項である。このプロセスは基準となるテスト・データに対する各テストの繰り返しの比較を含んでいる。 そのテスト・データでは発見されない問題、特にテストが数百か数千のテーブルに潜在的に影響を与える場合を特定するためのものである。

テスト・データ管理ツールは以下の機能を効率化する。

①   テスト環境の作成と管理

②   実際的で適正量テスト・データベース構築のデータの部分と移行

③   機密データの秘匿

④   テスト結果の比較の自動化

⑤   複数のデータベース・クローンを維持の負担と苦労を排除

⑦電子文書の法的発見方針の定義 発見ないし決着か

発見ないし決着のどちらかは米国連邦裁判所システムと改正連邦民事訴訟規則(FRCP)内に訴訟中に特に忠告が含まれていれば、世界規模の法人弁護士が問う疑問である。

そのプロセスの闘争のために広範な発見プロセス必要を取り掛かるより和解する方が費用的にはしばしば安価で、電子発見要求に従う電子的に収納された情報 (ESI: Electric Stored Information)の容量は典型的に莫大である。事実、訴訟に対抗する内部IT及び外部コストは数社にとっては1億円を上回ることもある。企業の評判に対する制裁、罰金と損害による連邦民事訴訟規則に従う要求によるコンプライアンスが無い場合のコストは容易に高価に成りうる。企業の面会協議日程内での電子発見計画を詰めるための判例に関係したコンテンツへの利用権と初期知見を得るための自動化されたツールを必要とする。

電子発見解析機能を有するツールは電子発見のコストを削減できる。 例えば、発見要求が来た時に当該によりキーワードないし日付期間サーチの実行により潜在的に関連性がある電子的に収納された情報を収集するために利用できる。このライフサイクルは二百万項目をアーカイブし、その中のコンテンツの十万もの潜在的に関連する一片を独自に特定可能だ。

次のライフサイクルでは10%から15%による可能性のある事例に関連するコンテンツ・プールを潜在的に削減すると同時に当該ツールは迅速に関連しないコンテンツを特定し、印をつける。なぜなら外部解析の相場は電子メール一通当たり約100円で多くの企業は数百の事例を抱えているため、ノイズを通して迅速に精査する機能は企業での電子発見レビューコストを大幅に削減できる。

⑧コンテンツ解析 コンテンツ解析は解析分野の新興勢力であり、非構造化コンテンツに含まれる洞察を企業に可能にする領域である。非構造化コンテンツは以下のデータを包含できる。即ち形式、文書、コメント・フィールド(データベース、ウェッブ・ページ、顧客との通信、及びその他情報)であり、それらは構造化データ・フィールド内に収納される。

コンテンツ解析はアクセス/ソート/コンテンツ解析の機能が提供され、さらにレポーティングと分析のためにコンテンツ解析は構造化データ並びに他の既存情報リソースと適用プログラムで結合する。

コンテンツ解析はビジネス・インテリジェンスの自然の拡張である。多くの企業は“データ中心意思決定”のためにビジネス・インテリジェンスを既に活用している。データウェアハウス内に典型的に格納されている過去のトランザクションと構造化情報のレコードから意思のために決定プロセスは収集された洞察を元にしている。企業はコンテンツ技術でこれらのビジネス・インテリジェンス手法を補足でき、ビジネス・インテリジェンス手法は非構造化コンテンツ内で傾向を発見するために活用できる。例えば、下記のような重要な業務問題に取り組むためにコンテンツを解析できる:

1)   保険クレーム様式のコンテンツに基づく詐欺クレームの特定

2)   コールセンタ記録のテキスト解析に基づく顧客サービス評価基準の測定とモニタ

3)   保証記録の解析に基づく製品リリース優先順位計画

4)   競合データと勝敗データのテキスト解析に従う競合販売必勝戦略の開発.

コンテンツ解析ツールは、非構造化コンテンツ内に含まれる業務視点の洞察を解明するツールを企業に提供するソリューションである。

表3. 情報ライフサイクル管理主要機能と概要

 

15)必要ライフサイクル:結果の測定

評価基準を常に監視し、DG組織は継続的改善を確実にしなければならない。ライフサイクル10では、DGPOが評価基準を設定する。このライフサイクルではDGPOがITと業務からの上級利害関係者にこれらの評価基準に対しての進捗のレポートを作成する。全体のDG統合プロセスは継続的な繰り返しを実施する必要がある。本プロセスにおいて結果を測定し、DGプログラムの継続的な保証について役員支援者にフィードバックする必要がある。

 

DG導入における決定的課題

以上の通り各ライフサイクルの概要を説明した。実際の適用においては以下の各種実務が必要となる。

  • 各種必要データ収集事項とそれらの詳細収集内容
  • データ管理様式と各種成果物の作成要領
  • 成果物説明書
  • 改善効果と効率を得るための方策
  • DG導入に実務的留意点(DG体制整備、業務系データスチワード要員育成、データスチワード成熟度診断、など)
  • その他

多くの文献には上記の具体的な内容は記述されていない。そのためDGの具体的導入においては関連の経験豊富かつノウハウを熟知したコンサルの支援を仰ぐのが通常の方式である。しかし、参考文献のDavid Plotkin著の「Data Stewardship」(総ページ数223)にはデータスチュワード機能(スキル、求められる機能・役割など)が相当具体的な説明がなされている。同書の精読をお勧めする。

 

次回は、DGとEA(エンタープライズ・アーキテクチャ)の関係に着目し、DA(データ・アーキテクチャ)がDGの導入にどう効果するかの考察と解説を行う。

 

文字数制約から詳細には言及できないが、データ統合、MDM、DGなどの推進、ソフトウェア選定とSI事業者選定などに関して、具体的な関心がある方は、遠慮なく問い合わせ(isaka@isaka.com)をお願いしたい。

 

参考文献:

日経コンピュータ2013.12.12日号と26日号
Data Governance Tools, Sunil Soares著, 2015, MC Press Online LLC
Data Stewardship, David Plotkin著, 2014, Morgan Kaufmann Publishers
 
※連載一覧こちら
 
Copyright©2017 Isaka Consulting Office, All rights reserved.
 
 ─ 伊阪哲雄プロフィール ──────────────────────

データ・マネジメントを専門とするITコンサルタント。1970年に外資系大手コンピュータ・メーカーに入社して以来、一貫してデータ・モデリング/設計やデータ・クレンジング、データ統合、マスターデータ管理、DG、人材育成に関わる支援を行ってきた。特に通信業界、医薬業界や、金融業界のデータ・マネジメントに詳しい。米国のデータ管理系コンサルタントと幅広い交友関係があり、米国など海外の事情にも通じ、例えば米MDM Instituteが主催するカンファレンスに頻繁に参加している。

 



※会員企業ロゴをランダムに表示しています。

 

 

Copyright© 2011-2017 JDMC All Rights Reserved.