データ品質プロジェクト実践ガイド 

データ品質プロジェクト実践ガイド 

著者:Danette McGilvray (著), 木山靖史 (翻訳), 宮治徹 (翻訳), 井桁貞裕 (翻訳)

ビジネスにおいてデータの重要性はかつてないほど高まっています。機械学習を含むAIはあらゆるビジネスに影響を与えつつありますが、そもそもAIが学習するデータの信頼性が低かったら、当然アウトプットも信頼性が低いものになります。データ経営と言われているようなデータに基づいたビジネス上の決定も、信頼できるデータや情報がそろっていることが前提になります。

本書の著者のDanette McGilvrayはデータ品質を上げるためのプログラムに2009年から携わっています。そして、データ品質を改善するプロジェクトの実践的な方法論として、本書で解説している「10ステップ」を確立しました。

この日本語版の基となった第2版では10ステップの実践例を多く盛り込み、より実用的で多くの人の参考になる内容になりました。また、経営陣にデータの重要性とデータ品質を上げるプロジェクトへの理解を深めてもらい、協力を得るためのビジネスインパクト・テクニックについても、具体的に解説しています。

データマネジメント知識体系ガイド 第二版 改定新版

データスチュワードシップ データマネジメント&ガバナンスの実践ガイド

この2冊とセットで読みたい1冊です。

P.44に「リーダーのためのデータ宣言」というのがあります。こちらのサイトで、日本語でもダウンロードできます。(日本語ページ

この宣言は次のような役割を果たしてくるという。

 リーダーのためのデータ宣言は、データ資産のマネジメントに対する支持を得るための一助として提供されるものであり、データ品質に関するワークを前進させるものでもある。(p.45)

P.47に「あらゆるレベルの教育機関にデータ(品質)マネジメントを取り入れてもらう」とあるのですが、これは本当に思います。データ分析をする際に、安価なストレージやクラウド環境になってデータはたくさん溜まってきていますが、同じ値でも項目名が違ったり、その逆も然り。ジョインするにもそのキーがユニークなのかそうでないのかもはっきりしないとか。データのクレンジングにめちゃくちゃ時間がかかります。

またテーブルをAI-readyな状況にしておかないとAIが理解できない。特に日本の場合、項目名が英語だけとは限らず、日本語交じりになっていたり、ましてや命名規則もなく自由につけられていたりすると悲惨です。

AI-readyを考えると、データ品質の高さはビジネス上でのすごい競争優位になると思います。(もちろんこの本もそのために書かれています)

そういう意味でも、開発者にデータ品質について学ばせる機会はめちゃくちゃ重要で、IPAの情報処理関連の資格にもこの項目をぶち込んでほしいです。早くしないと、日本はただでさえ、命名時に日本語・英語があって選択肢が多くなるので不利なので、この考えを浸透させる必要があるように思います。

P.74からの情報品質フレームワーク(FIQ:Framework for Information Quality)は是非現場で活用したいコンセプトです。これからデータ設計する上では必須で、すでにできあがったデータ環境でもやってみる価値はありそうです。

情報ライフサイクルとして、
1.計画(Plan)
2.入手(Obtain)
3.保有と共有(Store and Share)
4.維持(Maintain)
5.適用(Apply)
6.廃棄(Dispose)
の頭文字をとってPOSMADが基本的なフェーズとして説明されています。

このPOSMADと合わせて重要な構成要素として、
1.データ(What)
2.プロセス(How)
3.人と組織(Who)
4.テクノロジー(How)
が書かれています。

縦軸に4つの構成要素、横軸にPOSMADの4×6の24のあトリクスにそれぞれの関係、つながり、インターフェースを書き込んでいき、何を知っておくべきかを理解する必要があるとのこと。

経験豊富なビジネスアナリストであれば、これらの質問をすぐに理解して、情報の視点がどのように自分たちの仕事をよりよくできるかを理解するだろうと書かれていますが全くその通りです。

さらにPOSMAD情報ライフサイクル全体を通して考慮すべきとして、別の幅広い影響がある構成要素が挙げられています。それらも列挙しておくべきだとしています。

幅広い影響がある構成要素
1.要約と製薬(Requirement and constraints)
2.責任(Responsibility)
3.改善と予防(Improvement and Prevention)
4.構造、コンテキスト、意味(Structure, Context and Meaning)
5.コミュニケーション(Communication)
6.変化(Change)
7.倫理(Ethics)
これらの頭文字を取ってRRISCCE(リスキーと発音)として、低品質なデータのリスクは、コラらの構成要素の確実に対処することによって低下すると書かれています。

P.96からデータ品質評価軸が挙げられています。これも秀逸ですね。データベーススペシャリストの資格を取るときにもデータベースのカラムとしての観点で勉強はしましたが、データそのものとしてこういう風に定義されたのを見ると、現状使っているデータの品質の低さに頭が痛くなりますね。

 

<データ品質評価軸>(p.98)

  1. 関連性と信頼の認識
  2. データ仕様
  3. データの基本的整合性
  4. 正確性
  5. 一貫性と重複排除
  6. 一貫性と同期性
  7. 適時性
  8. アクセス
  9. セキュリティとプライバシー
  10. プレゼンテーションの品質
  11. データの網羅性
  12. データの劣化
  13. ユーザビリティと取引可能性
  14. その他の関連するデータ品質評価軸
 <ビジネスインパクト・テクニック>(p.108)

  1. エピソード
  2. 点と点を繋げる
  3. 用途
  4. ビジネスインパクトを探る5つのなぜ
  5. プロセスインパクト
  6. リスク分析
  7. 関連性と信頼の認識
  8. 費用対効果マトリクス
  9. ランキングと優先順位付け
  10. 低品質データのコスト
  11. 費用対効果分析とROI
  12. その他の関連するビジネスインパクト・テクニック

データガバナンスとデータスチュワードシップの定義が書かれていたので、書いておきます。(p.139)

 ●データガバナンス
情報資産の効果的なマネジメントのための関与ルール、意思決定権限、実行責任を規定し、矯正するための方針、手順、構造、役割、説明責任の組織化を実施することである。●データスチュワードシップ
代理として情報資源を管理し、組織の改善の利益について公式に説明責任を与えるデータガバナンスのアプローチである。

データ品質ワークとして知っておくべき項目として下記が挙げられています。(p.142)

  •  説明責任:データのライフサイクルを通じて、説明と実行の責任を負う者
  • 決定権:データのライフサイクルを通じて、データに関する決定を行う権利を持つ者
  • エンゲージメントのルール:様々な人々や組織がどのように相互アクションするか
  • コミュニケーションパス:誰が、いつ、何を、どのように知るべきか
  • エスカレーションパス:決定すべき事項の関係者が合意に至らなかった場合、誰が最終決定を下すのか

P.143にメインディッシュの「10ステッププロセスの概要」が始まります。

 <10ステッププロセス>(p.144)

  1. ビジネスニーズとアプローチの決定
  2. 情報環境の分析
  3. データ品質の評価
  4. ビジネスインパクトの評価
  5. 根本原因の特定
  6. 改善計画の策定
  7. データエラー発生の防止
  8. 現在のデータエラーの修正
  9. コントロールの監視
  10. 全体を通して人々とコミュニケーションを取り、管理し、巻き込む

以下のページでは具体的な、上記の10ステップの解説やプロジェクトの中にどう組み込んでいくかなど様々なテクニックが書かれていて、実際に行うときに何度も振り返って学びたい内容が網羅されています。

また、いろいろな既存のSDLC(ソリューション開発ライフサイクル)と絡めてたり、シックスシグマのときに登場するDMAICなども出てきていて非常に興味深いアプローチが書かれています。

※DMAIC:DMAICとは、Define(定義)、Measure(測定)、Analyze(分析)、Improve(改善)、Control(管理)の5つのステップの頭文字を取った、シックスシグマなどに用いられるデータに基づいたプロセス改善手法

付録のクイックリファレンスには、これまでの内容の重要ポイントや用語が列挙されていて、ここだけ見ていても勉強になります。

データに関わる人には、高価になりますが一読を奨めたい一冊です。(特に、データエンジニアはもちろん、フロントエンジニアやバックエンドのエンジニアには知ってもらいたい内容です。)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください