著者:Danette McGilvray (著), 木山靖史 (翻訳), 宮治徹 (翻訳), 井桁貞裕 (翻訳)
ビジネスにおいてデータの重要性はかつてないほど高まっています。機械学習を含むAIはあらゆるビジネスに影響を与えつつありますが、そもそもAIが学習するデータの信頼性が低かったら、当然アウトプットも信頼性が低いものになります。データ経営と言われているようなデータに基づいたビジネス上の決定も、信頼できるデータや情報がそろっていることが前提になります。
本書の著者のDanette McGilvrayはデータ品質を上げるためのプログラムに2009年から携わっています。そして、データ品質を改善するプロジェクトの実践的な方法論として、本書で解説している「10ステップ」を確立しました。
この日本語版の基となった第2版では10ステップの実践例を多く盛り込み、より実用的で多くの人の参考になる内容になりました。また、経営陣にデータの重要性とデータ品質を上げるプロジェクトへの理解を深めてもらい、協力を得るためのビジネスインパクト・テクニックについても、具体的に解説しています。
データスチュワードシップ データマネジメント&ガバナンスの実践ガイド
この2冊とセットで読みたい1冊です。
P.44に「リーダーのためのデータ宣言」というのがあります。こちらのサイトで、日本語でもダウンロードできます。(日本語ページ)
この宣言は次のような役割を果たしてくるという。
| リーダーのためのデータ宣言は、データ資産のマネジメントに対する支持を得るための一助として提供されるものであり、データ品質に関するワークを前進させるものでもある。(p.45) |
P.47に「あらゆるレベルの教育機関にデータ(品質)マネジメントを取り入れてもらう」とあるのですが、これは本当に思います。データ分析をする際に、安価なストレージやクラウド環境になってデータはたくさん溜まってきていますが、同じ値でも項目名が違ったり、その逆も然り。ジョインするにもそのキーがユニークなのかそうでないのかもはっきりしないとか。データのクレンジングにめちゃくちゃ時間がかかります。
またテーブルをAI-readyな状況にしておかないとAIが理解できない。特に日本の場合、項目名が英語だけとは限らず、日本語交じりになっていたり、ましてや命名規則もなく自由につけられていたりすると悲惨です。
AI-readyを考えると、データ品質の高さはビジネス上でのすごい競争優位になると思います。(もちろんこの本もそのために書かれています)
そういう意味でも、開発者にデータ品質について学ばせる機会はめちゃくちゃ重要で、IPAの情報処理関連の資格にもこの項目をぶち込んでほしいです。早くしないと、日本はただでさえ、命名時に日本語・英語があって選択肢が多くなるので不利なので、この考えを浸透させる必要があるように思います。
P.74からの情報品質フレームワーク(FIQ:Framework for Information Quality)は是非現場で活用したいコンセプトです。これからデータ設計する上では必須で、すでにできあがったデータ環境でもやってみる価値はありそうです。
情報ライフサイクルとして、
1.計画(Plan)
2.入手(Obtain)
3.保有と共有(Store and Share)
4.維持(Maintain)
5.適用(Apply)
6.廃棄(Dispose)
の頭文字をとってPOSMADが基本的なフェーズとして説明されています。
このPOSMADと合わせて重要な構成要素として、
1.データ(What)
2.プロセス(How)
3.人と組織(Who)
4.テクノロジー(How)
が書かれています。
縦軸に4つの構成要素、横軸にPOSMADの4×6の24のあトリクスにそれぞれの関係、つながり、インターフェースを書き込んでいき、何を知っておくべきかを理解する必要があるとのこと。
経験豊富なビジネスアナリストであれば、これらの質問をすぐに理解して、情報の視点がどのように自分たちの仕事をよりよくできるかを理解するだろうと書かれていますが全くその通りです。
さらにPOSMAD情報ライフサイクル全体を通して考慮すべきとして、別の幅広い影響がある構成要素が挙げられています。それらも列挙しておくべきだとしています。
幅広い影響がある構成要素
1.要約と製薬(Requirement and constraints)
2.責任(Responsibility)
3.改善と予防(Improvement and Prevention)
4.構造、コンテキスト、意味(Structure, Context and Meaning)
5.コミュニケーション(Communication)
6.変化(Change)
7.倫理(Ethics)
これらの頭文字を取ってRRISCCE(リスキーと発音)として、低品質なデータのリスクは、コラらの構成要素の確実に対処することによって低下すると書かれています。
P.96からデータ品質評価軸が挙げられています。これも秀逸ですね。データベーススペシャリストの資格を取るときにもデータベースのカラムとしての観点で勉強はしましたが、データそのものとしてこういう風に定義されたのを見ると、現状使っているデータの品質の低さに頭が痛くなりますね。
<データ品質評価軸>(p.98)
|
<ビジネスインパクト・テクニック>(p.108)
|
データガバナンスとデータスチュワードシップの定義が書かれていたので、書いておきます。(p.139)
| ●データガバナンス 情報資産の効果的なマネジメントのための関与ルール、意思決定権限、実行責任を規定し、矯正するための方針、手順、構造、役割、説明責任の組織化を実施することである。●データスチュワードシップ 代理として情報資源を管理し、組織の改善の利益について公式に説明責任を与えるデータガバナンスのアプローチである。 |
データ品質ワークとして知っておくべき項目として下記が挙げられています。(p.142)
|
P.143にメインディッシュの「10ステッププロセスの概要」が始まります。
<10ステッププロセス>(p.144)
|
以下のページでは具体的な、上記の10ステップの解説やプロジェクトの中にどう組み込んでいくかなど様々なテクニックが書かれていて、実際に行うときに何度も振り返って学びたい内容が網羅されています。
また、いろいろな既存のSDLC(ソリューション開発ライフサイクル)と絡めてたり、シックスシグマのときに登場するDMAICなども出てきていて非常に興味深いアプローチが書かれています。
※DMAIC:DMAICとは、Define(定義)、Measure(測定)、Analyze(分析)、Improve(改善)、Control(管理)の5つのステップの頭文字を取った、シックスシグマなどに用いられるデータに基づいたプロセス改善手法
付録のクイックリファレンスには、これまでの内容の重要ポイントや用語が列挙されていて、ここだけ見ていても勉強になります。
データに関わる人には、高価になりますが一読を奨めたい一冊です。(特に、データエンジニアはもちろん、フロントエンジニアやバックエンドのエンジニアには知ってもらいたい内容です。)
