ダークデータ: 隠れたデータこそが最強の武器になる

ダークデータ: 隠れたデータこそが最強の武器になる

著者:デイヴィッド・J・ハンド (著), 黒輪篤嗣 (翻訳)

私たちは世界を正しく認識しているつもりでも、たいせつな情報を見落としがちだ。
医療・健康、マネー、アンケート調査、科学論文などの事例をまじえて、情報分析の極意を伝授する!

「ダークデータとダークマターは似ている。ダークデータも目には見えず、記録されていないが、わたしたちの結論や決定や行動を大きく左右しうる。のちほど数々の例を紹介するように、知られていないことが潜んでいるという可能性を無視すると、不幸な結果や取り返しのつかない事態を招くことがある。
ダークデータがどのように生じるのか、なぜ生じるのかを探るのが、本書の目的だ。(中略)最後には、知恵を働かせれば、ダークデータを有効活用できることについても話したい。奇妙なパラドクスのようだが、無知やダークデータの視点を取り入れることで、よりよい判断やよりよい行動が可能になる。つまり、具体的にいうなら、不明なことをうまく使うことで、もっと健康的な生活を送ったり、もっと収入を増やしたり、もっとリスクを減らしたりできるのだ」(本文より)

 

このサイトによると、
ダークデータ(Dark Data)とは、組織内でユーザーがデバイスやシステムをオンラインで操作することにより、日々生成され、蓄積されるビッグデータのうち、有効活用されずに、価値が不明な状態にあるデータの総称
と書かれています。

しかし本書では、もっと深いところまで捉えて、ダークデータを15に分類して紹介しています。

DDタイプ01 欠けていることが分かっているデータ
DDタイプ02  欠けていることが分かっていないデータ
DDタイプ03  一部の例だけを選ぶ
DDタイプ04  自己選別
DDタイプ05  重要なことを見落とす
DDタイプ06  あったかもしれないデータ
DDタイプ07  時の経過とともに変化する
DDタイプ08  データの定義
DDタイプ09  データの要約
DDタイプ10  測定誤差と不確かさ
DDタイプ11  フィードバックループとつけ入り
DDタイプ12  情報の非対称性
DDタイプ13  意図的なダークデータ化
DDタイプ14  データの捏造または合成
DDタイプ15  データ外の外挿

実際のビジネスデータでは、一つのタイプに分類されるわけではなく複雑に入り混じっています。たとえば、あるクレジットカードの例が書かれいましたが、そもそもクレジットカードの審査に通ったユーザーであることであったり、すべてをそのクレジットカードで物品・サービスを購入しているわけでもなく、もちろん現金での支払いもあるわけで、そう考えると上記のタイプのいくつにも当てはまることが想定されます。

ビッグデータといっても統計的な思考なくしては良い分析はできないということになるのでしょう。つまりデータで表されているのはサンプリングされた世界であり、偏った世界であるということです。これを補正して考えないと、いい分析もいい機械学習モデルも作ることはできないと。

このあたりは経験とセンスになってくるのだと思います。著者もいろいろな例を挙げながら、このあたりの見逃しを指摘しています。逆に読者はその著者の鋭い眼力を追体験しながらセンスを磨いていくというあたりは大いに学べるところだと思います。

P>306~ DDタイプの詳しい説明があるので、備忘のためにメモしておきたいと思います。

DDタイプ01 欠けていることが分かっているデータ
ーアンケートなどでの無回答

DDタイプ02  欠けていることが分かっていないデータ
-どんな人に調査したかが分かっていない

DDタイプ03  一部の例だけを選ぶ
-標本のゆがみ

DDタイプ04  自己選別
-(被調査者が)データベースに何を含めるかを自分で選べる

DDタイプ05  重要なことを見落とす
-因果関係の肝心な側面が抜けてしまっている

DDタイプ06  あったかもしれないデータ
-反事実のデータ、薬の調査で薬を飲まなかった人

DDタイプ07  時の経過とともに変化する
-データが古い

DDタイプ08  データの定義
-定義に一貫性がない

DDタイプ09  データの要約
-データを切り捨てる

DDタイプ10  測定誤差と不確かさ
-端数処理、天井効果、床効果

DDタイプ11  フィードバックループとつけ入り
-株価バブルなど、現実が歪められる

DDタイプ12  情報の非対称性
-インサイダー取引、アカロフのレモン畑など

DDタイプ13  意図的なダークデータ化
-特定の事例だけを選ぶ

DDタイプ14  データの捏造または合成
-意図したものだけでなく意図しないものもある
※ブートストラップ、ブースティング、平滑化などの統計処理

DDタイプ15  データ外の外挿
-取得したデータの最大値より上や最小値より下

これらのデータの見極めはビジネス感覚ともリンクするもので、データ分析をするであったり、機械学習での特徴量エンジニアリングをする際には必要不可欠な力だと思います。洞察力が浅いと見つけることはできません。

こういった見落としを防ぐためにも生成AIは使えると思います。答えをズバリというわけにはいかないと思いますが、自分の経験を蓄えていくことが一番の武器になるとは思いますが、便利なツールもうまく使っていきながら、分析精度を上げていってほしいと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


This site uses Akismet to reduce spam. Learn how your comment data is processed.