著者:デイヴィッド・J・ハンド (著), 黒輪篤嗣 (翻訳)
私たちは世界を正しく認識しているつもりでも、たいせつな情報を見落としがちだ。 医療・健康、マネー、アンケート調査、科学論文などの事例をまじえて、情報分析の極意を伝授する! 「ダークデータとダークマターは似ている。ダークデータも目には見えず、記録されていないが、わたしたちの結論や決定や行動を大きく左右しうる。のちほど数々の例を紹介するように、知られていないことが潜んでいるという可能性を無視すると、不幸な結果や取り返しのつかない事態を招くことがある。 |
このサイトによると、
ダークデータ(Dark Data)とは、組織内でユーザーがデバイスやシステムをオンラインで操作することにより、日々生成され、蓄積されるビッグデータのうち、有効活用されずに、価値が不明な状態にあるデータの総称
と書かれています。
しかし本書では、もっと深いところまで捉えて、ダークデータを15に分類して紹介しています。
DDタイプ01 欠けていることが分かっているデータ
DDタイプ02 欠けていることが分かっていないデータ
DDタイプ03 一部の例だけを選ぶ
DDタイプ04 自己選別
DDタイプ05 重要なことを見落とす
DDタイプ06 あったかもしれないデータ
DDタイプ07 時の経過とともに変化する
DDタイプ08 データの定義
DDタイプ09 データの要約
DDタイプ10 測定誤差と不確かさ
DDタイプ11 フィードバックループとつけ入り
DDタイプ12 情報の非対称性
DDタイプ13 意図的なダークデータ化
DDタイプ14 データの捏造または合成
DDタイプ15 データ外の外挿
実際のビジネスデータでは、一つのタイプに分類されるわけではなく複雑に入り混じっています。たとえば、あるクレジットカードの例が書かれいましたが、そもそもクレジットカードの審査に通ったユーザーであることであったり、すべてをそのクレジットカードで物品・サービスを購入しているわけでもなく、もちろん現金での支払いもあるわけで、そう考えると上記のタイプのいくつにも当てはまることが想定されます。
ビッグデータといっても統計的な思考なくしては良い分析はできないということになるのでしょう。つまりデータで表されているのはサンプリングされた世界であり、偏った世界であるということです。これを補正して考えないと、いい分析もいい機械学習モデルも作ることはできないと。
このあたりは経験とセンスになってくるのだと思います。著者もいろいろな例を挙げながら、このあたりの見逃しを指摘しています。逆に読者はその著者の鋭い眼力を追体験しながらセンスを磨いていくというあたりは大いに学べるところだと思います。
P>306~ DDタイプの詳しい説明があるので、備忘のためにメモしておきたいと思います。
DDタイプ01 欠けていることが分かっているデータ
ーアンケートなどでの無回答
DDタイプ02 欠けていることが分かっていないデータ
-どんな人に調査したかが分かっていない
DDタイプ03 一部の例だけを選ぶ
-標本のゆがみ
DDタイプ04 自己選別
-(被調査者が)データベースに何を含めるかを自分で選べる
DDタイプ05 重要なことを見落とす
-因果関係の肝心な側面が抜けてしまっている
DDタイプ06 あったかもしれないデータ
-反事実のデータ、薬の調査で薬を飲まなかった人
DDタイプ07 時の経過とともに変化する
-データが古い
DDタイプ08 データの定義
-定義に一貫性がない
DDタイプ09 データの要約
-データを切り捨てる
DDタイプ10 測定誤差と不確かさ
-端数処理、天井効果、床効果
DDタイプ11 フィードバックループとつけ入り
-株価バブルなど、現実が歪められる
DDタイプ12 情報の非対称性
-インサイダー取引、アカロフのレモン畑など
DDタイプ13 意図的なダークデータ化
-特定の事例だけを選ぶ
DDタイプ14 データの捏造または合成
-意図したものだけでなく意図しないものもある
※ブートストラップ、ブースティング、平滑化などの統計処理
DDタイプ15 データ外の外挿
-取得したデータの最大値より上や最小値より下
これらのデータの見極めはビジネス感覚ともリンクするもので、データ分析をするであったり、機械学習での特徴量エンジニアリングをする際には必要不可欠な力だと思います。洞察力が浅いと見つけることはできません。
こういった見落としを防ぐためにも生成AIは使えると思います。答えをズバリというわけにはいかないと思いますが、自分の経験を蓄えていくことが一番の武器になるとは思いますが、便利なツールもうまく使っていきながら、分析精度を上げていってほしいと思います。