著者:堀井 俊佑 (著)
| 因果推論の大きな特徴は、「何を仮定するか」を常に明らかにしながら分析を進める点にあります。分析の結果、何らかの数値が得られたとしても、それが意味を持つのは、前提として置いた条件が成り立っている場合だけです。推定値そのものよりも、その背後にある構造や仮定を意識することこそが、因果推論を活用する第一歩なのです。 本書では、因果推論を学ぶうえで欠かせない二つの視点−潜在反応モデルと構造的因果モデル−を行き来しながら、それぞれの成り立ちや考え方、そして実際にデータから因果効果を推定する方法を紹介しています。異なる枠組みを対比させながら学ぶことで、「どちらの理論を使えばよいのか」という単純な選択ではなく、「状況や目的に応じてどう使い分けるか」を考える視点を身につけてください。◎本書の目次 第1章 統計的因果推論とは 意思決定の効果をより正確に推測する 1.1 統計的因果推論とは 1.2 「因果推論を意識しない分析」と「因果推論を意識した分析」の違い 1.3 実務課題解決において統計的因果推論が果たす役割第2章 統計的因果推論のための統計的基礎 条件付き確率と条件付き期待値の推定を理解する 2.1 変数の種類 2.2 確率分布の基礎 2.3 確率分布の推定 2.4 確率分布の特徴量の推定 2.5 条件付き確率分布の推定 2.6 ベイズ推論 2.7 機械学習を利用した条件付き期待値の推定第3章 潜在反応モデルに基づく因果推論 潜在反応モデルのフレームワークを理解する 3.1 潜在反応モデルと因果効果の統計的定義 3.2 セレクションバイアスとランダム化比較試験(RCT) 3.3 平均処置効果を推定するための条件 3.4 平均処置効果の推定方法 3.5 潜在反応フレームワークに基づく因果推論のデータ分析例 3.6 潜在反応フレームワークに基づく因果推論に関する様々な誤解第4章 構造的因果モデルに基づく因果推論 構造的因果モデルのフレームワークを理解する 4.1 構造的因果モデル 4.2 介入と平均因果効果 4.3 平均因果効果の推定 4.4 線形構造方程式モデルに基づく因果推論 4.5 構造的因果モデルフレームワークに基づく因果推論のデータ分析例 4.6 構造的因果モデルにおける重要な仮定とその検証 第5章 潜在反応モデルと構造的因果モデルの融合 第6章 調整に必要な変数が観測できない場合の因果推論 第7章 特殊なデータ構造を利用した因果推論 第8章 異質な因果効果の推定 第9章 実務で因果推論を活用するために |
因果推論には、Donald Rubinの提案した潜在反応モデルとJudea Pearlの提案した構造的因果モデルの2つのフレームワークがあり、本書ではどこが同じでどこが異なるのかを解説してくれています。
| 因果推論では、因果効果を推定するための前提条件(仮定)が成り立っているかが、推定結果の信頼性を左右します。これらの過程は、どれほど豊富なデータがあっても統計的に自動で保証されるものではなく、背景知識や現場の状況に照らして吟味する必要があります。(p.3) |
| データだけでは因果関係を明らかにすることは困難です。統計的因果推論は「因果関係を明らかにする」ことよりも、「因果効果の大きさを測る」ことに主眼を置いた理論なのです。(p.13) |
| 構造推定・予測と因果推論では推定したいものが異なります。データ分析者が、推定対象が何かを明確にしていないと、本当はやりたいことは因果推論なのに、実際に行っているのは構造推定ということになりかねません。(p.19) |
実務における統計的因果推論の事例として下記の4つが挙げられています。
1.A/Bテストとキャンペーンの最適化
2.顧客維持の改善
3.製品の新機能が売上に与える影響の評価
4.従業員のトレーニングプログラムの効果
ベルヌーイ分布におけるベイズ推論の説明が秀逸でしたので備忘メモしておきます。(p.72~)
| 事前分布p(θ)は、データ分析者が「θがデータ生成プロセスの真の特性を表すと信じている度合い」を数値化したもの。
事後分布は、データを観測した後の、データ分析者の信念を数値化したもの。 事前分布はデータ分析者が設定したものですが、事後分布は設定した事前分布とデータからベイズの定理によって自動的に決まります。パラメータの事後分布を求めることを、ベイズ推論と言います。(pp.72-pp.73) |
ンダムサンプリングは、「観測されたデータが母集団の性質を、どの程
| サンプルサイズが大きいと、真の不良率θに関する信念が強いことを反映しています。このような信念の強弱の評価を、不確実性の評価と呼ぶこともあります。不確実性の評価はベイズ推論の強力な特徴の一つであり、観測データの規模や質によって推論の信頼性を調整する能力を持っています。(p.75) |
| ランダム化比較試験(Randomized Controlled Trial:RCT)は推定の手法ではなく、データの取得方法の一つ。RCTは、Tの割り当てを他の変数とは独立に行うというデータの取得方法。・・・ランダムサンプリングとは目的と意味が本質的に異なるので注意が必要。ランダムサンプリングは、母集団から無作為にサンプルを抽出することを指します。目的は、得られたサンプルが母集団を代表するようにすることにあります。つまり、ラ度よく反映しているか」を保証するための前提です。・・・RCTは、処置の割り当てを無作為に決めることを指します。RCTの目的は交絡因子が処置と結果の両方に影響を与える可能性を排除することです。(pp.92-93) |
【潜在反応モデル】のまとめ(p.124)
|
【構造的因果モデル】のまとめ(p.169)
|
このあと、潜在反応モデルと構造的因果モデルを組み合わせた因果推論のデータ分析例を紹介してくれます。
筆者はビジネスドメイン知識の必要性をことあるごとに書いています。ここでも「データ分析者の勝手な思い込みで因果ダイアグラムを描いて、バックドア基準を満たす変数集合に基づく傾向スコアを利用した分析をしても、仮定の検証が不十分であれば、意味のある分析結果は得られない」(p.183)と言っています。
また、因果効果の推定の先にあるものとして非常に重要なことにも言及しています。「平均処置効果(ATE)や条件付き兵員処置効果(CATE)を推定したとして、それが具体的にどのような行動につながるのかは、明確に考えておく必要があります」(p.307)と。そして、因果推論は唯一の答えを導き出すための技術ではなく、意思決定の選択肢を構造的に整理し、「なぜ、その選択をするのか」という議論を深めるための技術である(p.308)とも述べています。
因果推論に関する書籍は今まで何冊か読みましたが、入門書としては大変読みやすく、明確に2つのモデルを区別しさらに統合したソリューションとしても説明され、理解も深め安いと思います。
著者の経歴を見るとアカデミックな世界のみの方のように見受けられますが、ビジネスドメイン知識の重要性を何度も語り、最後の章でも改めてそれを述べています。非常にしっかりした形でビジネスデータアナリシスの教科書としても使える内容だと思いました。