分析者のための因果推論入門　データ分析と意思決定を紐づける手法と考え方を網羅的に詳解する

Inobe.Shion

6日前

著者：堀井俊佑 (著)

因果推論の大きな特徴は、「何を仮定するか」を常に明らかにしながら分析を進める点にあります。分析の結果、何らかの数値が得られたとしても、それが意味を持つのは、前提として置いた条件が成り立っている場合だけです。推定値そのものよりも、その背後にある構造や仮定を意識することこそが、因果推論を活用する第一歩なのです。
本書では、因果推論を学ぶうえで欠かせない二つの視点−潜在反応モデルと構造的因果モデル−を行き来しながら、それぞれの成り立ちや考え方、そして実際にデータから因果効果を推定する方法を紹介しています。異なる枠組みを対比させながら学ぶことで、「どちらの理論を使えばよいのか」という単純な選択ではなく、「状況や目的に応じてどう使い分けるか」を考える視点を身につけてください。◎本書の目次
第1章　統計的因果推論とは
意思決定の効果をより正確に推測する
1.1　統計的因果推論とは
1.2　「因果推論を意識しない分析」と「因果推論を意識した分析」の違い
1.3　実務課題解決において統計的因果推論が果たす役割第2章　統計的因果推論のための統計的基礎
条件付き確率と条件付き期待値の推定を理解する
2.1　変数の種類
2.2　確率分布の基礎
2.3　確率分布の推定
2.4　確率分布の特徴量の推定
2.5　条件付き確率分布の推定
2.6　ベイズ推論
2.7　機械学習を利用した条件付き期待値の推定第3章　潜在反応モデルに基づく因果推論
潜在反応モデルのフレームワークを理解する
3.1　潜在反応モデルと因果効果の統計的定義
3.2　セレクションバイアスとランダム化比較試験（RCT）
3.3　平均処置効果を推定するための条件
3.4　平均処置効果の推定方法
3.5　潜在反応フレームワークに基づく因果推論のデータ分析例
3.6　潜在反応フレームワークに基づく因果推論に関する様々な誤解第4章　構造的因果モデルに基づく因果推論
構造的因果モデルのフレームワークを理解する
4.1　構造的因果モデル
4.2　介入と平均因果効果
4.3　平均因果効果の推定
4.4　線形構造方程式モデルに基づく因果推論
4.5　構造的因果モデルフレームワークに基づく因果推論のデータ分析例
4.6　構造的因果モデルにおける重要な仮定とその検証

第5章　潜在反応モデルと構造的因果モデルの融合
2つのフレームワークを融合させて分析の幅を広げる
5.1　構造的因果モデルにおける潜在反応
5.2　潜在反応モデルと構造的因果モデルを組み合わせた因果推論のデータ分析例
5.3　重回帰分析による因果推論
5.4　構造的因果モデルにおける反事実推論

第6章　調整に必要な変数が観測できない場合の因果推論
未観測の交絡因子を克服するには
6.1　操作変数法による因果効果の識別
6.2　操作変数法による因果推論のデータ分析例
6.3　フロントドア基準による因果効果の識別
6.4　フロントドア基準による因果推論のデータ分析例

第7章　特殊なデータ構造を利用した因果推論
差分の差分法、回帰不連続デザイン
7.1　差分の差分法
7.2　差分の差分法による因果推論のデータ分析例
7.3　回帰不連続デザイン
7.4　Sharp RDDによる因果推論のデータ分析例
7.5　Fuzzy RDDによる因果推論のデータ分析例

第8章異質な因果効果の推定
効果のばらつきが示す意思決定のヒント
8.1　潜在反応モデルにおける異質な因果効果の扱い
8.2　条件付き平均処置効果推定のデータ分析例
8.3　構造的因果モデルにおける異質な因果効果の扱い
8.4　条件付き平均因果効果推定のデータ分析例
8.5　異質な因果効果推定に関する注意点

第9章　実務で因果推論を活用するために
因果推論を意思決定に活かすための視点と限界
9.1　意思決定における因果推論の位置づけ
9.2　因果推論の仮定への向き合い方
9.3　現場と分析をつなぐための対話

因果推論には、Donald Rubinの提案した潜在反応モデルとJudea Pearlの提案した構造的因果モデルの2つのフレームワークがあり、本書ではどこが同じでどこが異なるのかを解説してくれています。

因果推論では、因果効果を推定するための前提条件（仮定）が成り立っているかが、推定結果の信頼性を左右します。これらの過程は、どれほど豊富なデータがあっても統計的に自動で保証されるものではなく、背景知識や現場の状況に照らして吟味する必要があります。（p.3）

データだけでは因果関係を明らかにすることは困難です。統計的因果推論は「因果関係を明らかにする」ことよりも、「因果効果の大きさを測る」ことに主眼を置いた理論なのです。（p.13）

構造推定・予測と因果推論では推定したいものが異なります。データ分析者が、推定対象が何かを明確にしていないと、本当はやりたいことは因果推論なのに、実際に行っているのは構造推定ということになりかねません。（p.19）

実務における統計的因果推論の事例として下記の4つが挙げられています。
1．A/Bテストとキャンペーンの最適化
2．顧客維持の改善
3．製品の新機能が売上に与える影響の評価
4．従業員のトレーニングプログラムの効果

ベルヌーイ分布におけるベイズ推論の説明が秀逸でしたので備忘メモしておきます。（p.72~）

事前分布p(θ)は、データ分析者が「θがデータ生成プロセスの真の特性を表すと信じている度合い」を数値化したもの。

事後分布は、データを観測した後の、データ分析者の信念を数値化したもの。

事前分布はデータ分析者が設定したものですが、事後分布は設定した事前分布とデータからベイズの定理によって自動的に決まります。パラメータの事後分布を求めることを、ベイズ推論と言います。（pp.72-pp.73）

ンダムサンプリングは、「観測されたデータが母集団の性質を、どの程

サンプルサイズが大きいと、真の不良率θに関する信念が強いことを反映しています。このような信念の強弱の評価を、不確実性の評価と呼ぶこともあります。不確実性の評価はベイズ推論の強力な特徴の一つであり、観測データの規模や質によって推論の信頼性を調整する能力を持っています。（p.75）

ランダム化比較試験（Randomized Controlled Trial:RCT）は推定の手法ではなく、データの取得方法の一つ。RCTは、Tの割り当てを他の変数とは独立に行うというデータの取得方法。・・・ランダムサンプリングとは目的と意味が本質的に異なるので注意が必要。ランダムサンプリングは、母集団から無作為にサンプルを抽出することを指します。目的は、得られたサンプルが母集団を代表するようにすることにあります。つまり、ラ度よく反映しているか」を保証するための前提です。・・・RCTは、処置の割り当てを無作為に決めることを指します。RCTの目的は交絡因子が処置と結果の両方に影響を与える可能性を排除することです。（pp.92-93）

【潜在反応モデル】のまとめ（p.124）

潜在反応変数を導入することで、因果効果を定量的の捉えることが可能となる。具体的には平均処置効果を定義し、因果効果の推定対象の一つとして明確化した。
処置変数と結果変数の間に共通原因が存在する場合、セレクションバイアスの影響により、単純な条件付き期待値の差では平均処置効果を正確に推定できない。
セレクションバイアスを解消するためには、処置割り当てを無作為に行うRCTが有効である。
RCTを実施できない場合でも、「強い意味での無視可能性」・「正確性」の条件が満たされれば、観測データから平均処置効果を推定できる。
平均処置効果の具体的な推定方法として、マッチング推定量、逆確率重み付け推定量、線形回帰モデルによる推定方法などがある。

【構造的因果モデル】のまとめ（p.169）

構造的因果モデルでは、データの生成メカニズムが構造方程式により記述される。
構造方程式により定まる変数間の関係性は、因果ダイアグラムにより視覚的に表現される。
外的操作により、ある変数の値を固定することを介入という。
構造的因果モデルにより因果推論では、介入により、介入を行わなかった変数の構造的方程式が変化しないことが仮定される。
介入により処置変数の値を異なる値に固定したときの、結果変数の期待値の差を平均因果効果という。
平均因果効果は、条件付き分布を推定することで推定することが可能。
因果ダイアグラムの一部の編巣が観測できなかったとしても、バックドア基準を満たす変数が観測できれば、平均因果効果は推定可能。
線形構造方程式モデルでは、因果関係を線形な方程式で記述し、直接効果・間接効果・総合効果がパス係数により表現される。
線形構造方程式モデルにおいては、総合効果と平均因果効果が一致し、これはバックドア基準を満たす変数集合が観測できれば、重回帰分析により推定することができる。

このあと、潜在反応モデルと構造的因果モデルを組み合わせた因果推論のデータ分析例を紹介してくれます。

筆者はビジネスドメイン知識の必要性をことあるごとに書いています。ここでも「データ分析者の勝手な思い込みで因果ダイアグラムを描いて、バックドア基準を満たす変数集合に基づく傾向スコアを利用した分析をしても、仮定の検証が不十分であれば、意味のある分析結果は得られない」（p.183）と言っています。

また、因果効果の推定の先にあるものとして非常に重要なことにも言及しています。「平均処置効果（ATE)や条件付き兵員処置効果（CATE)を推定したとして、それが具体的にどのような行動につながるのかは、明確に考えておく必要があります」（p.307）と。そして、因果推論は唯一の答えを導き出すための技術ではなく、意思決定の選択肢を構造的に整理し、「なぜ、その選択をするのか」という議論を深めるための技術である（p.308）とも述べています。

因果推論に関する書籍は今まで何冊か読みましたが、入門書としては大変読みやすく、明確に2つのモデルを区別しさらに統合したソリューションとしても説明され、理解も深め安いと思います。

著者の経歴を見るとアカデミックな世界のみの方のように見受けられますが、ビジネスドメイン知識の重要性を何度も語り、最後の章でも改めてそれを述べています。非常にしっかりした形でビジネスデータアナリシスの教科書としても使える内容だと思いました。