はじめに
根拠に基づいた意思決定を行うこと (EBPM; Evidence Based Policy Making) が、近年分野を問わず重要視されるようになってきています。意思決定を行う立場としては、根拠となる事象と結果の事象の間に因果関係があるのか、それとも相関関係しかないのかは大変大きな違いです。
因果関係と相関関係を混同した1つの有名な例として、チョコレート摂取量とノーベル賞の受賞者数に関する研究があります。この研究では、「チョコレートを多く摂取するとノーベル賞受賞者数が増加する」という因果関係の存在について触れられています。この論文は、2012年に世界で最も権威のある医学雑誌の1つである New England Journal of Medicine に掲載され、世界規模で大きな論争を引き起こしました。論文では、国ごとのチョコレート消費量とノーベル賞受賞者数を調べたところ、チョコレート消費量の多い国ほどノーベル賞受賞者数が多いというデータが示されました。論争のポイントとなったのは、各国のチョコレート消費量とノーベル賞受賞者数の関係が以下のどちらの関係であるかについてです。
- チョコレートを摂取すればノーベル賞受賞者は増加する(因果関係)
- 別の隠れた要因がそれぞれに影響を与えており、チョコレート消費量とノーベル賞受賞者数の間に見かけ上の関連性が生まれている(相関関係)
一体どちらの主張が正しいのでしょうか。読者の方には、ぜひ今の意見と、このコラム連載が終了した後の意見を比較していただきたいと考えています。
統計的因果推論 (Causal causal inference) とは、因果関係をデータから導くための体系的な学問領域であり、2021年に David Card, Joshua Angrist, Guido Imbensの3名がノーベル経済学賞を受賞したことも相まって、現在大きな注目を集めています。しかし、その注目の程度と比べると、内容についてはあまり認知されていないように思います。そこで本ブログ・シリーズでは、統計的因果推論(または、単に因果推論)に関する連載を行います。データアナリティクスに関わる多くの方に、因果とは何か、それをデータから導くためには何が必要となるのかを理解をしていただき、適切なデータアナリティクスのために活用されることを望みます。連載コラムで取り扱う内容は以下を予定しています。
- 理論編
- 潜在アウトカムの枠組み
- 因果効果を求めるために必要な条件
- 観察研究と実験研究における交換可能性
- 選択バイアス (selection bias)
- 測定誤差 (measurement error)
- 手法・実装編
- 推定におけるモデルの必要性
- 層別化・回帰・標準化
- 傾向スコアとそれを用いた手法
- 操作変数法
理論編では、データから因果関係を考えるために必要となる概念、および仮定について取り扱います。また、観測される関係が真の関係と異なる要因について解説を行います。手法・実装編では、理論編で扱う潜在アウトカムの枠組みで因果効果を推定する手法についてSASでの実装方法とともに紹介を行います。SASソフトウェアでは、2016年以降のバージョンで、因果推論に特化した機能が利用できます。
なお、手法・実装編で紹介する因果効果の推定手法は、すべてを網羅しているわけではなく、回帰不連続デザインなど他にもいくつかの手法があることにご注意ください。 本コラムでは出来る限り数学的な記載は避け、直感的な表現をすることに努めますが、数理的な部分に興味がある方に向けた参考資料も準備しています。コラム中に登場する解析例で使用したプログラム・コードは著者のGithub上で公開を行う予定です。
謝辞
この連載記事では、参考文献として主に以下の2つを使用します。
- Causal Inference: What If
- 著者:Miguel A. Hernan, James M. Robins
- 所属:Harvard T.H. Chan School of Public Health
- 医学のための因果推論の基礎概念
- 著者:田中司朗
- 所属:京都大学医学研究科臨床統計学
本コラムの連載にあたりHernan先生、田中司朗先生には著書の使用をご快諾いただき、誠にありがとうございます。また、コラムの原稿は田栗正隆先生、折原隼一郎先生(東京医科大学)に監修いただきます。この場を借りて厚く御礼申し上げます。なお、上記の2冊以外の参考文献については各回で適宜紹介を行います。