Tag: 統計的因果推論コラム

Analytics | Students & Educators
0
本当の原因は何か?:因果効果を求めるために必要な条件

はじめに   前回のコラムでは因果関係を統計学的に考えるために「潜在アウトカム」という概念を導入しました。そして、因果効果を異なる介入レベルの潜在アウトカムの比較によって定義しました。例えば、心臓移植という介入がその後の生存に関して因果効果を持つかどうかを考えたい場合には、各個人が心臓移植を受けたらどうなったか、もしくは受けなかったらどうなっていたかという2つのifの結果(潜在アウトカム)を考え、それぞれを比較します。これが潜在アウトカムの枠組みでの因果推論(Rubin流の因果推論)の基本的な考え方になります。   しかし、詳細については後述しますが、このifの結果である潜在アウトカムは、現実にはいずれか1つしか観測はされず、もう一方は現実には得られない結果(反事実)となるため、個人における因果効果は定義することは可能であっても、その値を求めることは一般には出来ません。しかし、平均因果効果については識別可能条件 (identifiability conditions) と呼ばれる以下の3つの仮定の下では、その値をデータから推定することが可能です。    一致性 (consistency)    交換可能性 (exchangeability)  正値性 (positivity)    今回のコラムではこれらが意図する内容について解説を行います。なお推定手法によっては追加の仮定や、ここで紹介したものとは異なる仮定が置かれる場合(e.g., 操作変数法)、暗に置かれている条件については補足資料や、各推定手法に関するコラムをご参照ください。    一致性   前述のように潜在アウトカムを用いるRubin流の因果推論においては、因果効果は異なる介入レベルの潜在アウトカムの比較によって定義されます。ここで1つ重要なことがあります。それは、潜在アウトカムと観測されるアウトカムは異なる概念であるということです。あくまで潜在アウトカムとは、〇〇という介入を「仮に受けたとしたらどのような結果となるかというifの結果」であり、観測されるアウトカムは〇〇という介入を「実際に受けた場合の結果」です。つまり、潜在アウトカムを用いて定義される因果効果をデータ(観測される結果)から考えるためには、これら2つの異なるアウトカムをリンクさせる必要があります。   そこで必要となるのが一致性 (consistency) と呼ばれる仮定です。一致性とは全ての個人に関して、ある介入A=aを受ける場合の潜在アウトカム Ya が、実際にその介入を受けた場合に観測されるアウトカムYと一致することを意味します。例えば、介入Aを心臓移植の有無、アウトカムを介入から5日後の生存の有無としたとき、ある個人に対して想定される潜在アウトカムは、介入を受けない場合と受ける場合の結果であるYia=0, Yia=1の2つです。ここで仮に、被験者は実際に介入を受けたとします。すると、手術から5日後に観察された結果Yは、手術の前に考えた潜在アウトカム Yia=1と同じであるというのが一致性が指す内容です。一見すると、大変当たり前のことを言っているように思われます。しかし、一致性は以下の2つの要素から構成され※1、これらが成立しない場合には、潜在アウトカムと観測されるアウトカムが一致しない、もしくは後述の式の様な単純な関係とはならない場面があります。 precise definition of the counterfactual outcomes  linkage of the counterfactual outcomes to the observed outcomes     1つ目の要素は、潜在アウトカムを構成する要素が十分に定義されているかどうかに関する項目です。ここまで心臓移植という介入の因果効果を考えるにあたり、介入を受ける場合の潜在アウトカム Ya=1と受けない場合の潜在アウトカムYa=0を比較しました。しかし、心臓移植を受けるといっても心臓移植を行う医師によって治療の効果は変わりうる可能性は十分考えられます(医師の手術の上手さが異なる)。このように単に介入を受けるといっても複数のバージョンがあり (multiple versions of treatment) 、かつ、それぞれの場合で介入による効果が異なる場合には、治療を受ける場合の潜在アウトカムを単にYia=1とするのではなく、どのような治療を受けるのかといった情報まで含めて、潜在アウトカムの定義をする必要があります。precise definition of the

Analytics | Students & Educators
0
本当の原因は何か?:潜在アウトカムによる因果効果の定義

はじめに   データに基づいた意思決定が必要とされる場面が近年ますます増えており、そういった際には、データからいかに因果関係を導き出すかが非常に重要な問題です。”因果”を統計学的に捉え、いかにしてそれに迫るかは、統計的因果推論として体系化がなされています。SAS Blogでは、前回の記事からこの統計的因果推論に関する連載コラム・シリーズが始まりました。  因果関係を統計学的に導くことを目的とする統計的因果推論には、主に2つの枠組みがあります。1つは潜在アウトカムを用いるRubin流の考え方、そしてもう1つが構造的因果モデルを用いるPearl流の考え方です。これら2つの考え方は相反するものではなく、Pearl流の因果推論では、ある変数の特徴とそれらの関係を記述するために構造的因果モデル  (SCM; Structural Causal Model) が用いられています。このSCMには対応するグラフィカル因果モデルがそれぞれ存在しており、その際に使用されるのが有向非巡回グラフ (DAG; Directed Acyclic Graph)※1です。このDAGはRubin流の因果推論においても、変数間の関係を視覚的に理解するために補助的に利用がされています。本コラム・シリーズでは前者の潜在アウトカムの枠組みでの因果推論について紹介を行います。今回は特にその根底となる潜在アウトカムについて、また、それを用いた因果関係の定義について説明します。  ※1 補足資料を参照    相関関係と因果関係   相関関係とは、ある2つの変数において、一方が増加するにつれてもう一方も増加(減少)する傾向があるという双方向の関係を意味しています。これに対し因果関係とは、ある2つの変数のうち、一方の操作可能な変数(原因)の値を変化させる(介入を行う)と、もう一方(結果)の値が変化するという、原因から結果への一方向的な関係です。これらの関係の違いを理解することは社会生活を送る上で非常に重要です。例えば、相関関係がある有名な例として、年収と血圧の関係があります。この2つの変数の間には正の相関関係(年収が高くなるほど血圧が高い傾向)があります。しかし、年収を上げるために血圧を上げる(Ex, 暴飲暴食を行う)ことは妥当でしょうか。もしくは、血圧を下げるために年収を下げる(Ex, 転職をする)ことは受け入れられることでしょうか。おそらく多くの読者の方の意見は「No」であるかと思います。この例からも察することができるように、相関関係と因果関係の存在とその方向というものは必ずしも一致しません。また、これらの関係を混同することは大きな不利益につながる可能性があります。上記の例であれば、真には血圧の増加は年収増加に対して因果的な効果を持たないのにも関わらず年収を上げるために無駄に暴飲暴食を行ってしまうことで、結果として不健康につながる可能性があります。   このように興味の対象が因果関係、因果効果である場面は比較的多く存在します。統計的因果推論 (causal inference) とはこれらを形而的、哲学的にではなく、統計学的に考える学問分野です。また、単に因果推論と言われる場合もあり、コラム中で単に因果推論と呼称した場合には、統計的因果推論を意味していることにご注意ください。データから因果効果を推定するために「傾向スコア」を用いた手法など様々なものが用いられています。しかし、これらの手法は適用さえすれば因果効果を適切に推定することができるというわけではありません。因果推論を行うにあたっては因果関係を検討する集団はどういった集団であるか、考える因果効果はどのような介入の効果であるかといった因果的な疑問 (causal question) を明確にすることがまず重要です。その上でデータへの手法の適用があります。また、それぞれの手法は異なる仮定を必要とするため、無条件で因果効果を求めることはできず、その仮定が目の前にあるデータに対してどの程度成立するものであるかといった議論も必要です。 加えて、推定する対象が手法間で異なるといった点や真の関係をゆがませる要因は何が想定されるのかなど、他にも様々な事を考慮する必要があり、慎重に議論を行っていくことが大切です。本コラムでは潜在アウトカムの枠組みでの因果推論の理論(考え方)と、一部の因果効果の推定手法についてのみ取り扱いますが、現実的にはそのような総合的な議論が重要です。    本コラムにおける用語   今回のコラムでは、心臓移植とその5日後の生存の間の因果関係を具体例として考えます。すなわち、心臓移植という介入が5日間の生存というアウトカムに対して、因果効果を持つかどうかを検討します。医療の分野では原因として考える要因を介入 (intervention) や処置 (treatment) 、曝露 (exposure)、結果変数のことをアウトカム (outcome) と呼ぶことが一般的であり、このコラム・シリーズでは、具体例として主に医療関連の話題を取り上げるため、基本的にはこのような呼称を行います。経済・金融系の分野では、因果効果があるかどうか検討したい要因が施策等である場面があるかと思いますが、因果推論の理論に関して変わりはないので、本コラムの例を読者の方がそれぞれ抱えている疑問に置き換えて考えるとよいでしょう。ただ、今後紹介する因果推論に関する様々な仮定の妥当性や分析に用いられるデータの特徴は、それぞれの分野によって異なりますので、その点ご理解ください。    潜在アウトカムによる因果効果   それでは早速、例を用いて潜在アウトカムとは何か、因果関係とは何かを考えていきます。具体的には心臓移植(介入)が5日後の生存(アウトカム)に対して因果的な効果があるのかどうかを考えます。この関係を検討するために、まずゼウスとヘラというある2人に対し、ともに介入を行うことを想定し、何らかの方法で以下の結果が得られたものとします。  ゼウスは1月1日に心臓移植を受けると、その5日後には死亡している。 ヘラは1月1日に心臓移植を受けると、その5日後は生存している。   このもしもの結果(介入を行う場合の結果)が分かったとき、心臓移植はゼウスとヘラの5日間の生存に対してそれぞれ因果効果を持つと結論付けることは可能でしょうか。一見すると、ゼウスは心臓移植後に死亡し、ヘラは生存していますので、ゼウスに対してはnegativeな因果効果(心臓移植により死亡した)、ヘラに対してはpositiveな因果効果(心臓移植により生存した)があったように見えます。しかし、その結論は正しいのでしょうか。もしかすると心臓移植を受けずとも、ゼウスは5日後には亡くなり、ヘラは生きていたのかもしれません(結果は変わらなかった)。もしくは心臓移植を行わなければ、逆にゼウスは生存し、ヘラは亡くなっていたのかもしれません。つまり因果効果があるかどうかについては、この結果だけでは判断することはできません。   では、どのような状況であれば因果関係かどうかを判断することができるでしょうか。その1つのアイディアがもし介入を受けなかったらどのような結果が得られたのかを考えることです。実際にはゼウスもヘラも介入を受けるか受けないかのいずれかしか取り得ないため、必ずどちらか一方の結果は現実的には得られない(反事実)ものとなってしまいますが※2、先ほどと同様に何かしらの方法でその場合の結果を知ることができたと仮定し、それぞれの場合の結果を比較するわけです。そして、それらの値が異なるのであれば介入の因果効果があるとし、同一であるのならば因果効果がないと判断します。   ゼウスとヘラに関しては、以下のようなifの結果が得られたとします。  ゼウスは1月1日に心臓移植を受けないと、その5日後は生存している。 ヘラは1月1日に心臓移植を受けないと、その5日後は生存している。   先程の結果も含め、介入を受ける場合と受けない場合の結果をまとめたものが下図です。   介入を受けない場合の結果が得られたことにより、心臓移植はゼウスに対しては5日後の生存に対し因果効果を与えた(ネガティブな効果)、ヘラには因果効果を与えなかった(介入があってもなくても結果は同じ)と判断することができます。おそらく、この判断に関しては読者の方々も特に異論はないかと思います。この例のように、ある介入を受けた場合のifの結果のことを潜在アウトカム (potential outcomes)

Analytics | Students & Educators
0
本当の原因は何か?:コラム概要

はじめに   根拠に基づいた意思決定を行うこと (EBPM; Evidence Based Policy Making) が、近年分野を問わず重要視されるようになってきています。意思決定を行う立場としては、根拠となる事象と結果の事象の間に因果関係があるのか、それとも相関関係しかないのかは大変大きな違いです。   因果関係と相関関係を混同した1つの有名な例として、チョコレート摂取量とノーベル賞の受賞者数に関する研究があります。この研究では、「チョコレートを多く摂取するとノーベル賞受賞者数が増加する」という因果関係の存在について触れられています。この論文は、2012年に世界で最も権威のある医学雑誌の1つである New England Journal of Medicine に掲載され、世界規模で大きな論争を引き起こしました。論文では、国ごとのチョコレート消費量とノーベル賞受賞者数を調べたところ、チョコレート消費量の多い国ほどノーベル賞受賞者数が多いというデータが示されました。論争のポイントとなったのは、各国のチョコレート消費量とノーベル賞受賞者数の関係が以下のどちらの関係であるかについてです。  チョコレートを摂取すればノーベル賞受賞者は増加する(因果関係)  別の隠れた要因がそれぞれに影響を与えており、チョコレート消費量とノーベル賞受賞者数の間に見かけ上の関連性が生まれている(相関関係)   一体どちらの主張が正しいのでしょうか。読者の方には、ぜひ今の意見と、このコラム連載が終了した後の意見を比較していただきたいと考えています。   統計的因果推論 (Causal causal inference)  とは、因果関係をデータから導くための体系的な学問領域であり、2021年に David Card, Joshua Angrist, Guido Imbensの3名がノーベル経済学賞を受賞したことも相まって、現在大きな注目を集めています。しかし、その注目の程度と比べると、内容についてはあまり認知されていないように思います。そこで本ブログ・シリーズでは、統計的因果推論(または、単に因果推論)に関する連載を行います。データアナリティクスに関わる多くの方に、因果とは何か、それをデータから導くためには何が必要となるのかを理解をしていただき、適切なデータアナリティクスのために活用されることを望みます。連載コラムで取り扱う内容は以下を予定しています。  理論編 潜在アウトカムの枠組み 因果効果を求めるために必要な条件 観察研究と実験研究における交換可能性 選択バイアス (selection bias) 測定誤差 (measurement error) 手法・実装編 推定におけるモデルの必要性 層別化・回帰・標準化 傾向スコアとそれを用いた手法 操作変数法  理論編では、データから因果関係を考えるために必要となる概念、および仮定について取り扱います。また、観測される関係が真の関係と異なる要因について解説を行います。手法・実装編では、理論編で扱う潜在アウトカムの枠組みで因果効果を推定する手法についてSASでの実装方法とともに紹介を行います。SASソフトウェアでは、2016年以降のバージョンで、因果推論に特化した機能が利用できます。   なお、手法・実装編で紹介する因果効果の推定手法は、すべてを網羅しているわけではなく、回帰不連続デザインなど他にもいくつかの手法があることにご注意ください。 本コラムでは出来る限り数学的な記載は避け、直感的な表現をすることに努めますが、数理的な部分に興味がある方に向けた参考資料も準備しています。コラム中に登場する解析例で使用したプログラム・コードは著者のGithub上で公開を行う予定です。    謝辞  この連載記事では、参考文献として主に以下の2つを使用します。 Causal