【論文】A Survey on Causal Inference＜2021＞

原本：

因果推論（コーサク推論）は、統計学、コンピュータサイエンス、教育学、公共政策、経済学など、多くの分野で長年にわたり重要な研究トピックです。近年、観察データから因果効果を推定することは、ランダム化比較試験と比較して、膨大な利用可能なデータと低予算の要求により、魅力的な研究方向になりつつあります。急速に発展している機械学習分野の恩恵を受け、観察データに対する因果効果推定手法がさまざまに考案されています。この調査では、因果推論のフレームワークとしてよく知られている「潜在的効果」フレームワークに基づく因果推論手法の包括的なレビューを提供します。手法は、潜在的効果フレームワークの3つの仮定すべてを必要とするかどうかによって、2つのカテゴリに分けられます。各カテゴリについて、従来の統計学的手法と最近の機械学習を用いた強化手法の両方について議論し、比較を行います。また、広告、レコメンデーション、医療などへの応用事例も紹介しています。さらに、ベンチマークデータセットやオープンソースコードについてもまとめており、研究者や実践者が因果推論手法の探索、評価、適用を行うことを容易にします。

1. Introduction

日常会話では、相関関係と因果関係は混同して使われることがよくありますが、実際には解釈が大きく異なります。相関関係は、2つの変数間に一般的に見られる関係を示します。例えば、2つの変数が共に増えたり減ったりするような傾向があれば、相関関係にあると言えます [7]。一方、因果関係は原因と結果の関係であり、原因がある程度結果を引き起こし、結果は原因に依存しているような関係です。因果推論とは、効果の発生条件に基づいて因果関係を結論付けるプロセスです。因果推論と相関関係の推論との主な違いは、前者が原因を変えたときに効果変数の反応を分析する点にあります [104, 150]。「相関関係は因果関係を示唆しない」というのは有名な言葉です。例えば、ある研究では、朝食を食べる女の子の方が朝食を食べない女の子よりも体重が軽いという結果が出たため、朝食はダイエットに効果があると結論付けました。しかし、実際にはこの2つの事象は相関関係にすぎず、因果関係ではない可能性があります。朝食を毎日食べる女の子は、運動をよくしたり、規則正しい睡眠をとったり、健康的な食事をしたりしているなど、より良い生活習慣を送っているのかもしれません。そして、最終的に体重が軽いのは、朝食を食べることではなく、このより良い生活習慣が原因となっている可能性があります。この場合、より良い生活習慣は、朝食を食べることと体重が軽いことの両方にとっての共通の原因であり、朝食と体重が軽いこと間の因果関係の交絡因子としても扱えます。

多くの場合、ある行動が別の行動を引き起こすことは明白であるように思えますが、容易にその関係を解き明かし、確信を持てないケースも数多く存在します。したがって、因果関係を学ぶことは非常に困難な課題の一つです。

因果関係を推論する最も効果的な方法は、参加者を治療群とコントロール群にランダムに割り当てる「ランダム化比較試験」を行うことです。ランダム化比較試験を実施すると、コントロール群と治療群の唯一の期待される違いは、研究対象となっている効果変数だけになります。しかし、現実にはランダム化比較試験は常に時間とコストがかかり、少数の被験者しか参加させることができません。そのため、実際の治療/介入の対象となるであろう現実世界の集団を十分に代表していない可能性があります。もう一つの問題は、ランダム化比較試験はサンプルの平均にのみ着目し、メカニズムを説明したり、個々の被験者に当てはまるものではないことです。さらに、ほとんどのランダム化比較試験では倫理的な問題も考慮する必要があり、その適用範囲が大きく制限されます。

そのため、ランダム化比較試験の代わりに、観察データが魅力的な近道となります。観察データは、研究者が被験者に何らかの干渉をすることなく、単に観察することで得られます。つまり、研究者は治療や被験者をコントロールすることはできず、ただ観察して、観察に基づいてデータを記録するだけです。観察データからは、被験者の行動、結果、そして何が起こったかの情報を得ることができますが、なぜ特定の行動をとったのか、そのメカニズムまでは把握できません。観察データにとっての中核的な問題は、反事実的結果をどのように得るかということです。例えば、「この患者は、別の薬を投与されていれば異なる結果になっていたのだろうか」という質問に答える必要があります。このような反事実的な質問に答えるのは、2つの理由により困難です [135]。1つ目は、観察データでは事実的な結果しか観察できず、もし異なる治療オプションを選択していた場合に起こり得たかもしれない反事実的な結果は決して観察できないからです。2つ目は、観察データでは治療が通常ランダムに割り当てられるのではなく、治療を受けた集団が一般集団とは大きく異なる可能性があるからです。

観察データからの因果推論におけるこれらの問題を解決するため、研究者たちはさまざまな枠組みを開発してきました。代表的なものとしては、潜在的効果フレームワーク [127, 149] と構造因果モデル (SCM) [102, 105, 107] があります。潜在的効果フレームワークは、 Neyman-Rubin 潜在的効果または Rubin 因果モデルとしても知られています。先ほど述べた例で言えば、女の子は毎日朝食を食べることで特定の体重になるでしょうが、朝食を通常食べなければ別の体重になるでしょう。女の子にとって朝食を通常食べることの因果効果を測定するには、同じ人が両方の状況で得られる結果を比較する必要があります。しかし、明らかに両方の潜在的効果を同時に観察することは不可能であり、常にどちらかの潜在的効果は欠けています。潜在的効果フレームワークは、このような潜在的効果を推定し、治療効果を計算することを目的としています。したがって、治療効果の推定は、潜在的効果フレームワーク下での因果推論における中心的な問題の一つです。

因果推論におけるもう一つの影響力のある枠組みが SCM であり、因果グラフと構造方程式で構成されます。SCM は、変数とその間の因果関係を、一連の同時構造方程式でモデル化することにより、システムの因果メカニズムを記述します。因果関係学習は因果推論のもう一つの分野であり、因果グラフを生成することで因果関係を明らかにすることを目的としています。代表的な手法は、制約ベースモデル [147]、スコアベースモデル [31, 114]、関数型因果モデル [62, 176] の 3 つに分類できます。因果効果推定とは異なり、因果構造学習は別の種類の問題に対処しており、本調査の範囲外です。詳細は [148] を参照してください。

因果推論は機械学習領域と密接な関係を持っています。近年、機械学習分野の目覚ましい発展は、因果推論分野の発展を後押ししています。決定木、アンサンブル手法、深層ニューラルネットワークなどの強力な機械学習手法が、より正確に潜在的効果を推定するために応用されています。機械学習手法は、効果推定モデルの改善だけでなく、交絡因子に対処するための新しい側面も提供します。最近の深層表現学習手法を活用することで、共変量すべてに対してバランスのとれた表現を学習させることにより、交絡因子変数を調整し、学習された表現を条件づけることで、治療割当が交絡因子変数から独立になるようにします。機械学習では、データが多いほど良いとされますが、因果推論においては、単にデータが多いだけでは不十分です。データが増えても、推定値が正確でバイアスがないことを保証するものではなく、より精度の高い推定値を得られるようになるだけです。機械学習手法が因果推論の発展を促す一方で、因果推論もまた機械学習手法に役立ちます。現代の機械学習研究では、単に予測精度を追求するだけでは不十分であり、正確性と解釈可能性も機械学習手法の目標となっています。因果推論は、レコメンダーシステムや強化学習など、機械学習の改善に寄与し始めています。

本稿では、潜在的効果フレームワークに基づく因果推論手法の包括的なレビューを提供します。まず、因果効果を同定するための潜在的効果フレームワークの基本概念とその3つの重要な仮定を紹介します。次に、これらの3つの仮定を伴う様々な因果推論手法について、重み付け法、層化法、マッチング法、木ベース法、表現ベース法、マルチタスク学習法、メタ学習法など、詳細に議論します。さらに、3つの仮定を緩和した因果効果推定手法についても説明し、様々な設定におけるニーズを満たします。様々な因果効果推定手法を紹介した後、議論された手法が大きな恩恵をもたらす可能性のある実世界の応用事例について、広告分野、レコメンデーション分野、医療分野、強化学習分野を代表例として取り上げます。

過去に出版された文献の中で、我々の知る限り、潜在的効果フレームワークに基づく因果推論手法に関する包括的な調査を提供した初めての論文です。因果効果推定手法の一つのカテゴリに焦点を当てた調査もいくつか存在します。例えば、マッチング法を用いた手法の調査 [151]、木ベースとアンサンブルベースの手法の調査 [12]、動的治療計画のレビュー [28] などが挙げられます。SCM については、調査 [104] または書籍 [103] を参照してください。また、観察データから因果関係を学習することについての調査 [52] もあり、観察データからの因果グラフの推論、SCM、潜在的効果フレームワーク、およびそれらの機械学習とのつながりについて論じています。

上記で言及した調査と比較して、本調査論文は、潜在的効果フレームワークの理論的背景、統計学分野と機械学習分野にまたがる代表的な手法、そしてこのフレームワークと機械学習分野が互いにどのように発展を促しているのかに焦点を合わせています。

本調査の貢献点をまとめると以下の通りです。

新しい分類体系: 潜在的効果フレームワークの3つの仮定を必要とするか否かに基づいて、様々な因果推論手法を2つの主要なカテゴリに分けました。3つの仮定を必要とするカテゴリはさらに、交絡因子変数を扱う方法に基づいて7つのサブカテゴリに分けられます。
包括的なレビュー: 潜在的効果フレームワークに基づく因果推論手法について包括的な調査を提供します。各カテゴリにおいて、代表的な手法の詳細な説明、言及された手法間の繋がりと比較、そして全体的な要約が提供されます。
豊富なリソース: 本調査では、最先端の手法、ベンチマークデータセット、オープンソースコード、代表的な応用事例を列挙します。

本稿の構成は以下の通りです。

第2章では、潜在的効果フレームワークの背景について説明します。基本的な定義、仮定、一般的な解法を伴う基本的課題について解説します。

第3章では、3つの仮定を満たす場合の手法を紹介します。

第4章では、一部の仮定が満たされない場合の問題について論じ、それらの仮定を緩和する手法について説明します。

第5章では、実験のためのガイドラインを提供します。

第6章では、因果推論の典型的な応用事例について説明します。

第7章では、今後の展望と未解決の問題について論じます。

最後に、第8章で本稿の要約を行います。

2. 因果推論の基礎

この節では、因果推論の背景知識について説明します。タスクの説明、数学的表記、仮定、課題、一般的な解法などを取り上げます。また、本調査を通して使用する例も示します。

因果推論のタスクは、一般的に、別の処置が適用された場合の結果の変化を推定することです。例えば、患者に適用できる治療が 2 つあるとしましょう (薬 A と薬 B)。対象となる患者グループに薬 A を投与した場合の回復率は 70% であり、同じグループに薬 B を投与した場合の回復率は 90% でした。この回復率の変化は、治療 (この例では薬) が回復率に及ぼす効果です。

上記の例は、治療効果を測定する理想的な状況、すなわち同じ集団に異なる治療を適用することを示しています。しかし、現実の世界では、この理想的な状況は、ランダム化実験によってのみ近似的に実現できます。ランダム化実験とは、治療の割り当てが完全にランダムな割り当てなど、制御された実験です。この方法により、特定の治療を受けたグループは、我々が興味を持っている集団に近似したものと見なすことができます。

しかし、ランダム化実験は費用がかかり、時間がかかり、時には倫理的にも問題が生じることがあります。そのため、観察データから治療効果を推定することは、観察データが広く利用できることから近年注目を集めています。観察データは、通常、異なる治療を受けたグループとその治療結果、そして場合によっては治療を受けた理由/メカニズムに直接アクセスできない情報も含んでいます。このような観察データは、研究者がランダム化実験を行わずに、特定の治療の因果効果を調べる基本的な問題を研究することを可能にします。

治療効果推定方法の種類を紹介するために、次の節では、単位、治療、アウトカム、治療効果などの定義に加え、観察データから得られるその他の情報 (治療前と治療後の変数) について説明します。

ここからは、潜在的結果枠組み [127, 149] (別の枠組みである SCM フレームワーク [72] と論理的に同等) の下での表記法を定義します。潜在的結果枠組みの基盤は、因果関係は処置 (または行為、操作、介入) に結びついており、それが単位に適用されるという点にあります [69]。治療効果は、治療に対する単位の潜在的結果を比較することで得られます。以下では、因果推論における 3 つの基本概念、単位、処置、および結果について最初に説明します。

定義 1 (単位): 単位は、治療効果研究における原子的な研究対象です。

単位は、物理的なオブジェクト、企業、患者、個人、あるいは教室や市場など、特定の時点でのオブジェクトや人の集合体であることができます [69]。潜在的結果枠組みの下では、異なる時点での原子的な研究対象は異なる単位です。データセット内の 1 つの単位は、全母集団からの標本であるため、本調査では「標本」と「単位」は互換的に使用されます。

定義 2 (処置): 処置は、単位に適用 (曝露、または服従) する行為を指します。

W (W ∈ {0, 1, 2,..., NW }) を処置とし、NW + 1 は可能な処置の総数を表します。前述の薬の例では、薬 A は処置です。文献の大半は二値処置を扱っており、この場合、処置 W = 1 を適用された単位のグループは処置群、処置 W = 0 のグループは対照群と呼ばれます。

定義 3 (潜在的結果): 単位と処置のペアごとに、その処置をその単位に適用したときの結果が潜在的結果です [69]。

値 w の処置の潜在的結果は Y(W = w) で表されます。

定義 4 (観察された結果): 観察された結果は、実際に適用された処置の結果です。

観察された結果は、事実的結果とも呼ばれ、Y F を使って表します。F は「事実的」を表します。潜在的結果と観察された結果の関係は次のとおりです。Y F = Y (W = w) (w は実際に適用された処置を表します)。

定義 5 (反事実的結果): 反事実的結果は、単位が別の処置を受けていたら得られる結果です。

反事実的結果は、実際に取られた処置以外の処置の潜在的結果です。１つの単位は１つの処置しか取れないため、観察できる潜在的結果は１つだけで、残りの観察されない潜在的結果は反事実的結果です。多値処置の場合、YCF(W = w) を値 w の処置の反事実的結果を表します。二値処置の場合、表記を簡単にするため、YCF を反事実的結果を表すのに用い、YCF = Y(W = 1 − w) であり、w は単位が実際に取られた処置を表します。

観察データでは、選択された処置と観察された結果の他に、単位のその他の情報も記録されており、治療前変数と治療後変数に分類することができます。

定義 6 (治療前変数): 治療前変数は、治療の影響を受けない変数です。治療前変数は、背景変数とも呼ばれ、患者のデモグラフィック情報、診療歴などにあたります。治療前変数を X で表します。

定義 7 (治療後変数): 治療後変数は、治療の影響を受ける変数です。治療後変数の例としては、前述の薬の例で薬を服用した後の検査結果のような中間的な結果が挙げられます。以降の節では、特に断りがない限り、変数という用語は治療前変数を指します。

因果効果の説明これまでに観察データと主要な用語を紹介しましたが、上記の定義を使用して治療効果を定量的に定義できます。治療効果は、集団レベル、治療群レベル、サブグループレベル、個体レベルで測定できます。これらの定義を明確にするために、ここでは二値介入（処置）の場合の治療効果を定義しますが、複数の処置の場合にも、それらの潜在的結果を比較することで拡張できます。

集団レベルでの治療効果は、平均治療効果 (ATE)と呼ばれ、次のように定義されます。

ATE = E[Y(W = 1) − Y(W = 0)] (1)

ここで、Y(W = 1) と Y(W = 0) はそれぞれ、母集団全体の介入ありの潜在的結果と介入なしの潜在的結果を表します。

治療群（処置群）については、治療効果は「処置群平均治療効果 (ATT)」と呼ばれ、次のように定義されます。

ATT = E[Y(W = 1) | W = 1] − E[Y(W = 0) | W = 1], (2)

ここで、Y(W = 1) | W = 1 と Y(W = 0) | W = 1 は、それぞれ治療群の介入ありの潜在的結果と介入なしの潜在的結果を表します。

サブグループレベルでの治療効果は、「条件付き平均治療効果 (CATE)」と呼ばれ、次のように定義されます。

CATE = E[Y(W = 1) | X = x] − E[Y(W = 0) | X = x], (3)

ここで、Y(W = 1) | X = x と Y(W = 0) | X = x は、それぞれ X = x のサブグループの介入ありの潜在的結果と介入なしの潜在的結果を表します。CATE は、治療効果がサブグループ間で異なる場合 (異質効果とも呼ばれます) において、一般的に用いられる治療効果の測定方法です。

個体レベルでの治療効果は、「個別治療効果 (ITE)」と呼ばれ、単位 i の ITE は次のように定義されます。

ITEi = Yi (W = 1) − Yi (W = 0), (4)

ここで、Yi (W = 1) と Yi (W = 0) はそれぞれ、単位 i の介入ありの潜在的結果と介入なしの潜在的結果を表します。

一部の文献 [70, 139] では、ITE は CATE と同等であるとみなされています。

目的因果推論においては、観察データから治療効果を推定することが目的です。形式的に言えば、観察データセット {Xi,Wi,Y F i } N i=1 が与えられたとき (N はデータセット内の単位の総数)、因果推論タスクの目標は、上記で定義した治療効果を推定することです。

2.2 観念的な因果推論の例

因果推論をよりよく理解するために、上記の定義と組み合わせた以下の例を使って概要を説明します。この例では、1 つの疾患に対するいくつかの異なる薬の治療効果を評価するために、患者の属性情報、服用した薬とその投薬量、そして検査結果などの観察データ (電子カルテ) を活用します。電子カルテからは特定の患者に対して 1 つの実際の結果しか得られないことは明らかであり、従って核となるタスクは、その患者が別の治療 (別の薬剤や、同じ薬剤でも異なる投薬量) を受けていたら何が起こっていたかを予測することです。このような反事実的な質問に答えるのは非常に困難です。したがって、因果推論を用いて、すべての患者について、あらゆる種類の薬剤と投薬量に対するすべての潜在的結果を予測したいと考えます。そうすることで、この疾患に対する異なる薬剤の治療効果を合理的にかつ正確に評価および比較することができます。

特に注意すべき点として、薬剤ごとに投薬量の設定が異なる可能性があることです。例えば、薬 A の投薬量は [a, b] の範囲内の連続変数である一方、薬 B の投薬量はいくつかの特定な投薬 regimen を持つカテゴリカル変数である可能性があります。

上記の例では、単位は対象疾患を有する患者です。処置は、この疾患に対する特定な投薬量を持つ異なる薬剤を指し、W (W ∈ {0, 1, 2,..., NW }) を用いてこれらの処置を表します。例えば、Wi = 1 は、単位 i が特定な投薬量の薬 A を服用していることを表し、Wi = 2 は、単位 i が特定な投薬量の薬 B を服用していることを表します。Y は、薬剤が疾患を破壊し患者の回復を導く能力を測定できる 1 種類の血液検査のようなアウトカムです。Yi (W = 1) は、患者 i に対する特定な投薬量の薬 A の潜在的結果を表します。患者の特徴としては、年齢、性別、臨床症状、その他いくつかの検査結果などが挙げられます。これらの特徴の中で、年齢、性別などの属性情報は治療を受けることにより影響を受けない治療前変数です。一方、一部の臨床症状や検査結果は薬剤の影響を受けるため、治療後変数となります。

この例では、提供された観察データに基づいて、この疾患に対する異なる薬剤の治療効果を推定することを目的とします。以下の節では、この例を継続的に用いて、より多くの概念を説明し、様々な因果推論手法の背後にある直観を説明します。

2.3 Assumptions

治療効果を推定するために、因果推論の文献では以下のような仮定がよく用いられます。

仮定2.1 [安定単位治療効果仮定 (SUTVA)] :

ある単位の潜在的なアウトカムは、他の単位に割り当てられた治療法によって変化しない。
各単位において、治療水準ごとに異なる形式やバージョンが存在せず、それが異なる潜在的アウトカムをもたらさない。

この仮定は2つのポイントを強調しています。

1つ目のポイントは、各単位の独立性です。つまり、単位間には相互作用がなく、ある患者のアウトカムが他の患者のアウトカムに影響を与えることはないということです。上記の例で言えば、ある患者の治療成績は他の患者の治療成績に影響を与えません。

2つ目のポイントは、治療ごとの単一バージョンです。上記の例では、SUTVAの仮定の下で、異なる投薬量を持つ薬Aは別の治療法とみなされます。

仮定2.2 [無視可能性] : 背景変数 X を条件とした上で、治療割り当て W は潜在的アウトカムに独立である。すなわち、W ⊥⊥ Y(W = 0), Y(W = 1) | X.

そのignorability仮定（無視可能性仮定）は、具体例を用いて以下のように2つの側面を説明しています。

1つ目、2人の患者が同じ背景変数Xを持つ場合、治療割り当てがどうであれ、潜在的なアウトカムは同じであるべきだということです。すなわち、p(Yi (0),Yi (1)|X = x,W = Wi ) = p(Yj (0),Yj (1)|X = x,W = Wj) です。

言い換えると、Xが同じであれば、治療（W）をどちらに割り当てても、患者さんの潜在的なアウトカム（Y）は同じであるということです。

2つ目は、2人の患者が同じ背景変数の値を持つ場合、潜在的なアウトカムの値に関係なく、治療割り当てメカニズムは同じであるべきです。すなわち、p(W |X = x,Yi (0),Yi (1)) = p(W |X = x,Yj (0),Yj (1)) です。

つまり、Xが同じであれば、患者さんの潜在的なアウトカム（Y）がどのような値であっても、治療（W）を割り当てられる確率は同じであるということです。

無視可能性仮定は、非交絡性 (unconfoundedness) の仮定とも呼ばれます。この非交絡性仮定により、同じ背景変数Xを持つ単位については、治療割り当てをランダムと見なすことができます。

仮定2.3 [陽性条件 (Positivity)] : X のどの値に対しても、治療割り当ては決定論的ではなく、P (W = w|X = x) > 0, ∀w and x です。(式5)

もし、背景変数 X の特定の値に対して、治療の割り当てが決定論的 (deterministic) になる場合、その値を持つ被験者に対しては、少なくとも一方の治療のアウトカムを観測することができなくなります。そうなると、治療効果を推定することはできず、無意味になってしまいます。

より具体的に説明すると、薬Aと薬Bの2つの治療があるとします。そして、60歳以上の患者は常に薬Aを投与されると仮定しましょう。そうすると、そのような患者さんに対して薬Bの効果を調べることは不可能であり、意味を成しません。

言い換えると、陽性条件は、治療効果を推定する上で重要なバラつき (variability) を示しています。文献 [69] では、無視可能性仮定と陽性条件を合わせて、「強無交絡性 (Strong Ignorability)」または「強く無交絡な治療割り当て (Strongly Ignorable Treatment Assignment)」 と呼んでいます。

これらの仮定の下では、観測されたアウトカムと潜在的アウトカムの関係を以下の式で書き直すことができます。

E[Y (W = w) | X = x] = E[Y (W = w) | W = w, X = x] (無視可能性による) = E[Y_F | W = w, X = x], (式6)

ここで、Y_F は観測されたアウトカムの乱変数、Y(W = w) は治療 w の潜在的アウトカムの乱変数です。もし特定のグループ (部分集団、治療群、全母集団) の潜在的アウトカムに興味がある場合、そのグループにおける観測されたアウトカムの期待値を取ることで、潜在的アウトカムを求めることができます。

上記の式を用いて、2.1節で定義した治療効果を以下のように書き換えることができます。

ITEi = WiY F i −WiYCF i + (1 −Wi )YCF i − (1 −Wi )Y F i ATE = EX E[Y F |W = 1,X = x] − E[Y F |W = 0,X = x] = 1 N i (Yi (W = 1) − Yi (W = 0)) = 1 N i ITEi ATT = EXT E[Y F |W = 1,X = x] − E[Y F |W = 0,X = x] = 1 NT {i:Wi=1} (Yi (W = 1) − Yi (W = 0)) = 1 NT {i:Wi=1} ITEi CATE = E[Y F |W = 1,X = x] − E[Y F |W = 0,X = x] = 1 Nx {i:Xi=x } (Yi (W = 1) − Yi (W = 0)) = 1 Nx {i:Xi=x } ITEi

上で説明した平均治療効果 (ATE)、平均治療効果 on the Treated (ATT)、条件付き平均治療効果 (CATE) の数式について、潜在的アウトカム の表記と、標本を用いた推定 について補足説明しています。

記号の説明
- Yi (W = 1): 単位 i の、もし治療を受けた場合の潜在的アウトカム (counterfactual)
- Yi (W = 0): 単位 i の、もし治療を受けなかった場合の潜在的アウトカム (counterfactual)
- N: 集団全体の単位の総数
- NT: 治療群の単位の数
- Nx: X = x のグループの単位の数
標本を用いた推定

ATE、ATT、CATE の数式は、理論的には 潜在的アウトカムを用いていますが、実際には潜在的アウトカムは観測できません。そのため、標本を用いて これらの効果の推定値 を求める必要があります。

数式の 2 行目は、それぞれ ATE、ATT、CATE の標本を用いた推定式 を表しています。

実務的には、平均治療効果 (ATE) は、集団全体における個別治療効果 (ITE) の平均として推定できます。同様に、平均治療効果 on the Treated (ATT) と条件付き平均治療効果 (CATE) は、それぞれ治療群と特定のサブグループにおける ITE の平均として推定できます。

*しかしながら、潜在的治療効果と潜在的对照効果は同時に観測できないため、治療効果推定の重要なポイントは、ITE 推定における反事実アウトカムの推定方法、つまり 1/N Σ i Yi (W = 1) と 1/N Σ i Yi (W = 0) の推定方法にあります。ここで、N は N、NT、または Nx を表します。

次のセクションでは、これらの項の推定における課題について説明し、一般的な解法を簡単に紹介します。

2.4 Confounders and General Solutions

因果推論においては、特定の集団における平均治療効果 (ATE) を推定する方法が重要です。

例えば、ATE を推定する際、単純に観察された治療群と対照群の平均アウトカムの差を取るという方法が考えられます。すなわち、ATEˆ = (1 / NT) Σ (i in treated group) Y_F i - (1 / NC) Σ (i in control group) Y_F j ということになります。ここで、NTとNCはそれぞれ治療群と対照群の単位数、Y_F i は i 番目の単位の観測アウトカムです。

しかし、この単純な推定値には、交絡因子 (confounder) の影響によるバイアスが含まれており、真の平均治療効果 (ATE) を反映していない可能性があります。

交絡因子 (confounder) とは、治療の割り当てとアウトカムの両方に影響を及ぼす変数のことを指します。

交絡因子 (confounder) は、治療が行われる前に存在する特別な変数です。例えば、先の薬の例で言えば、年齢が交絡因子にあたります。

観察された治療群・対照群の平均アウトカムを直接用いると、計算される平均治療効果 (ATE) には、治療がアウトカムに及ぼす効果だけでなく、交絡因子がアウトカムに及ぼす効果も含まれてしまいます。これが、スプリアス効果 (spurious effect) をもたらします。

たとえば、先の薬の例で、年齢は交絡因子です。年齢は回復率に影響を与えます。一般的に、若い患者の方が回復率が高くなります。また、年齢は治療選択にも影響を与えます。若い患者は薬Aを、高齢者は薬Bを選ぶかもしれません。あるいは、同じ薬でも若い患者と高齢者で投薬量が違うかもしれません。

観察データを表 1 に示します。上記の式を使って ATE を推定してみましょう。

ATEˆ = (1 / NA) Σ (i 服用薬A) Y_F i - (1 / NB) Σ (i 服用薬B) Y_F j = 289/350 - 273/350 = 5%

ここで、NAとNBはそれぞれ薬Aと薬Bを服用した患者の数です。

しかしながら、表 1 からわかるように、薬Aを服用している患者のうち 270 人は若年者であり、薬Bを服用している患者はほとんどが (350 人中 80 人) 高齢者であることから、治療 A が治療 B よりも効果的であるとは結論できません。このグループの高い平均回復率は、このグループの患者のほとんどが若年者であることが原因である可能性があります。

したがって、回復率に対する年齢の影響は、治療効果に誤ってカウントされてしまうため、スプリアス効果 と呼ばれます。

表 1 からは、もう一つ興味深い現象、シンプソンのパラドックス (シンプソンの逆転、ユール-シンプソン効果、統合パラドックス、逆転パラドックス) [21, 50] も確認できます。これは、交絡因子によって起こる現象です。

表 1を見ると、若い患者群と高齢者群の両方において、薬B の回復率の方が薬A よりも高くなっています。しかし、この 2 つのグループを合わせた場合、回復率が高いのは薬 A ということになります。

このパラドックスは、交絡因子によるものです。全体の回復率を比較すると、薬A を服用している人のほとんどが若年者であり、表に示されている比較は、回復率に対する年齢の影響を排除できていません。

スプリアス効果の問題を解決するためには、交絡因子変数のアウトカムへの影響を考慮する必要があります。この方向での一般的なアプローチは、まず交絡因子で条件づけた治療効果を推定し、次にその分布に従って交絡因子で重み付け平均を行うことです。

より具体的には、以下のようになります。

X∗ は X の値の集合です。
p(X ∈ X∗) は、母集団全体における背景変数 X が X∗ に属する確率です。
{i : xi ∈ X∗, Wi = w} は、背景変数の値が X∗ に属し、治療が w である単位のサブグループです。

この手法の代表的な例は、後ほど詳しく説明する層別化 (stratification) です。

選択バイアスの問題に対しては、一般的に 2 つの解決法があります。

1 つ目の一般的なアプローチは、興味のあるグループに近似した疑似集団 (pseudo group) を作成することで、選択バイアスに対処する方法です。考えられる手法としては、サンプルの重み付け (sample re-weighting)、マッチング (matching)、木構造ベースの手法 (tree-based methods)、交絡因子バランス (confounder balancing)、バランス表現学習手法 (balanced representation learning methods)、マルチタスク学習ベースの手法 (multi-task-based methods) などがあります。作成された疑似集団は、選択バイアスの悪影響を軽減し、より良い反事実アウトカム推定が可能になります。
2 つ目の一般的なアプローチは、まず基盤となる潜在的アウトカム推定モデルを観察データのみで訓練し、その後、選択バイアスによって生じた推定バイアスを補正する方法です。メタ学習 (meta-learning) ベースの手法がこのカテゴリに属します。

3. CAUSAL INFERENCE METHODS RELYING ON THREE ASSUMPTIONS

このセクションでは、セクション2で導入した3つの仮定に基づく、因果推論の手法を紹介します。

交絡因子をコントロールする方法に応じて、以下のカテゴリーに分類します。

重み付け法 (re-weighting methods)
層別化 (stratification methods)
マッチング法 (matching methods)
木構造ベースの推定手法 (tree-based methods)
表現学習ベースの推定手法 (representation based methods)
マルチタスク学習ベースの推定手法 (multi-task methods)
メタ学習ベースの推定手法 (meta-learning methods)

3.1 Re-weighting Methods

2.4節で説明したように、交絡因子の存在により、治療群と対照群の共変数の分布が異なり、選択バイアスの問題が生じます。言い換えれば、観察データにおいて、治療の割り当ては共変数と相関しています。

サンプルの重み付け (re-weighting) は、選択バイアスを克服するための効果的な手法です。観察データ中の各単位に適切な重み付けを行うことで、治療群と対照群の分布が類似した疑似集団 (pseudo-population) を作成することができます。

サンプルの重み付け手法において、重要な概念はバランシングスコア (balancing score) です。バランシングスコア b(x) は、以下の式を満たす x の関数としての一般的な重み付けスコアです。

W ⊥⊥ |b(x) [69]

ここで、W は治療の割り当て、x は背景変数です。

バランシングスコアには様々な設計がありますが、無視可能性仮定 (ignorability assumption) により、b(x) = x が最も単純な設計であることは明らかです。

また、プロペンシティスコア (propensity score) も、バランシングスコアの一種です。

定義9 (プロペンシティスコア)

プロペンシティスコアは、背景変数 X が与えられたときの、治療を受ける条件付き確率として定義されます [122]。式で表すと、e(x) = Pr(W = 1 | X = x) (式9) になります。

言い換えると、プロペンシティスコアは、観察された共変量セット X が与えられたとき、特定の治療に割り当てられる確率を表します。プロペンシティスコアを取り入れたバランシングスコアは、最も一般的なアプローチです。

このセクションで言及したアルゴリズムの要約は図 2 に示されています。次節では、プロペンシティスコアに基づくサンプル重み付け を紹介します。その後、サンプルと共変数の両方を重み付けする手法についても説明します。

3.1.1 プロペンシティスコアに基づくサンプル重み付け

プロペンシティスコアは、**共変量に基づいてグループの等重化 (equating groups)**を行うことで、選択バイアスを軽減するために利用できます。

逆確率重み付け (Inverse Propensity Weighting, IPW) [121, 122]、別名では治療割り当ての逆確率重み付けは、各サンプルに重み付け r を割り当てます。

式で表すと、r = W * e(x) / (1 - W) / (1 - e(x)) (10)

となります。

W は治療の割り当て (0: 対照群、1: 治療群)
e(x) は、サンプル x のプロペンシティスコア

ここで、

W は治療の割り当て (W = 1: 治療群、W = 0: 対照群)
e(x) は式 (9) で定義されたプロペンシティスコア

です。

重み付け後、ATE の IPW 推定量は以下の式 (11) で表されます。

ATE^_IPW = 1/n * Σ(i=1 to n) Wi * Yi^F / e^(xi) - 1/n * Σ(i=1 to n) (1-Wi) * Yi^F / (1 - e^(xi))

ただし、特にプロペンシティスコアが推定値である場合に好まれる正規化バージョンもあります。(12) 式で表します。

ATE^_IPW = Σ(i=1 to n) Wi * Yi^F / e^(xi) / Σ(i=1 to n) Wi / e^(xi) - Σ(i=1 to n) (1-Wi) * Yi^F / (1 - e^(xi)) / Σ(i=1 to n) (1-Wi) / (1 - e^(xi))

ATE^_IPW: 治療効果の平均推定値 (ATE: Average Treatment Effect)
n: サンプル数
i: サンプルのインデックス (i = 1 から n まで)
Wi: サンプル i の治療割り当て (W = 1: 治療群、W = 0: 対照群)
Yi^F: サンプル i のアウトカム (Y) の事実上の値 (Factual outcome)
e^(xi): サンプル i の推定プロペンシティスコア

両方の標本理論 (大標本・小標本) において、スカラー値のプロペンシティスコアを調整することで、観察されたすべての共変量によるバイアスを排除するのに十分であることが示されています [122]。

プロペンシティスコアは、治療群と対照群の共変量をバランスさせるために使用でき、その結果、マッチング、層別化 (サブクラス分類)、回帰による調整、またはこれら 3 つの組み合わせによってバイアスを低減できます。[37] では、プロペンシティスコアを使用したバイアスの軽減について説明しており、例と詳細な議論も提供されています。

しかし、現実的には、IPW 推定量の正確さはプロペンシティスコア推定の正確性に大きく依存しており、プロペンシティスコアのわずかな誤指定は、ATE 推定エラーを劇的に引き起こします [66]。

このジレンマに対処するために、二重頑健推定量 (Doubly Robust, DR) 推定量、別名 Augmented IPW が提案されました。DR 推定量は、プロペンシティスコア重み付けとアウトカム回帰を組み合わせるため、プロペンシティスコアまたはアウトカム回帰のどちらかが (両方ではなく) 誤っていても、推定量は頑健です。

DR 推定量の詳細な式は次のとおりです。

ここで、

m^ (1, xi): 治療群のアウトカムの回帰モデル推定値
m^ (0, xi): 対照群のアウトカムの回帰モデル推定値

です。

DR 推定量は、プロペンシティスコアが正確であるか、またはモデルが曝露 (exposure) と共変量、アウトカム間の真の関係を正しく反映している場合、漸近的に不偏であり、一致します (整合性あり)。

実際には、どちらかのモデルが変数間の関係を正確に説明できるかどうかを保証することはできません。アウトカム回帰とプロペンシティスコアによる重み付けの組み合わせは、これらのモデルの一方の誤指定に対して推定量を頑健にすることを保証します [14, 117, 119, 133]。

DR 推定量は、プロペンシティスコア推定が正しくない場合に、IPW 推定量を頑健にするためにアウトカムを参照します。別の方法としては、プロペンシティスコアの推定を改善する方法があります。

IPW 推定量では、プロペンシティスコアは、治療を受ける確率と共変量バランススコア (covariate balancing score) の両方として機能します。共変量バランスプロペンシティスコア (CBPS) [66] は、このような二重の特徴を利用するために提案されました。

具体的には、CBPS は以下の問題を解くことでプロペンシティスコアを推定します。

ここで、

x̃_i = f(xi) は、x_i の事前に定義されたベクトル値の測定可能な関数です。

上記の問題を解くことにより、CBPS は推定されたパラメトリックプロペンシティスコアから直接的に共変量バランススコアを構築し、プロペンシティスコアモデルの誤指定に対する頑健性を向上させます。

CBPS の拡張版である共変量バランス一般化プロペンシティスコア (CBGPS) [47] は、連続値の治療を扱うことができます。治療値が連続値であるため、コントロール群と治療群の共変量分布距離を直接最小化することは困難です。CBGPS は、バランシングスコアの定義を緩和することでこの問題を解決します。

定義に基づいて、治療の割り当ては背景変数から条件付き独立であるため、CBGPS は重み付け後の治療の割り当てと共変量間の相関関係を直接最小化します。具体的には、CBGPS の目的は、治療の割り当てと共変量間の重み付けされた相関関係が最小化されるように、プロペンシティスコアを基にした重み付けを学習することです。

式で表すと、

argmin w min {Corr(W, f(X) ⊗ w)}

ここで、

Corr(W, f(X) ⊗ w) は、治療の割り当て W と共変量 X の重み付けされた特徴量 f(X) ⊗ w との間の相関関係です。
⊗ は要素ごとの掛け算を表します。

ここで、

p(t* | x*) はプロペンシティスコアです。
p(t*) p(t* | x*) はバランシング重みです。
t* と x* は、治療の割り当てと、中心化および正規化 (つまり、標準化) 後の背景変数です。

要約すると、CBPSとCBGPSはどちらも、共変量バランスという目標に向けて直接的にサンプル重み付けに基づいたプロペンシティスコアを学習します。これにより、プロペンシティスコアのモデル誤指定による悪影響を軽減することができます。

もう一つの逆確率重み付け推定量 (IPW) の欠点は、推定されたプロペンシティスコアが小さい場合に、不安定になる可能性があることです。どちらかの治療割り当ての確率が小さい場合、ロジスティック回帰モデルは裾野の周りで不安定になり、IPW も不安定になりやすくなります。

この問題を克服するために、トリミングが正規化手法として日常的に用いられます。トリミングは、事前に定義された閾値未満のプロペンシティスコアを持つサンプルを排除します [85]。ただし、この手法はトリミング量に非常に敏感です [94]。

また、[94] の理論結果は、プロペンシティスコアの小確率とトリミング手順により、IPW 推定量が異なる非ガウス漸近分布を持つ可能性があることを示しています。この観測に基づき、[94] では、2 重の頑健性を備えた IPW 推定アルゴリズムが提案されています。この手法は、サブサンプリングと局所多項回帰に基づくトリミングバイアス補正器を組み合わせることで、小さなプロペンシティスコアと大規模なトリミング閾値の両方に頑健です。

小さなプロペンシティスコア下での IPW の不安定さを克服する別の方法として、サンプルの重みを再設計して、重みが制限されるようにすることです。[87] では、各単位の重みが、その単位が反対のグループに割り当てられる確率に比例するように重み付けが提案されています。

具体的には、重み付け関数 h(x) は、h(x) ∝ 1 - e(x) (e(x) はプロペンシティスコア) として定義されます。

この重み付けは [0, 0.5] の範囲内に収まるため、プロペンシティスコアの極端な値の影響を受けにくいです。最近の理論結果は、重み付け関数 h(x) は、すべてのバランシング重み付けの中で漸近分散が最小であることを示しています [87].

3.1.2 交絡因子バランス

前述のように、サンプル重み付け法では、観察された変数がすべて等しく交絡因子として扱われるという点で、バランスを達成することができます。しかし、現実の場合、観察された変数がすべて交絡因子であるわけではありません。一部の変数は、調節変数と呼ばれ、アウトカムに対してのみ予測力を持っていますが、他の変数は無関係な変数である可能性があります [80]。

Lasso を用いた調節変数による調整は、バイアスを減らすことはできませんが、分散を減少させるのに役立ちます [20, 132]。一方、無関係な変数を含めると、過学習を引き起こします。

観察された変数を、交絡因子、調節変数、無関係な変数に分解できるという分離可能性仮定に基づき、[80] では、Data-Driven Variable Decomposition (D2VD) アルゴリズムが提案されました。このアルゴリズムは、交絡因子と調節変数を区別し、同時に無関係な変数を排除することを可能にします。

具体的には、調整されたアウトカムは以下の式で表されます。

ATED2VD を求めるために、Y^∗_D2VD はすべての観察変数に対して回帰されます。パラメータ α は調節変数 z をすべての観察変数から分離し、パラメータ β は交絡因子をすべての観察変数から分離します。すなわち、Y^∗_D2VD = (Y_F - X^α) ⊗ R(β) です。ここで、R(β) は重みであり、R(β) = W - e(X) / (e(X) * (1 - e(X))) で、e(X) は β によってパラメータ化されています。

目的関数は、Y^∗_D2VD と、すべての観察変数に対して線形回帰関数で推定された ATE 値 (γ でパラメータ化) との間の l2 ロスであり、スパース正規化を組み合わせて、交絡因子、調節変数、無関係な変数を区別します。

具体的には、目的関数は以下のように定義されます。

式で表すと、

L(α, β, γ) = ||Y^∗_D2VD - γT X||^2_2 + λ1 ||α||^1 + λ2 ||β||^1

|| ⋅ ||^2_2 は l2 ノルム
|| ⋅ ||^1 は l1 ノルム
λ1, λ2 はハイパーパラメータ

D2VD アルゴリズムは、上記の目的関数を最適化することにより、α、β、γ を推定します。推定された α と β を用いて、交絡因子と調節変数を分離し、Y^∗_D2VD を得ることができます。Y^∗_D2VD は、ATE の推定値として用いられます。

ここで、

R(w) は重み
τ, λ, δ, η はハイパーパラメータです。

最初の条件は、プロペンシティスコア推定誤差を表しており、次の 3 つの条件はスパース性を促します。最後の条件であるアダマード積は、調節変数と交絡因子の分離を保証します。

しかし、現実的には、観察変数間の相互作用に関する事前知識はほとんどなく、データは通常、高次元でノイズだらけです。これを解決するために、Differentiated Confounder Balancing (DCB) アルゴリズム [79] が提案され、交絡因子を選択して差別化し、分布をバランスさせるようにします。

全体として、DCB はサンプルと交絡因子の両方の重み付けを行うことで分布をバランスさせます。

3.2 Stratification Methods

層別化 (Stratification)、別名サブクラス分類 (subclassification) またはブロック化 (blocking) [69] は、交絡因子を調整する代表的な手法です。

層別化のアイデアは、治療群と対照群の間の共変量分布の違いに起因するバイアスを、全体の集団を同質のサブグループ (ブロック) に分割することで調整することです。理想的には、各サブグループにおいて、治療群と対照群はある基準で共変量に関して類似しており、そのため、同じサブグループ内の単位は、ランダム化比較試験 (RCT) のデータからサンプリングされたものと見なすことができます。

各サブグループの同質性に基づき、サブグループごとの治療効果 (CATE) は、RCT データを使用した手法で計算できます。各サブグループの CATE を得た後、(式 (8) で示すように)、そのグループに属するサブグループの CATE を組み合わせることで、対象集団全体の治療効果を得ることができます。

以下では、ATE の計算例を採用します。具体的には、データセット全体を J ブロックに分割すると、ATE は以下の式で推定されます。

ATE^strat = Σ(j = 1 to J) q(j) * (Y¯_t(j) - Y¯_c(j))

ここで、

Y¯_t(j) と Y¯_c(j) はそれぞれ、j 番目のブロックにおける治療群のアウトカムの平均値と対照群のアウトカムの平均値です。
q(j) = N(j) / N は、j 番目のブロック内の単位が全体の単位に占める割合です。

層別化は、ATE 推定値のバイアスを、単純な差分による推定量 (ATE は ATE_diff = Σ(i:Wi=1) Y_i^F / N_t - Σ(i:Wi=0) Y_i^F / N_c で推定) と比較して、効果的に減少させます。特に、アウトカムが共変量に対して線形であると仮定すると (E[Yi (w)|Xi = x] = α + τ * w + β * x)、差分推定量のバイアスは次のようになります。

層別化手法の重要な要素は、ブロックの作成方法と、作成されたブロックの集計方法です。

ブロックの作成方法として、等頻度 [122] がよく用いられます。等頻度法では、ブロックを出現確率 (プロペンシティスコアなど) で分割し、各サブグループ (ブロック) 内で共変量の出現確率 (つまりプロペンシティスコア) が同じになるようにします。ATE は、各ブロックの CATE の重み付き平均で推定されます。重みは、そのブロックに属する単位の割合です。

しかし、この手法は、プロペンシティスコアが非常に高いか低いかのブロックにおいて、治療群と対照群の重なりが少ないために、分散が大きくなるという問題があります。分散を減らすために、[64] では、プロペンシティスコアで分割されたブロックを、ブロックごとの治療効果の逆分散で重み付けする方法が提案されています。この方法は等頻度法の分散を低減しますが、推定バイアスを不可避的に増大させてしまいます。

これまで説明してきた層別化手法は、すべて治療前の変数に基づいてブロックを分割するものでした。しかし、現実世界の中には、事後変数と呼ばれる治療後の変数に基づいてアウトカムを比較しなければならないケースが存在します。

例えば、AIDS の病状進行の “代理” マーカー (中間アウトカム) である CD4 細胞数やウイルス量などは事後変数です。AIDS 患者の薬を比較する研究では、研究者は、CD4 細胞数が 200 細胞/mm3 未満のグループに対する AIDS 薬の効果に関心があります。

しかし、直接的に観察されたアウトカムを、Sobs < 200 のグループで比較することは、真の効果ではありません。なぜなら、治療が中間結果に影響を与える場合、比較される 2 つのサブグループ {i: Wi = 1, Sobs < 200} と {j: Wj = 0, Sobs < 200} (Sobs は観察された事後変数の値) は大きな差異を持つからです。

これを解決するために、原理層別化 [48] は、治療前の変数の潜在的値に基づいてサブグループを構築します。セクション 2.1 で定義した潜在的アウトカムと同様に、S(W = w) で表される治療前の潜在的変数値は、治療値 w が与えられたときの S の潜在的値です。

潜在的 S の値は治療割当によらず独立であるという性質仮定に基づき、サブグループの治療効果は 2 つの集合のアウトカムを比較することで得られます。

{Yobs_i : Wi = 1, Si(Wi = 1) = v1, Si(Wi = 0) = v2}
{Yobs_j : Wj = 0, Sj(Wj = 1) = v1, Sj(Wj = 0) = v2}

ここで、v1 と v2 は 2 つの事後変数の値です。

事後変数の潜在的値に基づいた比較により、比較される 2 つの集合は類似したものとなり、得られる治療効果は真の効果となります。

マッチング法による因果効果推定

前述のように、欠損している反事実データと交絡バイアスは、治療効果推定における 2 つの大きな課題です。マッチング法は、反事実データを推定し、同時に交絡因子による推定バイアスを低減する方法を提供します。

一般的に、マッチングによる i 番目の単位の潜在的アウトカムの推定値は以下のように表されます [1]:

Ŷ_i(0) = Yi (Wi = 0) if Wi = 1, 1 / #J(i) ∑_(l ∈ J(i)) Y_l (if Wi = 1); Ŷ_i(1) = { 1 / #J(i) ∑_(l ∈ J(i)) Y_l (if Wi = 0), Yi (if Wi = 1); }

ここで、Ŷ_i(0) と Ŷ_i(1) はそれぞれ推定されたコントロール群と治療群のアウトカム、J(i) は i 番目の単位の反対の治療群におけるマッチングされた近傍単位の集合です [13]。

マッチングされたサンプルの分析は、RCT (ランダム化比較試験) の分析と類似しています。マッチングされたサンプル内において、治療群とコントロール群のアウトカムを直接比較することができます。RCT の文脈では、治療群とコントロール群の間で共変量の分布が平均的に類似していることが期待されます。したがって、マッチングは、観察データを使用して治療効果を推定する際に、交絡の影響を軽減または排除するために使用できます [13]。

距離関数

単位間の近さを比較するために、広く使われているユークリッド距離 [126] やマハラノビス距離 [129] など、さまざまな距離が採用されています。一方、多くのマッチング手法は独自の距離関数を持っており、以下のように抽象化することができます。

D(xi, xj) = ||f(xi) - f(xj)||^2

既存の距離関数の主な違いは、変換関数 f(·) の設計方法にあります。

プロペンシティスコアに基づく変換

単位の元の共変量は、プロペンシティスコアで表現することができます。その結果、2 つの単位間の類似度は、次のように直接計算できます。

D(xi, xj) = |ei - ej|,

ここで、ei と ej はそれぞれ xi と xj のプロペンシティスコアです。

その後、ロジット変換に基づくプロペンシティスコア距離関数が提案されました。これは、D(xi, xj) = |logit(ei) - logit(ej)| と定義されます。この改良版は、バイアスを効果的に減らすことができるため、推奨されています [151]。

さらに、プロペンシティスコアに基づく距離関数を既存の距離関数と組み合わせることで、よりきめ細かな比較が可能になります。[129] では、2 つの単位のプロペンシティスコアの差が一定の範囲内にある場合、それらを主要な共変量に関する他の距離でさらに比較します。この距離関数の下では、2 つの単位の近さは 2 つの基準を含みます。すなわち、プロペンシティスコアの尺度で比較的近く、主要な共変量の比較において特に似ていることが求められます [151].

マッチング法におけるその他の変換

プロペンシティスコアは共変量の情報のみを利用しますが、他の距離関数の中には、共変量とアウトカムの情報両方を使って変換空間をより多くの情報を保持できるように学習させるものもあります。

その代表的な指標の一つが、予後スコア [57] であり、推定されたコントロール群のアウトカムです。変換関数は f(x) = Ŷ_c と表されます。ただし、予後スコアの性能は、共変量とコントロール群のアウトカム間の関係をモデル化することに依存します。さらに、予後スコアはコントロール群のアウトカムのみを考慮し、治療群のアウトカムを無視しています。

[29] で提案された Hilbert-Schmidt Independence Criterion based nearest neighbor matching (HSIC-NNM) は、予後スコアの欠点を克服することができます。HSIC-NNM は、コントロール群のアウトカム推定タスクと治療群のアウトカム推定タスクのために、それぞれ別々に 2 つの線形投影を学習します。

観察されたコントロール/治療群のアウトカム情報を完全に取り込むために、線形投影のパラメータは、投影された部分空間とアウトカム間の非線形依存関係を最大化することで学習されます。

Mw = arg max_Mw HSIC(XwMw, Y_F^w) - R(Mw)

ここで、w = 0, 1 はそれぞれコントロール群と治療群を表し、XwMw は変換関数 f(x) = xMw を用いた変換された部分空間、Y_F^w は観察されたコントロール/治療群のアウトカム、R は過学習を避けるための正則化です。

目的関数により、学習された変換関数は元の共変量を、類似した単位が類似したアウトカムを持つような情報部分空間に投影するようにします。

バランスに焦点を当てるプロペンシティスコアベースの距離関数と比較して、予後スコアと HSIC-NNM は、変換された空間と観察されたアウトカム間の関係の埋め込みに焦点を当てています。

この 2 種類の手法はそれぞれ利点があり、最近の研究ではこれらの利点を一緒に統合しようとしています。[89] では、バランスのとれた非線形表現 が提案され、共変量をバランスのとれた低次元空間に投影します。

具体的には、非線形変換関数のパラメータは、以下の 2 つの目的関数を共同で最適化することにより学習されます。(1) 異なるクラスの分散と同一クラスの分散の差を最大化し、同じアウトカム予測を持つ単位が変換後も同様な表現を持つようにする。(2) 変換されたコントロール群とアウトカム群間の最大平均差異を最小化し、変換後にバランスのとれた空間を得る。

同様な目的を持ちながらも、バランス正則化が異なる手法がいくつか提案されています。例えば、条件付き生成对抗ネットワーク (cGAN) を使用して、変換関数が治療割当情報を遮断するようにする手法があります [86, 173]。

これまで述べた手法は、治療群とコントロール群のために別々に 1 つまたは 2 つの変換を採用しています。既存の手法とは異なり、Randomized Nearest Neighbor Matching (RNNM) [90] は、変換関数として複数のランダムな線形投影を採用し、各変換された部分空間で Nearest-Neighbor Matching (NNM) によって治療効果の中央値を求めます。

このアプローチの理論的な動機は、ジョンソン・リンデンシュトラウス (JL) レーマであり、高次元空間における点のペアごとの類似性情報がランダムな線形投影を通しても保持されることを保証しています。JL レーマを利用して、RNNM は複数の線形ランダム変換による治療効果推定結果を統合します。

3.3.2 近傍選択アルゴリズム

類似性尺度を定義した後、次のステップは近傍を見つけることです。[26] では、既存のマッチングアルゴリズムは、図 3 に示すように、Nearest Neighbor Matching (NNM)、Caliper Matching、Stratification Matching、Kernel Matching の 4 つの基本的なアプローチに分類されます。

最も単純なマッチング推定方法は、NNM です。具体的には、コントロール群の単位が、類似スコア (プロペンシティスコアなど)に基づいて最も近い単位として、治療群の単位のマッチングパートナーとして選択されます。NNM には、置き換えありの NNM や置き換えなしの NNM などいくつかのバリエーションがあります。

治療群の単位は、1 つのコントロール群の単位 (ペアマッチングまたは 1 対 1 マッチングと呼ばれる) または 2 つのコントロール群の単位 (1 対 2 マッチングと呼ばれる) などにマッチングされます。近傍の数を決めるのはトレードオフです。近傍が多すぎると、治療効果推定量はバイアスが大きく、分散が小さくなりますが、近傍が少ないと、バイアスは小さくなりますが、分散が大きくなります。

しかし、最適な構造は、治療群の単位が 1 つまたは複数のコントロール群の単位を持つことができ、コントロール群の 1 つの単位が 1 つまたは複数の治療群の単位を持つことができる、完全マッチングであることが知られています。

NNM は、最も近いパートナーが離れている場合、悪いマッチングになる可能性があります。この問題を回避するために、最大プロペンシティスコアの距離 (Caliper) に許容値を設定できます。したがって、Caliper Matching は、共通支持条件を課す 1 つの方法です。

Stratification Matching は、プロペンシティスコアの共通支持をいくつかの区間分割に分割し、その後、各区間内での治療群とコントロール群の観察結果のアウトカムの平均差を取って、インパクトを計算するものです。この方法は、区間マッチング、ブロック化、サブクラス分類 [124] とも呼ばれます。

上記のマッチングアルゴリズムは、いずれも、治療観察の反事実アウトカムを作成するために、コントロール群の観察の一部しか使用しないという共通点があります。Kernel Matching と Local Linear Matching は、コントロール群の観察の重み付き平均を使用して反事実アウトカムを作成するノンパラメトリックなマッチングです。したがって、これらのアプローチの大きな利点の一つは、反事実アウトカムの作成に多くの情報を使用するため、分散が小さくなることです。

ここで、[65] で提案された Coarsened Exact Matching (CEM)と呼ばれる別のマッチング手法も紹介したいと思います。1 対 k マッチングも完全マッチングも、少数の妥当なマッチングが存在しない (外挿出領域) を考慮しないため、CEM はこの問題に対処するために提案されました。

CEM は、まず選択された重要な共変量 (つまり離散化) を粗くし、次に粗い共変量に対して完全マッチングを実行します。例えば、選択された共変量が年齢 (50 歳以上が 1、その他は 0) と性別 (女性が 1、男性が 0) であった場合、治療群の 50 歳の女性患者は、粗い共変量として (1, 1) で表されます。彼女は、治療群でのみ、まったく同じ粗い共変量の値を持つ患者とマッチングされます。

完全マッチング後、データ全体は 2 つのサブセットに分割されます。1 つのサブセットでは、すべての単位が正確にマッチングされた近傍を持っており、もう一方のサブセットは外挿出領域にある単位を含むというように、逆の関係になります。外挿出領域の単位のアウトカムは、マッチングされたサブセットで訓練されたアウトカム予測モデルによって推定されます。

これまでに、治療効果は 2 つのサブセットで別々に推定することができ、最後のステップは、重み付き平均によって 2 つのサブセットの治療効果を結合することです。

いくつかの異なるマッチングアルゴリズムを紹介してきましたが、最も重要な質問は、どのようにして完璧なマッチング方法を選択すべきかということです。漸近的には、すべてのマッチング手法はサンプルサイズが大きくなるにつれて同じ結果になり、完全一致のみを比較することに近づくでしょう [145]。サンプルサイズが小さい場合のみ、この選択が重要になります [60]。バイアスと分散の間にはトレードオフが存在します。

3.3.3 マッチングに含める変数

上記 2 つの節では、マッチング手順の重要ステップについて説明しました。この節では、マッチングのパフォーマンスを向上させるために、マッチングに含めるべき変数の種類 (つまり、特徴量選択) について簡単に説明します。

多くの文献 [49, 60, 128] では、強い無作為性仮定を満たすために、治療割当とアウトカムに関連する可能な限り多くの変数をマッチングに含めることを推奨しています。

しかし、治療割当の影響を受ける事後変数は、マッチング手順から除外する必要があります [123]。さらに、事後変数以外にも、介入変数も除外することが研究者によって提案されています [106, 170]。介入変数は、治療効果推定量のバイアスを大きくする傾向があるからです。

3.4 木を使った因果推論

因果推論におけるもう一つの流行の手法は、決定木学習に基づいています。決定木は、予測モデリング手法の一つであり、非パラメトリックな教師付き学習手法で分類と回帰に使用されます。決定木は、データから推論された単純な決定ルールを学習することにより、目的変数の値を予測するモデルを作成することを目的とします。

目的変数が離散値であるツリーモデルは分類木と呼ばれ、予測誤差は誤分類コストに基づいて測定されます。これらの木構造では、葉はクラスラベルを表し、枝はそれらのクラスラベルに到達する特徴の結合を表します。目的変数が連続値である決定木は回帰木と呼ばれ、予測誤差は観測値と予測値の二乗差で測定されます。「分類木と回帰木 (CART) 分析」という用語は、上記両方の手順を指す包括的な用語です [24]。

CART モデルでは、データ空間が分割され、分割された空間ごとに簡単な予測モデルが適合されます。そのため、すべての分割は決定木としてグラフで表すことができます [92]。

CART をベースにしたデータ駆動型のアプローチ [11] が、治療効果の大きさが異なるサブ集団にデータを分割するために提供されています。この手法では、サンプルサイズに対して共変量が多くても、また「スパース性」の仮定を立てなくても、治療効果の有効な信頼区間を作成することができます。この手法は、従来の CART とは 2 つの点で異なります。

第一に、従来の CART のように直接的にアウトカムを予測するのではなく、条件付き平均治療効果の推定に焦点を当てています。第二に、分割の作成と各サブ集団の効果の推定に異なるサンプルを使用している点です。これを誠実推定と呼びます。一方、従来の CART では、これらの 2 つのタスクに同じサンプルを使用します。

CART では、分割許容値に達するまで木が構築されます。木は 1 つだけで、必要に応じて成長と剪定が行われます。一方、BART は複数の木からなるアンサンブルであるため、ランダムフォレストに近いと言えます。

[33, 34] では、**ベイズ的加法回帰木 (BART)**と呼ばれる、ベイズ的「木の和」モデルが開発されました。BART モデルの各木は弱学習器であり、正則化事前分布によって制約されています。情報は、ベイズ後方適合 MCMC アルゴリズムによって事後分布から抽出されます。BART は、次元可変ランダム基底要素を使用する非パラメトリックベイズ回帰モデルです。

W を内部ノードの決定ルールと終端ノードを持つバイナリツリーとし、M = {μ1, μ2, ..., μB } を W の B 個の終端ノードそれぞれに関連するパラメータとします。д(x;W , M) を用いて、入力ベクトル x に μb ∈ M を割り当てます。木の和モデルは以下のように表すことができます。

Y = д(x;W1, M1) + д(x;W2, M2) + ··· + д(x;Wm, Mm ) + ε, (24) ε ∼ N (0, σ2). (25)

BART にはいくつかの利点があります。実装が非常に簡単で、アウトカム、治療割当、交絡因子を入力するだけでよいことです。さらに、これらの変数がどのようにパラメトリックに関連しているかについての情報が不要であるため、モデルの適合時に推測が少なくて済みます。また、大量の予測因子を扱ことができ、整合性のある信頼区間を提供し、連続的な治療変数や欠損データに対処することができます [61].

BART は平均因果効果の推定のために提案されましたが、実際には個体レベルの因果効果の推定にも使用できます。BART は、異質な治療効果を容易に識別できるだけでなく、プロペンシティスコアマッチング、プロペンシティスコア重み付け、回帰調整などの他の手法と比較して、非線形シミュレーション状況において平均治療効果のより正確な推定値を得ることができます [61].

従来の多くの手法では、治療効果の事前分布は常に間接的に誘導されるため、達成が困難でした。柔軟な回帰木の和 (つまり、フォレスト) は、応答変数をバイナリ治療指標と制御変数のベクトルの関数としてモデル化することでこの問題に対処することができます [56]。このアプローチは、治療とコントロールの条件付き平均を完全に別々にモデル化するか、治療割当を単なる別の共変量として扱うかの 2 つの極端な方法の間で補間

ランダムフォレスト

ランダムフォレストは、各木が独立してサンプリングされたランダムベクトルに依存し、すべての木に対して同一の分布を持つ分類器の組み合わせからなる分類器です [23]。このモデルは、Breiman のランダムフォレストアルゴリズム [162] に基づいて、異質な治療効果を推定するために拡張することもできます。

木とフォレストは、適応的な近傍メトリックを持つ最近傍法と考えることができます。木ベースの手法は、点 x に近いトレーニング例を見つけようとしますが、この近さは今では決定木に関して定義されます。そして、x に最も近い点は、同じ葉に属する点です。木を使用する利点は、葉がシグナルが急速に変化する方向に沿って狭くなり、その他の方向に沿って広くなる可能性があるため、特徴空間の次元が中程度に大きい場合でも、大幅な検出力の向上につながる可能性があることです。

木ベースのフレームワークは、一元または多元的な治療にも拡張することができます [163]。各次元は離散値または連続値であることができます。木構造は、ユーザーの特性と対応する治療との間の関係を指定するために使用されます。この木ベースのフレームワークは、モデルの誤指定に対して頑健であり、手動による微調整を最小限に抑えながら、非常に柔軟です。

まとめ

因果推論における木ベースの手法は、柔軟性と強力さを兼ね備えた有望なアプローチです。これらの手法は、非線形関係、交絡、欠損データなど、因果推論における多くの課題に対処することができます。

木ベースの手法の主な利点は次のとおりです。

非線形関係を柔軟にモデル化できます。
交絡の影響を軽減することができます。
欠損データに対処することができます。
個体レベルの因果効果を推定することができます。

ただし、木ベースの手法にはいくつかの制限もあります。

過学習しやすい可能性があります。
解釈が難しい場合があります。
ハイパーパラメータのチューニングが難しい場合があります。

これらの制限にもかかわらず、木ベースの手法は、因果推論の強力なツールとなり得ます。

3.5 表現学習手法

表現学習とは、入力データの表現を学習することであり、通常は元の共変量を変換したり、共変量空間から特徴を抽出することによって行われます。特に深層学習に焦点を当てると、複数の非線形変換を組み合わせることで、より抽象的で最終的にはより有用な表現を得ることができます [17]。

因果推論における従来の機械学習手法と比較して、深層表現学習モデルは、相関関係のある特徴を自動的に検索し、それらを組み合わせてより効果的で正確な反事実推定を可能にします。一方、従来の機械学習手法では、特徴をユーザーが正確に識別する必要があります。

一方、深層表現学習には克服すべき課題もあります。例えば、深層表現学習に必要なデータ量は他の機械学習手法よりもはるかに多く、深層構造の「ブラックボックス」は解釈が難しく、内部構造を理解して動作原理を把握することが非常に困難です。また、アルゴリズムが深層構造を利用して訓練データの詳細やノイズを学習しすぎてしまうと、過学習の問題が常に発生し、モデルの全体的な性能に悪影響を及ぼします。

これまで、観察データによる因果効果推定における課題を克服するために、深層表現学習手法に基づく手法が大幅に発展してきました。深層表現学習手法は、ドメイン適応型、マッチング型、継続学習型に分類されます。

3.5.1 ドメイン適応による表現学習

統計的学習理論における最も基本的な仮定は、訓練データとテストデータが同じ分布から抽出されるということです。しかし、現実のほとんどの場合、テストデータは訓練データの分布と同一ではなく、関連する別の分布から抽出されます。因果推論においてもこれは大きな課題です。

ランダム化比較試験とは異なり、観察データでは治療割当のメカニズムが明示的ではありません。そのため、関心のある介入は、被験者の属性から独立ではありません。例えば、薬の治療効果に関する観察研究では、既知の交絡因子や未知の交絡因子を含むいくつかの因子に基づいて、個体に薬が割り当てられます。その結果、反事実分布は通常、事実分布とは異なってしまいます。したがって、事実データから学習して反事実アウトカムを予測することが必要であり、因果推論の問題をドメイン適応問題に変換します。

ドメイン適応においては、効果的な特徴表現を抽出することが重要です。[16] の研究では、この直観を理論的に形式化するための一般化限界を持つモデルが提案されており、ソースドメインとターゲットドメイン間の違いを明示的に最小化し、さらに訓練データのマージンを最大化することができます。

この研究 [16] を発展させ、任意の損失関数を持つ適応問題に適合した分布間の距離が考案されました [95]。この後の議論では、この距離が因果推論におけるドメイン適応問題に対処する上で重要な役割を果たします。

これまで見てきたように、反事実推論とドメイン適応との間には明らかなつながりがあります。直感的なアイデアとしては、表現空間において、異なる治療群の分布間の類似性を強制することです。学習された表現は、以下の 3 つの目的関数をトレードオフします。(1) 事実表現に対する低エラー予測、(2) 関連する事実アウトカムを考慮した反事実アウトカムに対する低エラー予測、(3) 治療集団の分布とコントロール集団の分布間の距離 [70]。

この動機に基づき、[139] はシンプルで直感的な一般化誤差限界を与えています。これは、表現の期待 ITE 推定誤差が、その表現の標準的な一般化誤差と、表現に基づいた治療群とコントロール群の分布間の距離の合計で境界付けられることを示しています。分布間の距離を測定するために積分確率距離 (IPM) が使用され、ワッセルシュタイン距離と最大平均不一致距離に対して明示的な境界が導かれました。

最適化したい目的関数は以下のようになります。

式は省略

このモデルは、大きな柔軟性を持って複雑な非線形表現と仮説を学習することができます。Φの次元が高くなると、ΦとWの連結をそのまま入力として扱うと、t (治療) の h (仮説) への影響が失われるおそれがあります。この問題に対処するための一つの方法は、h1 (Φ) と h0 (Φ) を、結合ネットワークの2つの独立した「ヘッド」としてパラメータ化することです。h1 (Φ) は治療下でのアウトカムを推定するために使用され、h0 (Φ) はコントロール群のためです。各サンプルは、観察された治療にのみ対応するヘッドを更新するために使用されます。

利点は、共通表現層で統計力が共有され、別々のヘッドで治療の影響が保持されることです [139]。このモデルは、完全一致アプローチ [136] で説明されているように、任意の数の治療に拡張することもできます。このアイデアに沿って、いくつかの改良されたモデルが提案、議論されています。例えば、[71] は、シフト不変表現学習と再重み付け手法を統合しています。[59] は、ITE 推定における選択バイアス問題を緩和するために、表現学習の上に、重要性サンプリング手法に基づく新しいコンテキスト依存重み付け方式を提示しています。

既存の ITE 推定手法は、主にコントロール群と治療群の分布のバランスに焦点を当てていますが、ITE 推定に意味のある制約を提供する局所的な類似性情報を無視しています。[171, 172] では、深層表現学習に基づいて、局所的な類似性を保持した個人治療効果 (SITE) 推定手法が提案されています。SITE は、局所的な類似性を保持しつつ、同時にデータ分布のバランスを取ります。SITE のフレームワークは、表現ネットワーク、トリプレットペア選択、位置依存型ディープメトリック (PDDM)、中間点距離最小化 (MPDM)、およびアウトカム予測ネットワークの 5 つの主要コンポーネントで構成されています。

モデルの効率を向上させるために、SITE はミニバッチ単位で入力を取込み、トリプレットペアは各ミニバッチから選択することができます。表現ネットワークは、入力ユニットの潜在的埋め込みを学習します。選択されたトリプレットペアを使用すると、PDDM と MPDM は局所的な類似性情報を保持し、同時に潜在空間での分布のバランスを実現することができます。最後に、ミニバッチの埋め込みは、2 値のアウトカム予測ネットワークにフィードフォワードされ、潜在的なアウトカムが得られます。SITE の損失関数は以下の通りです。

(式は省略)

ドメイン適応による表現学習の続き

このモデルは、柔軟性が高く、複雑な非線形表現と仮説を学習することができます。しかし、Φの次元が高くなると、ΦとWの連結をそのまま入力として扱うと、治療 (t) が仮説 (h) に与える影響が失われてしまうおそれがあります。

この問題に対処するための一つの方法は、h1(Φ) と h0(Φ) を、結合ネットワークの 2 つの独立した「ヘッド」としてパラメーター化することです。h1(Φ) は治療状態でのアウトカムを推定するために使用され、h0(Φ) はコントロール群のためです。各サンプルは、観察された治療にのみ対応するヘッドを更新するために使用されます。

この利点は、共通表現層で統計力が共有され、別々のヘッドで治療の影響が保持されることです [139]。このモデルは、完全一致アプローチ [136] で説明されているように、任意の数の治療に拡張することもできます。

このアイデアに沿って、いくつかの改良されたモデルが提案、議論されています。例えば、[71] はシフト不変表現学習と再重み付け手法を統合しています。[59] は、ITE 推定における選択バイアス問題を緩和するために、表現学習の上に、重要性サンプリング手法に基づく新しいコンテキスト依存重み付け方式を提示しています。

SITE のフレームワークは、表現ネットワーク、トリプレットペア選択、位置依存型ディープメトリック (PDDM)、中間点距離最小化 (MPDM)、およびアウトカム予測ネットワークの 5 つの主要コンポーネントで構成されています。モデルの効率を向上させるために、SITE はミニバッチ単位で入力を取込み、トリプレットペアは各ミニバッチから選択することができます。表現ネットワークは、入力ユニットの潜在的埋め込みを学習します。選択されたトリプレットペアを使用すると、PDDM と MPDM は局所的な類似性情報を保持し、同時に潜在空間での分布のバランスを実現することができます。最後に、ミニバッチの埋め込みは、2 値のアウトカム予測ネットワークにフィードフォワードされ、潜在的なアウトカムが得られます。SITE の損失関数は以下の通りです。

(式は省略)

式の内容は省略しましたが、損失関数はおそらく以下の要素を含むと考えられます。

LF_L: 推定された事実アウトカムと観察された事実アウトカム間の誤差を表す損失関数
LPDDMとLMPDM: PDDM と MPDM の損失関数
最後の項は、バイアス項を除くモデルのパラメータ Mに対する L2 正規化

ほとんどのモデルは数値表現を持つ共変量に焦点を当てていますが、テキスト情報を持つ共変量を治療効果推定に用いる方法はまだ確立していません。主要な課題の一つは、アウトカムよりも治療を予測しやすい、ほぼ計器変数である変数をどのように除外するかです。これらの変数に基づいて治療効果を推定すると、推定バイアスが増幅されてしまいます。

この課題に対処するために、[173] では条件付き治療敵対的学習に基づくマッチング (CTAM) 方式が提案されています。CTAM は、表現学習の際に近似計器変数に関連する情報をフィルタリングするために治療敵対的学習を取り入れ、その後学習された表現間でマッチングを行い、治療効果を推定します。

CTAM は、テキスト処理、表現学習、条件付き治療識別器の 3 つの主要コンポーネントで構成されています。テキスト処理コンポーネントでは、元のテキストはベクトル表現 S に変換されます。その後、S は非テキスト共変量 X と連結され、統一された特徴ベクトルが構築されます。このベクトルは、表現ニューラルネットワークに入力され、潜在表現 Z が得られます。

表現 Z を学習した後、Z と潜在的アウトカム Y は条件付き治療識別器に入力されます。訓練手順では、表現学習器は条件付き治療識別器とミニマックスゲームを行います。識別器が正しい治療を割り当てるのを妨害することにより、表現学習器は近似計器変数に関連する情報をフィルタリングすることができます

3.5.2 表現学習に基づくマッチング

表現学習後の回帰ベースの手法と比較して、表現学習に基づくマッチング手法はより解釈しやすいと言えます。なぜなら、サンプル的反事実アウトカムは、反対の治療を受けたグループにおける最隣接近点の事実アウトカムに直接設定されるからです。

最近傍マッチング (NNM) は、治療 (コントロール) サンプル的反事実アウトカムを、コントロール (治療) グループにおける最隣接近点の事実アウトカムと同じ値に設定します。NNM は単純で柔軟性があり、解釈しやすいですが、多くの NNM アプローチは、アウトカムに影響を与えない変数によって簡単に誤解される可能性があります。

この課題に対処するため、マッチングは、治療群とコントロール群の両方でアウトカム変数を予測する部分空間で行うことができます。学習された部分空間で NNM を適用すると、反事実アウトカムのより正確な推定、ひいては治療効果の正確な推定につながります。

例えば、ある研究 [29] では、コントロールサンプルのサブスペースとアウトカム変数間の非線形依存関係を最大化する射影行列を学習することにより、治療サンプルの反事実アウトカムを推定しています。そして、学習された射影行列をすべてのサンプルに直接適用し、サブスペース内で各治療サンプルのマッチングされたコントロールサンプルを見つけます。

さらに別の研究 [35] では、選択的かつバランスのとれた表現空間でマッチングを行い、治療効果を推定しています。これは、因果推論のための深層特徴選択と深層表現学習をシームレスに統合しています。特徴選択と表現学習において、入力レベルの一対一の特徴選択層は、ニューラルネットワークに入力する変数を選択し、深層ニューラルネットワークをより解釈しやすくしています。

3.5.3 表現学習に基づく継続学習

観察データを用いた因果効果推定の課題克服に向けては大きな進展が見られますが、既存の表現学習手法は、ソースに依存した特定の静的な観察データだけに焦点を当てています。このような学習戦略は、すべての観察データが訓練フェーズ中に一度に利用可能で、かつ単一のソースから得られるという前提に基づいています。しかし、この前提は実務上、以下の 2 つの理由により妥当とは言えません。

第 1 の理由は、観察データの特性に起因します。観察データは、非定常なデータ分布から徐々に集まってくるものです。例えば、ある病院の電子カルテは日々増加しているか、ある疾患の電子カルテは異なる病院や国から集められる可能性があります。この特性は、すべての観察データを一度に、単一のソースから取得することはできないことを意味します。

第 2 の理由は、アクセス可能性という現実的な問題です。例えば、新しい観察データが利用可能になった際、既存のモデルを改良したい場合でも、元の訓練データには、紛失、所有権、保存容量、プライバシー上の制約など様々な理由でアクセスできなくなっている可能性があります。このようなアクセシビリティの問題は、様々な学術研究や産業アプリケーションで普遍的に見られます。

[8] では、非定常なデータ分布から徐々に集まってくる観察データを用いた因果効果推定のための「継続的因果効果表現学習手法」が提案されています。この手法は、すべての過去の観察データにアクセスできるのではなく、過去の観察データから学習した知識を保持するために、特徴表現の知識蒸留を取り入れています。さらに、治療群とコントロール群間の選択バイアス解決を目指して、部分的な元の特徴表現を新しい特徴表現空間へマッピングする 1 つの表現変換関数を使用し、グローバルな特徴表現空間を治療群とコントロール群に関してバランスのとれたものにします。

3.6 マルチタスク学習手法

治療群とコントロール群は、それぞれ特有の特性を除けば、常にいくつかの共通の特徴を共有しています。因果推定は自然に、治療群とコントロール群を一緒にするための共有レイヤーと、治療群とコントロール群を別々にするための特定レイヤーのセットを持つ、マルチタスク学習問題として概念化できます。

マルチタスク学習における選択バイアスの影響は、プロペンシティ値ドロップアウト正規化スキーム [5] を介して軽減されます。このスキームでは、関連するプロペンシティスコアに依存するドロップアウト確率で、ネットワークが各訓練例に対して疎化されます。ドロップアウト確率は、治療群とコントロール群の特徴空間での重なりが少ない領域の特徴を持つ被験体の方が高くなります。

また、ベイズ法もマルチタスクモデルの下で拡張することができます。非パラメトリックベイズ法 [4] は、ベクトル値再生核ヒルベルト空間上の事前分布として、線形コアグジタル化カーネルを持つマルチタスクガウス過程を使用します。

ベイズアプローチは、区間推定値を通じて推定における個々の信頼性の尺度を計算することを可能にします。これは、個別化医療の可能性を最大限に引き出すために不可欠です。選択バイアスの影響は、リスクベースの経験ベイズ法によって軽減されます。この方法は、事実アウトカムの経験的誤りと反事実アウトカムの不確実性を共同で最小化する、マルチタスク GP 事前分布を適合させるためのものです。

マルチタスクモデルは、各治療で連続パラメータを伴う複数の治療にまで拡張できます。Dose Response Network (DRNet) アーキテクチャ [135] は、共有ベースレイヤー、NW 個の中間治療レイヤー、および複数の治療設定とそれに関連する投薬パラメータ s を持つ NW × E 個のヘッドで構成されています。共有ベースレイヤーはすべてのサンプルで訓練され、治療レイヤーはそれぞれの治療カテゴリからのサンプルでのみ訓練されます。各治療レイヤーはさらに E 個のヘッドレイヤーに細分化されます。各ヘッドレイヤーには、潜在的な投薬量範囲 [a, b] を E 個の等幅パーティションに分割する投薬量層が割り当てられます。

3.7 メタ学習手法

異質な治療効果推定アルゴリズムを設計する際、考慮すべき 2 つの主要な要素があります。(1) 交絡変数を制御する、つまり、交絡変数とアウトカム間の虚偽相関を排除する。(2) CATE 推定の正確な表現を与えることです。

前節で述べた手法は、2 つの要求を同時に満たすことを目指していますが、メタ学習ベースのアルゴリズムはこれを 2 つのステップに分離します。一般的に、メタ学習ベースのアルゴリズムは次の手順を持ちます。(1) 条件付き平均アウトカム E[Y |X = x] を推定し、このステップで学習された予測モデルがベースラーナーです。(2) ステップ (1) から得られた結果の差に基づいて、CATE 推定量を導出します。既存のメタ学習手法には、T-learner [81]、S-learner [81]、X-learner [81]、U-learner [99]、R-learner [99] があり、以下で紹介します。

具体的には、T-learner [81] は、条件付き治療/コントロールアウトカムを推定するために 2 つの木を使用します。それぞれ μ0(x) = E[Y(0)|X = x] と μ1(x) = E[Y(1)|X = x] で表されます。μˆ0(x) と μˆ1(x) を、コントロール/治療群で訓練された木モデルとします。すると、T-learner 推定の CATE は、τˆT(x) = μˆ1(x) − μˆ0(x) で得られます。T-learner はコントロール群と治療群のために 2 つのベースモデルを訓練します (「T」という名前は 2 つのベースモデルに由来します)。一方、S-learner [81] は、治療割当を 1 つの特徴とみなし、結合アウトカムを μ(x, w) = E[Y |X = x, W = w] として推定します (「S」は単一を表します)。μ(x, w) は任意のベースモデルであり、訓練されたモデルを μˆ(x, w) と表します。S-learner が提供する CATE 推定量は、τˆS(x) = μˆ(x, 1) − μˆ(x, 0) で与えられます。

ただし、T-learner と S-learner は、訓練されたベースモデルのパフォーマンスに大きく依存します。2 つのグループのユニット数が極端に不均衡な場合 (つまり、一方のグループの数が他方よりもはるかに多い場合)、少数のグループで訓練されたベースモデルのパフォーマンスは低くなります。この問題を克服するために、X-learner [81] が提案されました。X-learner は、コントロールグループからの情報を活用して治療群のより良い推定量を生成し、その逆も同様に行います。グループ間情報の利用は X-learner の名前の由来であり、X は「クロスグループ」を表します。

X-learner の詳細は、以下の 3 つの主要なステップからなります。X-learner の最初のステップは T-learner と同じで、訓練されたベースラーナーは μˆ0(x) と μˆ1(x) で表されます。2 番目のステップで、X-learner は観測されたアウトカムと推定されたアウトカムの差を入力治療効果として計算します。コントロールグループでは、差は推定された治療アウトカムから観測されたコントロールアウトカムを引いたもので、DˆC i = μˆ1(x) − YF と表されます。同様に、治療グループでは、差は DˆT i = YF − μˆ0(x) と式化されます。差の計算後、データセットは入力治療効果を持つ 2 つのグループに変換されます。コントロールグループ: (XC, DˆC )、治療グループ: (XT , DˆT )。2 つの入力治療効果を持つデータセット上で、2 つの治療効果のベースラーナー τ1(x) (τ0(x)) が XC(XT) を入力、DˆC(DˆT) を出力として訓練されます。最後のステップは、重み付き平均で 2 つの CATE 推定量を結合することです。τX(x) = д(x)τˆ0(x) + (1 − д(x))τˆ1(x) です。ここで、д(x) は 0 から 1 までの重み付け関数です。

4. 3 つの仮定を緩める手法

3 章では、因果推論における 3 つの仮定、すなわち SUTVA、無視可能性、陽性仮定について詳しく説明しました。しかし、ソーシャルメディア分析など依存関係のあるネットワーク情報、特殊なデータ形式 (時系列データなど)、特定の状況 (未観測の交絡変数の存在など) を扱うような実用アプリケーションにおいては、常にこれらの 3 つの仮定が成立するとは限りません。この章では、特定の仮定を緩めることを試みる手法について論じます。

4.1 安定単位治療効果の仮定 (SUTVA) の緩和

SUTVA は、ある単位 (個人や集団など) の反事実アウトカム (治療を受けなかった場合のアウトカム) は、他の単位に割り当てられた治療の影響を受けず、各単位に対しては、それぞれ異なる治療レベルが存在しない、ということを仮定しています。この仮定は主に以下の 2 つの側面に焦点を当てています。(1) 単位は独立かつ同一分布 (i.i.d.) である。(2) 各治療に対しては 1 つのレベルのみが存在する。

SUTVA を前提とした因果推論については多くの研究がなされていますが、現実世界の様々な状況を考えると、必ずしも当てはまらない場合があります。以下では、SUTVA のこの 2 つの側面について議論します。

独立かつ同一分布 (i.i.d.) という仮定は、因果推論手法の多くで普遍的に用いられますが、ソーシャルメディア分析 [54] [140]、集団免疫、信号処理 [153, 161] など多くの研究分野において、この仮定は成立しません。非 i.i.d. な状況での因果推論は、未観測の交絡変数とデータ依存性の存在により困難になります。例えば、ソーシャルネットワークでは、ユーザー同士がつながり相互に影響し合います。

このようなネットワークデータに対しては、SUTVA はもはや成立しません。ネットワーク構造を通じて、インスタンス (事例) は互いに本質的に相互接続されており、したがって、それらの特徴は、特定の分布から抽出された独立かつ同一分布に従ったサンプルではありません。因果推論モデルにグラフ畳み込みネットワークを適用することは、ネットワークデータを扱うための 1 つの方法です [54]。特に、被験者の元の特徴とネットワーク構造が表現空間にマッピングされ、交絡変数の表現が得られます。さらに、反事実アウトカムは、治療割り当てと交絡変数の表現を使用して推論することができます。

データ依存はしばしば干渉をもたらします。ある被験者の治療が他の被験者のアウトカムに影響を与える可能性があるからです [63, 101]。この難しさは、因果パラメータの同定を妨げることがあります。干渉下での因果パラメータの同定と推定については多くの研究が行われており [63, 101, 108, 157]、[142] では、潜在変数射影混合グラフ [160] の一般化である分離グラフ [144] を用いて因果モデルを表すことが提案されています。

時系列データのモデリングは、独立かつ同一分布の仮定を満たさない因果推論におけるもう一つの重要な問題です。既存の多くの手法は、この問題に回帰モデルを使用しますが、推論の正確性はモデルがデータに適合しているかどうかに大きく依存します。したがって、適切な回帰モデルを選択することは極めて重要ですが、実際には完璧なモデルを見つけるのは容易ではありません。[32] では、回帰モデルの代わりに分類器を使用する教師付き学習フレームワークを提案しています。過去の変数値を与えた条件付き分布間の距離を利用した特徴表現を提示しており、実験により、この特徴表現は異なる因果関係を持つ時系列に対して十分に異なる特徴ベクトルを提供することを示しています。

時系列データの場合、考慮すべきもう一つの問題は潜在的な交絡変数です。隠れ交絡変数があっても治療効果を推定できるようにするために、時系列デコンファウンダー [18] が開発されました。この時系列デコンファウンダーは、多重タスク出力を備えた recurrent neural network アーキテクチャを使用して、時間をかけて因子モデルを構築し、代わりの交絡変数を推論します。この代わりの交絡変数は、割り当てられた治療を条件付き独立にします。その後、代わりの交絡変数を使用して因果推論を行います。

SUTVA 仮定の 2 番目の側面は、各治療に対して 1 つのバージョンしか存在しないことを仮定しています。しかし、治療に 1 つの連続パラメータを追加すると、この仮定はもはや成立しません。例えば、いくつかの治療の個々の用量反応曲線を推定するには、各治療に関連する用量パラメータ (カテゴリカルまたは連続) を追加する必要があります。この場合、各治療は、カテゴリカルな用量パラメータの場合は複数のバージョン、連続な用量パラメータの場合は無限のバージョンを持つことになります。この問題を解決する 1 つの方法は、連続的な用量をカテゴリカル変数に変換し、特定の用量を持つすべての薬を 1 つの新しい治療として扱うことです。そうすることで、SUTVA 仮定が再び満たされます [135]。

SUTVA の仮定を破るもう一つの例は、動的治療レジームです。動的治療レジームは、介入の各段階で 1 つずつの意思決定ルールからなるシーケンスで構成されます [27]。動的治療の有用なアプリケーションの一つは、精密医療です。精密医療には、患者の背景特性、病気の重症度、その他の異質性に反応して、どのタイプの治療を使用すべきか、またはどのくらいの用量が最適かを調整するための個人化が組み込まれています。このような異質性は、テーラリング変数と呼ばれます。

有益な動的治療レジームを得るために、[84] は「バイアスコインによる被験者内適応型」デザインを導入しました。次に [97] は、このタイプのデザインの一般的な枠組みを提示します。この枠組みでは、順序的多次割当ランダム化試験を使用して意思決定ルールを作成します。つまり、 1 人の個人は複数回ランダム化される可能性があり、複数のランダム化は時間とともに順次に行われます。観察データから最適な動的決定ルールを推定するために、Q [166, 167] 学習と A [96, 118] 学習が最適な動的治療レジームを推定する 2 つの主要なアプローチです。Q 学習における Q は「品質」を表します。Q 学習はモデルを持たない強化学習アルゴリズムであり、ユニットの情報に基づいて各意思決定ポイントでのアウトカムを推定するために仮定された回帰モデルを使用します。

アドバンテージ学習 (A 学習) では、モデルは、治療間のコントラストと、各意思決定ポイントでのユニットの情報を与えられたときの観察された治療割り当ての確率を含む回帰の一部に対してのみ仮定されます。どちらの方法も、動的計画法 [15] に関連する後方再帰フィッティング手順を通じて実装されます。

4.2 独立性の仮定緩和

無視可能性の仮定は、不交絡性 (unconfoundedness) の仮定とも呼ばれます。背景変数 X を与えられたとき、治療割り当て W は反事実アウトカム (W = 0 時のアウトカム、W = 1 時のアウトカム) から独立である、つまり W ⊥⊥ Y (W = 0), Y (W = 1) | X です。この不交絡性仮定の下では、同じ背景変数 X を持つ単位に対して、治療割り当てはランダムであると見なすことができます。

しかし、全ての背景変数を特定・収集することは明らかに不可能であり、この仮定は満たしづらいものです。例えば、薬の個人別治療効果を推定する観察研究では、ランダム化実験ではなく、一連の因子に基づいて個々に薬が割り当てられます。社会経済的地位のような一部の因子は測定が難しく、そのため潜在的な交絡変数となってしまいます。

既存の研究は、大部分が全ての交絡変数が測定可能であるという不交絡性仮定に依存しています。しかし、この仮定は実際には必ずしも妥当とは言えません。上記の例では、単位の人口統計学的属性 (住所、消費能力、雇用状況など) が社会経済的地位の代理変数になっている可能性があります。

ビッグデータを活用することで、潜在的で観測されていない交絡変数の代理変数を見つけることが可能です。変分オートエンコーダは、観測された交絡変数と潜在的な交絡変数、治療割り当て、アウトカムの結合分布間の複雑な非線形関係を推論するために使用されてきました [93]。潜在的な交絡変数と観測された交絡変数の結合分布は、観測値から近似的に復元することができます。

別の方法としては、基になるネットワーク情報を取り込むことで、潜在的交絡変数のパターンを捉え、その影響を制御する方法があります。ネットワーク情報は、観測されていない交絡変数の妥当な代理変数にもなります。[54] では、GCN をネットワーク情報に適用して、潜在的交絡変数の表現を取得しています。さらに [53] では、グラフアテンション層を使用して、ネットワーク観測データにおける観測された特徴量を D 次元の部分的潜在的交絡変数の空間にマッピングし、実世界のネットワーク観測データにおける未知のエッジ重みを捕捉しています。

興味深い知見として、[159] では、たとえ交絡変数が観測されても、因果効果を推論するのに役立つ情報が全て含まれているわけではないことが指摘されています。代わりに、推定者が実際に使用する交絡変数の部分だけで十分である可能性があります。したがって、治療のための良好な予測モデルを構築できれば、真の交絡変数全体を学習する必要がなく、アウトカム効果の推定値を直接代入するだけで済む場合もあります。[159] では、因果推定問題を、治療とアウトカムの両方の半教師学習予測に帰着させることが主要なアイデアです。ネットワークは、この半教師学習予測に使用できる高品質な埋め込みモデルを備えています。さらに、埋め込み手法は、完全に指定された生成モデルの代替案としても機能し得ます。

交絡変数の問題を解決するために観察データのみを使用するのは常に困難です。代わりの方法は、実験データと観察データを一緒に組み合わせる方法です。[73] では、限定的な実験データを使用して、観察データと実験データが完全に重複していない場合でも、大規模な観察データで訓練された因果効果モデルの隠れ交絡変数を補正します。この手法は、既存のアプローチよりも厳密に弱い仮定に基づいています。

縦断的観察データから治療効果を推定する既存の方法は、通常、隠れ交絡変数がないことを仮定しています。この仮定は実用上検証できず、成り立たないと推定値がバイアスに傾きます。[18] では、割り当てられた治療を条件付き独立にする代わりの交絡変数を推論します。その後、代わりの交絡変数を使用して因果推論を行います。この方法は、隠れ交絡変数が存在する時系列データの治療効果推定に役立てることができます。

上記の方法は全て、観測された交絡変数と観測されない交絡変数に関する問題を解決することを目的としています。不交絡性仮定を回避して因果推論を行うための他の方法はあるのでしょうか？その 1 つの方法として、計器変数 (Instrumental Variable, IV) を用いることが挙げられます。計器変数は、治療の割り当てにのみ影響を与え、アウトカム変数 (治療の効果が測定される変数) には影響を与えない変数です。計器変数の値が変わると、治療の割り当てが異なってきます。

[58] では、計器変数分析を、それぞれ深層ニューラルネットワークで扱える 2 つの教師あり学習の段階に分割する方法を提案しています。第 1 段階では、計器変数と共変量を与えられたときの治療変数の条件付き分布をモデル化します。第 2 段階では、条件付き治療分布を積分する損失関数を使用します。この深層計器変数フレームワークは、既存の教師あり学習手法を活用して因果効果を推定することもできます。

4.3 陽性仮定の緩和

陽性仮定 (共変量重なりまたは共通支持体とも呼ばれる) は、観察研究における治療効果の同定にとって必要不可欠な仮定です。しかし、高次元データセットにおいて、この仮定が満たされているかどうかについて論じた文献はほとんどありません。[38] では、陽性仮定は強い仮定であり、高次元データセットでは満足させるのがより困難であると主張しています。

この主張を裏付けるために、厳密な重なり仮定が持つ意味合いが探られ、厳密な重なりは、コントロール群と治療群の共変量間の一般的な差異を制限することが示されています。したがって、陽性仮定は研究者が想定しているよりも強い仮定です。

上記の含意に基づき、治療割当てに関する情報を排除しながらも、不交絡性仮定を維持する手法が推奨されています。例えば、重なりを持たない領域のレコードを削除するトリミング [36, 110, 122] や、計器変数を共変量から排除する計器変数調整法 [41, 98, 106] などが挙げられます。

6. 応用事例

因果推論は現実世界の様々なシナリオで応用されています。一般的に、因果推論の応用は以下 3 つの領域に分類できます。

(1) 意思決定評価: これは、治療効果推定の目的と一致しているため、治療効果推定の自然な応用です。

(2) 反事実推定: 反事実学習は意思決定に関連する分野に大きく貢献します。なぜなら、異なる意思決定 (方針) の反事実アウトカム (選択しなかった場合のアウトカム) を予測できるからです。

(3) 選択バイアスの処理: 多くの現実世界の応用において、収集されたデータセット内のレコードは、対象としている母集団全体を代表していません。選択バイアスを適切に処理しなければ、訓練されたモデルの一般化性能が損なわれてしまいます。

このセクションでは、因果推論がどのように様々な現実世界の応用に役立つかについて詳しく説明します。

6.1 広告

広告キャンペーンの効果を適切に測定することは、新しい広告がクリック数を増やすのか、新しいキャンペーンが販売を伸ばすのかなど、重要なマーケティング上の疑問に答えることができます。ランダム化実験の実施は費用と時間がかかるため、観察データから広告効果を推定することは、業界と研究コミュニティの両方で注目を集めています [152, 163]。

[90] では、デジタルマーケティングキャンペーンの治療効果を推定するためのランダマイズ NNM 方式が提案されています。[47] では、セクション 3.1.1 で論じた CBGPS が、政治広告の効果を分析するために適用されています。しかし、オンライン広告分野では、離散値か連続値か、単一次元か多重次元かの複雑な広告施策を扱うことが多く求められます [152]。

ある広告をベースライン治療として設定し、治療効果は、異なる値の治療の反事実アウトカムとベースライン治療との比較によって得られます。多重次元の値を持つ治療の反事実アウトカムを推定するためには、木構造ベースの方法 [163これまでの議論は、治療効果推定が意思決定評価における広告キャンペーンの効果測定にどのように応用できるかを示しました。もう 1 つの重要な応用は、選択バイアスの処理です。広告システムには配信の仕組みがあるため、表示されたイベントと表示されなかったイベントとの間には分布のずれが生じます [175]。このようなバイアスを無視すると、広告のクリック予測が不正確になり、収益の損失につながります。

選択バイアスを扱うために、セクション 3.1.1 で述べた DR 推定と同様に、[43] では DR ポリシー学習が提案されています。DR ポリシー学習は、観察されたサンプルから得られる直接推定量と、傾向スコアをサンプル重みとして用いる IPS 推定量の 2 つのサブ推定量で構成されています。

さらに、商用広告システムにおける決定論的な広告配信ポリシーのために、傾向スコア推定が困難であることが指摘されています。配信ポリシーが確率的であれば、傾向スコアが低い広告でも観察データセットに表示される可能性があり、IPS は選択バイアスを補正することができます。しかし、配信ポリシーが決定論的な場合、傾向スコアが低い広告は常に観察されないため、傾向スコア推定が失敗してしまいます。この課題を克服するために、[175] では、元の DR 方式を 2 点改善した傾向スコア不要な DR 方式を提案しています。(1) 選択バイアスが非表示の広告に伝播しないよう、ある程度、均一なポリシー下で得られた小さくてバイアスのないデータセットで直接法を訓練します。(2) 観察された項目の傾向スコアを 1 に設定し、IPS を直接法と組み合わせて、傾向スコア推定を回避します。つまり、この傾向スコア不要な手法は、小さなバイアスのないデータセットで訓練された直接法に頼り、広告クリックのバイアスのない予測を行います。

上記で説明した応用以外にも、次のサブセクションで扱う広告レコ mendation などが重要な応用分野です。] や疎な加法モデルベースの方法 [152] が提案されており、潜在的治療とベースライン治療との比較を可能にします。

純粋な観察データに加えて、現実世界では、コントロール状態 (つまり既存の治療) からの大規模なサンプルと、コントロール状態と新しい治療の両方を含むランダム化試験からの小規模なサンプル (おそらく非代表的) で構成されたデータセットを扱うことがよくあります。[125] では、最小限のモデリング仮定を使用して、小規模なランダム化試験データセットを大規模なコントロールデータセットと接続します。この仮定は、コントロールと治療後のアウトカムを予測するモデルが類似していることを意味します。この仮定の下で、提案された方法は、コントロールと治療後のアウトカム予測器を共同で学習し、2 つの予測器のパラメータ間の差異を正規化します。

6.2 レコメンデーション

レコメンデーションは、治療効果推定と密接に関連しています。レコメンデーションシステムでユーザーにアイテムを提示することは、ユニットに特定の治療を適用することと見なすことができるからです [83, 134]。治療効果推定で用いられるデータセットと同様に、レコメンデーションで用いられるデータセットも、ユーザーの自己選択バイアスがかかっていることが一般的です。

例えば、映画評価のデータセットでは、ユーザーは自分が好きな映画を評価する傾向があります。ひどい映画の評価は、ホラー映画ファンのほうがロマンチック映画ファンよりも多く行うでしょう。もう一つの例は、広告レコメンデーションのデータセットです。レコメンデーションシステムは、ユーザーがその広告に興味を持っていると判断した場合にのみ、広告をレコメンドします。

上記の例では、データセット内のレコードは母集団全体を代表しておらず、これが選択バイアスです。選択バイアスは、レコメンデーションモデルの訓練と評価の両方に課題をもたらします。

傾向スコアに基づいたサンプルの重み付けは、選択バイアスに起因する問題を解決するための強力な方法です。傾向スコア重み付け後の改善された性能推定は、以下の式で計算できます。

式の中で、Yˆはレコメンデーションシステムの品質を測定する値、Uはユーザー数、Iはアイテム数です。Ou,i は、観察データにおけるユーザーuとアイテムiの相互作用を示すバイナリ変数です。δu,i (·, ·) は、累積ゲイン、割引累積ゲイン、k順位精度など、古典的な品質尺度です。P は周辺確率行列で、Pu,i = P (Ou,i = 1) で定義されます。

改善された品質尺度は、R(Yˆ) = 1/UI Σu=1Σi=1 δu,i (Y,Yˆ) で定義される、全体集団に対する真の測定値 R(Yˆ) の unbiased 推定 (不偏推定) です。この unbiased な品質尺度に基づき、[134] では、レコメンデーションのための傾向スコア経験的リスク最小化が提案されています。

Yˆ ∈ H は、以下の問題を最適化するために選択されます。Yˆ ERM = argminYˆ ∈H {RˆIPS (Yˆ|P)}

ここで、RˆIPS (Yˆ|P) は式 (33) で定義されています。その後、傾向スコア重み付けの欠点 (推定分散の削減 [131, 155]、データスパースの問題への対処 [131, 155]、DR 推定 [165, 177]) を改善する様々な手法が開発されています。

選択バイアスを克服するために、IPS や DR 推定ベースの手法を使用するだけでなく、広告分野と同様に、一部の研究では小さなバイアスのないデータセットを使用して選択バイアスを補正しています。この場合、データセットは、コントロールポリシー下の大規模なログフィードバックレコードと、ランダム化レコメンデーション下のごく少数のレコードで構成されます。CausalEmbed [22] はこの方向性における代表的な手法であり、新しい行列分解アルゴリズムを提案しています。具体的には、CausalEmbed はこの 2 つのデータセットの行列を共同で分解し、処理済み表現とコントロール表現の差を正規化することで 2 つのモデルを結びつけます。

6.3 医療

因果推定手法を医療分野に適用し、一人ひとりに最適な治療方針を導き出すことは、有望な目標の一つです。利用可能な異なる薬の効果を推定できれば、医師はより適切な処方箋を提示することができます。[138] では、この目標を達成する上で、共変量の存在と観察されない共変量の存在という 2 つの課題が挙げられています。

ランダム化比較試験データからの分析が理想的な解決方法ですが、以下の制限があります。(1) ランダム化比較試験データは、平均治療効果 (ATE) を分析することを目的としているため、データサイズが小さくなることが多く、個人に合わせた治療方針の導出能力が制限されます。(2) 第 2 章で述べたように、ランダム化比較試験の実施は、費用がかかり、時間がかかり、倫理上問題がある場合もあります。

したがって、観察データまたは実験データと観察データの組み合わせから個人に合わせた治療方針を導出することは、有望な方向性です [138]。観察データを利用する方向性としては、非交絡性仮定の下で推定された ITE に基づいて、個別の治療方針を導出する様々な手法が提案されています。例えば、deep-treat [9] や階層的ケースコホートデザインに基づく手法 [77] などがあります。しかし、この分野では観察されない共変量を扱う手法は限られており、セクション 4.2 で議論された手法には大きな可能性が秘められています。

6.4 強化学習

強化学習の観点から、ITE 推定は、治療をアクション、アウトカムを報酬、背景変数をコンテキスト情報とした文脈依存バンディット問題として見なすことができます。アームの探索と活用は、ランダム化比較試験と観察データと同様です。したがって、この 2 つの領域はいくつかの類似した重要な課題を共有しています。(1) 不偏なアウトカム/報酬推定を得るにはどうすればよいか。(2) 治療割り当て/アクション選択とアウトカム/報酬の両方に影響を与える観察された/観察されない共変量をどのように扱うか。

不偏な報酬推定を得るために、オフラインポリシー評価では、重要性サンプリング重み付け [111] がよく用いられる手法です。重みは、ターゲットポリシーとログされた (観察された) ポリシー間の確率に設定され、セクション 3.1.1 で述べた IPW と類似しています。しかし、[111] で提案された重要性サンプリングは、分散が大きく、割り当てられた重みに依存しすぎるという問題があります。これを改善するため、ATE 推定における DR 方式と同様に、[43] では DR ポリシー評価が提案されています。その後、さまざまな手法 [10, 19, 74, 88, 154, 155, 158, 179] が提案され、異なる設定でこれら 2 つの手法を改善しています。

前述のように、2 番目の課題は共変量をどのように扱うかということです。すべての共変量が観察されている場合は、前の段落で述べた不偏な報酬関数を直接最適化することができます。しかし、観察されない共変量が存在する場合、一般に観察データで行われるように、利益をもたらすのではなくむしろ害をもたらすようなポリシーを導いてしまう可能性があります。[75] では、交絡ロバストなポリシー学習フレームワークが提案されており、傾向スコアに対して不確かな集合上でポリシーを最適化することで、観察されない共変量を制御することができます。

6.5 自然言語処理

近年、研究者たちは因果推論を活用して自然言語処理タスクの性能向上に注目しています。非交絡な語彙特徴学習 [112] は、標的変数の予測に寄与しつつ、交絡変数とは相関関係を持たない語彙特徴を学習することを目指しています。この手法は、言語分析と下流タスクの解釈にとって重要であることが示されています。

さらに、治療、交絡変数、または結果のいずれかがテキストデータを含む場合を扱うための手法がいくつか提案されています [44, 156, 169, 173]。最近の調査 [76] では、テキストデータを交絡変数として用いる手法と応用についてレビューされています。具体的には、この調査はテキストデータを交絡変数として用いる2つの方法を指摘しています。1つ目は、テキストを潜在的な交絡変数の代用品として見る方法です。もう 1 つの方法は、言語的内容などのテキストの言語自体が交絡変数になり得るというものです。この調査ではまた、近似誤差の軽減、意味のあるテキスト表現の設計方法など、未解決の課題についても議論しています。

6.6 コンピュータビジョン

コンピュータビジョンでは、視覚と言語の相互作用に由来する新興のタスク、例えば視覚質問応答 (VQA) や画像キャプションは、最先端の対話型 AI システムの基盤となる重要なブロックになりつつあります [100]。しかし、既存の多くの研究は因果関係のある証拠ではなく相関関係に依存しており、データ内のがらくた相関により、モデルは質問の言語的変化に対して著しく脆弱になります [115, 137]。

この問題を解決するため、[3] ではデータ拡張手法が提案されており、モデルをがらくた相関に対してより頑健にします。具体的には、質問の回答に無関係なオブジェクトを削除しても、モデルの予測は変わらないようにすることが期待されます。これは、モデルががらくた相関に頼ることを防ぎます。質問に関連するオブジェクトを編集する場合 (例えば、物体個数カウント問題のペアでカウントするオブジェクトの数を変更する場合)、モデルはそれに応じて回答を変更することが期待されます。関連するオブジェクトを編集することで、モデルは因果関係のあるオブジェクトに基づいて予測を行うように促されます。編集された画像と回答のペアと元のデータセットを含む生成された補完データセットは、モデルを因果関係のある証拠に固執させるように仕向けます。

がらくた相関に対処するもう一つの方法は、因果介入をモデル設計に取り入れることです。[164] では、常常識知識は視覚特徴に組み込まれるべきであると主張していますが、常常識はがらくた観察バイアスによって混乱させられる可能性があります。例えば、「マウス」と「キーボード」という言葉は、どちらもコンピュータの一部であるという常常識に基づき、共出現頻度が高くなりますが、観察バイアスにより、常常識は誤ってテーブルに帰せられることがよくあります。このような観察バイアスを軽減するために、視覚常常識 R-CNN が提案されました。これは、オブジェクトカテゴリを交絡因子と見なし、介入後の尤度を直接最大化して、視覚特徴表現を学習します。観察バイアスを排除することで、学習された視覚特徴は、画像キャプションや VQA などの下流タスクに役立ちます。

6.7 その他の応用

因果推論の応用は上記以外にも広がっており、効果測定、意思決定、選択バイアスや交絡変数の処理に関連する領域は全て因果推論の応用可能性があります。

教育分野 では、生徒集団に対する異なる教育方法の効果を比較することにより、より良い教育方法を決定することができます。さらに、ITE 推定は、異なる教育方法に対する各生徒のアウトカムを推定することで、個別化学習を強化することができます。例えば、ITE 推定は、「この生徒が問題を解けない場合、ビデオヒントよりもテキストヒントの方が学習効果が高いだろうか」という質問に答えるために用いられ、インテリジェントチューターシステムは特定の生徒に最適なヒントを決定することができます [178]。

政治分野 でも、因果推論は意思決定支援を行うことができます。例えば、様々な手法 [70, 136, 139, 171, 174] が雇用データセットで開発されており、「助成金付きジョブ訓練から最も恩恵を受けるのは誰か」という質問に答えることを目指しています。因果推論はまた、政策を大規模な対象者に適用すべきかどうかなど、政治的決定を支援することもできます。

機械学習手法の改善 意思決定支援以外にも、第 3 章で述べた選択バイアスに対処できる各種バランシング手法は、機械学習手法の安定性を向上させるためにも拡張できます。[78] では、重み付け手法を採用して、未知の環境 (つまり未知のテストデータ) における学習モデルの一般化能力を向上させています。具体的には、各サンプルの重みを予測損失関数に加えて正規化として追加しており、以下の式で表されます。

式の中で、p は総特徴量の数、ϕ(·) は特徴変換関数 (ニューラルネットワークなど)、X.j は X の j 番目の特徴、X.-j は j 番目の特徴を除く X の特徴、R ∈ RN は N を総サンプル数としたときのグローバルサンプル重みです。このバランシング正規化項は、3.1.1 で論じた CBPS 手法を拡張したもので、j 番目の特徴を介入 (treatment) として残りの特徴を背景変数とし、その後すべての特徴を組み合わせてグローバルなバランシング重みを算出します。

7. 今後の展望と未解決の問題

前述のセクションで論じたように、既存の研究は因果モデリング、理論研究、応用、評価の発展に大きく貢献してきました。しかし、因果モデリング、理論研究、応用、評価に関しては依然として多くの未解決の問題が残っています。このセクションでは、今後の研究の方向性と潜在的な応用について論じます。

因果モデリングと理論研究のための今後の課題としては、以下のようなものが挙げられます。

因果モデルにおける仮定の追加または緩和: 例えば、既存のアプローチの多くは、バイナリ治療（binary treatment）と高次元治療（high-dimensional treatment）を扱っていますが、より実用的な場面では、さまざまなレベルの複数の治療が施されることが多く、無視されています。高次元治療は実世界で一般的に見られます。高次元治療における因果的相互作用の研究は、個々の治療に起因する効果の単純な合計を超える大きな追加効果をもたらすような治療の組み合わせを特定することを目的とした、流行しているトピックです [45]。
異なる因果モデル間の形式的なつながりの構築: 既存のフレームワークは論理的には同じですが、それぞれ独自の利点があります。異なる因果モデル間のつながりを構築することは、観察データからの因果モデリングに役立ちます。例えば、潜在的効果フレームワークとグラフィック因果モデルとの関連性については [67] で論じられています。
「因果推論のための機械学習」と「機械学習のための因果推論」: 機械学習と因果推論は互いに強化し合うことができます。機械学習は因果効果推定のための強力なアルゴリズムをもたらしますが、これは本調査の焦点です。因果推論がどのように機械学習アルゴリズムの設計、例えば頑健性、一般化、知識移転の改善に役立てることができるのかは、依然として未解決の問題です。
因果推論能力を備えた機械学習: ほとんどの機械学習アルゴリズムは変数間の相関関係をモデル化しますが、因果推論能力は非常に限られています。因果関係を認識する機械学習モデルを開発することは、複雑な観察データにおける基になるメカニズムを明らかにするのに役立ち、結果として因果関係を認識した予測分析と意思決定を支援します。
動的な環境における因果推論: 既存の研究は主に静的な観察データに焦点を当てています。実際には、データは動的な環境から継続的に収集されることがよくあります。動的な観察データをモデル化するための新しい因果推論アプローチが必要とされており、生涯を通じての因果推論へとつながります。
説明可能性、信頼性、公平性など、信頼できる学習を支援する因果推論: モデルの説明可能性の分野において、因果推論はモデルが予測したラベルに属性が与える影響を探る大きな可能性を秘めています。さらに、公平性の領域では、反事実的公平性 [82] が流行しており、これは現実世界での単位の結果と、彼が/彼女が異なる機密属性値を持っていた場合的反事実世界での結果に焦点を当てています。

因果モデリングの急速な発展に伴い、新規の応用分野を開拓し、評価のためのベンチマークを構築することも同様に重要です。

より多くの適用分野における「介入」と「潜在的効果」の一般化: 前セクションで述べた成功例として、レコメンデーションシステムが挙げられます。レコメンデーションシステムでは、ユーザーに1つのアイテムを提示することは、ユニットに介入を適用することに相当します。因果推論の適用範囲を広げるためには、より多くの分野で「介入」と「潜在的効果」の解釈を一般化することが不可欠です。
(部分的) 実験研究と観察研究の統合: 実世界のアプリケーションでは、ウェブ開発分野でのA/Bテストデータなど、実験データが利用できる場合もあります。実験データ、サンプルサイズの小さい実験データであっても、観察研究に統合することで、観測されない交絡因子を克服し、バイアスのかかった因果効果推定モデルを補正するのに大いに役立ちます。
マルチモーダルデータに対応した拡張可能な因果モデル: マルチモーダルデータは実世界のアプリケーションで一般的です。例えば、ヘルスケア領域では、医師の記録はテキストデータであり、fMRIデータは画像データです。既存の治療効果推定モデルの多くは、単一タイプのデータにしか焦点を当てておらず、マルチモーダルデータには対応できません。マルチモーダルデータに基づいて治療効果を推定することは、依然として未解決の問題です。

8. 結論

因果推論は、現実世界の問題における因果関係を明らかにするための効果的な方法として、長年にわたり魅力的な研究トピックとなっています。近年、機械学習の発展はこの分野に活気をもたらし、一方で因果推論分野の独創的なアイデアは機械学習の発展を促進しています。本調査では、よく知られた潜在的効果フレームワークに基づく手法の包括的なレビューを提供します。潜在的効果フレームワークは3つの仮定に依存するため、手法は2つのカテゴリに分けられます。1つはこれらの仮定を必要とするもので、もう1つはいくつかの仮定を緩和するものです。各カテゴリについて、レビュー対象の手法の詳細な議論、比較、および要約を提供します。また、これらの手法に使用可能なベンチマークデータセットとオープンソースコードもリストアップします。最後に、広告、レコメンデーション、医療、強化学習など、因果推論の代表的な実世界アプリケーションを紹介します。