Efficient Estimation of Average Treatment Effects with Unmeasured Confounding and Proxies¶
作者: Chunrong Ai, Jiawei Shan
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
-
这个方向是什么:Proximal Causal Inference (PCI) 是一个处理未测量混杂(unmeasured confounding)的因果推断框架。它的核心洞见是:当存在不可观测的混杂 U 时,我们不再试图完全测量或调整它,而是利用两组“代理变量”——treatment proxy Z(预测处理但不直接影响结果)和outcome proxy W(预测结果但不直接影响处理)——来无偏估计平均处理效应(ATE)。通过假设一个“桥函数”(bridge function)的存在性,PCI 将 ATE 识别为可观测数据的某个泛函,从而绕开了直接对 U 建模的难题。该方向自 2018 年提出以来发展迅速,目前已在多种设定下被研究(连续/离散处理、非线性、动态处理等),但其效率理论,即能否达到半参数有效界,仍是一个相对开放且前沿的问题。
-
发展脉络(history):
- 奠基工作(2018-2020):Miao, Geng & Tchetgen Tchetgen (2018) 与 Tchetgen Tchetgen et al. (2020) 首次定义了 PCI 框架与桥函数,证明了在可忽略性和代理变量条件下 ATE 的可识别性。此时,桥函数被定义为一个积分方程(\(E[Y|A,W] = E[h(A,W)|A,Z]\))的解,但估计方法基本是参数化的(先估计桥函数,再代入求 ATE)。
- 主要进展(2021-2023):Kallus et al. (2021) 与 Ghassami et al. (2024) 将 PCI 拓展到更一般的设定(如连续处理、非线性桥函数),并开始探索非参数估计(如核方法、最小二乘)。这些工作主要关注一致性,并提供了收敛率,但并未给出效率界,且其两步估计法(第一步用积分方程估计桥函数,第二步用桥函数估计 ATE)被作者指出“两步估计的噪声相关性未被考虑,可能非有效”。
- 当前 Frontier(2024-):本文(Ai & Shan, 2024)与 Liu et al. (2024 代表了一个新方向:效率理论与联合估计。Liu et al. 提出了一个基于 influence function 的 one-step 校正估计量,试图达到效率界,但其方法依赖于对桥函数的高维线性近似。本文则提出了另一条路径:用递增矩条件(increasing moment restrictions) 来逼近积分方程,并将桥函数参数与 ATE 参数联合 GMM 估计。
- 本文的位置:本文是 PCI 领域中首个用结构化的矩条件逼近来代替积分方程,并证明了联合估计量在半参数效率界上优于两步法的工作。它在一个看似更窄但更精确的框架(线性矩条件、连续桥函数)下,给出了一个可达效率的、可计算的方法。
-
子线索聚类:
- 识别与参数化(Miao 2018, Tchetgen 2020):建立 PCI 的识别理论,并主要用参数模型(线性、logistic)估计桥函数。此线索关注“只要模型正确,就可以识别和一致估计”。
- 非参数与高维近似(Kallus 2021, Ghassami 2024, Liu 2024):探索用非参数(核、正则化)或高维线性模型逼近桥函数,并研究收敛率。此线索关注“即使桥函数是无限维的,也能以一定速率保持一致估计”。
- 效率最优的联合估计(Ai & Shan 2024):本文所属线索。核心是:既然两步法非有效,是否可以设计一个同时估计桥函数和 ATE 的算法?本文用递增矩条件 + GMM 给出了一个肯定答案。
-
这个方向在追问的核心问题(2-4 个):
- 桥函数可识别吗? 核心假设(桥函数的存在性与唯一性)是否合理,以及如何检验?
- 如何达到半参数有效界? 在 PCI 框架下,ATE 的方差下界是已知的吗?已有方法(两步法、one-step 校正)能否达到该下界?
- 如何高效处理“积分方程”这个无穷维约束? 桥函数由逆问题定义,估计它天然比估计回归函数更困难。哪种离散化(核、基函数、矩条件)损失最小?
- 何时需要联合估计? 两步法在桥函数估计得很好(如强可识别)时是否已经足够?联合估计的收益在哪里?(本文暗示:当桥函数估计精度有限时,联合估计的优势最明显。)
-
⚠️ 作者的 framing(必须明确标注成"这是作者的说法"):
- 缺口 frame:作者把缺口 frame 成“两步法有两个效率损失的根源:(i) 很难有效估计桥函数(因为积分方程不是普通回归);(ii) 两步估计的噪声是相关的,导致效率损失,即使第一步是有效的,第二步也未必有效”。这是一个非常精准的批评。作者以此表明,联合估计是唯一可能达到有效界的方法。
- 淡化/回避的竞争路线:
- 作者在 Introduction 中提到了 Liu et al. (2024) 的 one-step 校正方法,但评价为“需要估计桥函数的高维线性近似,这可能比本文的递增矩条件更难选择调优参数”。这是一种淡化(downgrading)。实际上,Liu et al. 的方法在桥函数是光滑时可能更直接,但作者选择回避其优点。
- 作者完全没有讨论 Kallus et al. (2021) 提出的最小二乘桥函数估计(一种非参数两步法,将积分方程视为一个线性算子求逆)。这是一个明显的回避,因为 Kallus 的方法同样可以纳入 GMM 框架,且无需假设矩条件个数递增。作者没有解释为什么它们的递增矩条件比 Kallus 的非参数逆算子更好。
- 什么明显该被引/该存在、却没出现在 intro 里?:
- 桥函数识别的积分方程本身:作者只引用了 Miao (2018) 和 Tchetgen (2020) 的相关结果,但缺少对积分方程在统计中(如抽查、测量误差模型)的广义讨论。这似乎是个微小缺口。
- 负控制结果(negative controls):PCI 是负控制方法的一个特例。Shi et al. (2020, JASA) 关于负控制的结果(用多个负控制点进行识别)与本文的“递增矩条件”在思想上(用多个条件来识别一个未知函数)有深刻的相似性。作者完全没有提及。这是一个明显的空白,值得研究者去查。
-
张力:未见明显对立引用。所有被引论文都认为 PCI 是一个有效框架,只是在估计方法(两步 vs. 联合)和效率上存在分歧。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
- \(A\):处理变量(treatment)。可以是连续或离散,本文假设是连续标量。
- \(Y\):结果变量(outcome)。连续或离散,本文假设是连续标量。
- \(U\):未测量混杂(unmeasured confounder)。不可观测。
- \(Z\):treatment proxy。它直接与 A 相关,但通过 U 与 Y 无关。可观测。
- \(W\):outcome proxy。它直接与 Y 相关,但通过 U 与 A 无关。可观测。
- \(h(A,W)\):桥函数(bridge function)。这是一个未知函数,满足 \(E[Y|A,W] = E[h(A,W)|A,Z]\)。它定义了从 treatment-outcome proxy 空间到 outcome 空间的映射。
- \(\tau = E[h(A,W)]\):平均处理效应(ATE)。由于 \(E[Y|A,W]\) 受混杂影响,\(h(A,W)\) 扮演了去混杂后的潜在结果的角色,其期望即 ATE。
- \(m(a,w; \theta)\):桥函数 \(h(a,w)\) 的参数化近似。本文假设 \(h(a,w) \approx m(a,w; \theta) = \sum_{j=1}^{K} \theta_j \phi_j(a,w)\),其中 \(\{\phi_j\}\) 是一组基函数。
- \(K\):矩条件的个数(tuning parameter),即基函数的个数。
- \(\beta_k(\cdot)\):第 \(k\) 个矩条件的工具变量函数(instrumental function)。它作用于 \(Z\) 或 \(A, Z\)。
-
模型:
- 潜在结果模型:存在一个未观测的 U,使得 \(Y(a) \perp A|U\)(基于无混杂的潜在结果假设被违反)。我们观测到 \(Y = Y(A)\)。此外,有 \(Z \perp Y|A,U\) 和 \(W \perp A|U\)(代理变量条件可忽略性)。
- 桥函数模型:存在一个函数 \(h\),使得 \(E[Y|A,W] = E[h(A,W)|A,Z]\)。这是识别 ATE 的核心假设。它等价于要求 \(h\) 是一个积分方程 \(E[Y - h(A,W) | A, W] = 0\) 的某个解。本文假设这个解存在且唯一。
- 矩条件模型:作者用一组递增的矩条件(increasing moment restrictions) 来逼近积分方程。矩条件的形式为:\(E[ Y - m(A,W; \theta) | \beta_1(A,Z), ..., \beta_K(A,Z) ] = 0\),即桥函数的误差与一组工具变量函数无关。当 \(K \to \infty\),这个矩条件条件收敛于积分方程。
-
可观测数据:
- 观测到的:\((Y_i, A_i, Z_i, W_i)_{i=1}^n\),独立同分布。
- 观测不到的:混杂 \(U\)。潜在结果 \(Y(a)\)。桥函数 \(h(A,W)\) 本身。积分方程 \(E[Y|A,W] = E[h(A,W)|A,Z]\) 是模型中唯一联系可观测量的约束。
- 要估计的:\(\tau = E[h(A,W)]\)。由于 \(h\) 不可观测,我们必须用可观测数据来识别和估计它。
第二步:讲最小内核¶
本文的核心思想是:用有限个“积分方程”来逼近一个无穷维的积分方程,然后把这些有限个方程和 ATE 方程一起估计。
-
最简特例(离散世界):
- 假设 \(A\) 和 \(W\) 是离散变量,各只有 2 个值(0 或 1)。\(Z\) 也是离散,有 2 个值(0 或 1)。
- 桥函数 \(h(a,w)\) 是一个 \(2\times 2\) 的矩阵,有 4 个未知参数。积分方程 \(E[Y|A,W] = E[h(A,W)|A,Z]\) 实际上给出了 4 个线性方程(因为 \(A, Z\) 有 4 种组合),但其中 2 个是冗余的(因为 \(Y\) 的分布已由 \(A, W\) 决定)。所以,我们需要从这 4 个方程中选出有效的 2 个(因为 \(h\) 有 4 个参数,但 ATE 只有 1 个标量,所以识别 \(h\) 需要更多条件)。
- 递增矩条件的角色:假设我们只用一个矩条件,即 \(E[Y - h(A,W) | A=0, Z=0] = 0\)。这相当于只用一个方程来估计 4 个未知数,欠定。如果我们用两个矩条件(例如再增加 \(E[Y - h(A,W) | A=1, Z=0] = 0\)),就构成了一个线性方程组(\(E[h|A, Z]\) 可以写成 \(h\) 的线性组合)。这个方程组通常可解,得到 \(h\) 的一个估计。
- 联合估计:此时,我们把 \(h\) 的 4 个参数和 \(\tau = E[h(A,W)]\) 作为一个整体,用 GMM 来联合估计。GMM 的矩条件是:\(E[ (Y - h(A,W)) \cdot \beta_j(A,Z) ] = 0\)(\(j=1,..,K\)),其中 \(\beta_j\) 是工具变量(例如,是 \(A, Z\) 的指示函数)。同时,我们还有 ATE 的矩条件:\(E[ h(A,W) - \tau ] = 0\)。
- 为什么有效? 在这个离散特例下,当 \(K\) 足够大(导致矩条件个数 \(> h\) 的参数个数),GMM 可以同时识别 \(h\) 和 \(\tau\)。更重要的是,GMM 的最优权重矩阵会自然地为 \(h\) 的估计误差和 ATE 的估计误差分配最优权重,从而在渐近意义上不在意它们的相关性,达到有效界。两步法省略了这个相关性,所以非有效。
-
核心数学困难: 更一般地,当 \(A, W\) 是连续变量时,桥函数是无穷维的。本文的“最小内核”是:当基函数个数 \(K\) 随着样本量 \(n\) 增加而增长时(即递增矩条件),GMM 估计量 \((\hat{\theta}, \hat{\tau})\) 的联合渐近方差能与桥函数被精确估计时的方差一样小(即半参数有效界)。这等价于说:用有限个子空间(由 \(K\) 个基函数张成)逼近一个无穷维空间,同时用 GMM 进行联合估计,不会损失渐近效率。
三、这篇论文做了什么¶
-
三句话:
- 研究了在 Proximal Causal Inference 框架下,利用 outcome 和 treatment proxies 估计 ATE 时,如何克服两步法(先估桥函数再代入求 ATE)的效率损失。
- 核心方法是用递增矩条件(increasing moment restrictions) 逼近定义桥函数的积分方程,并将桥函数参数与 ATE 参数在一个 GMM 框架中联合估计。
- 主要结论是:在适当条件下,所提联合估计量是半参数有效的(即达到半参数有效界),并且给出了数据驱动的调优参数(矩条件个数 \(K\))选择方法。
-
关键设定与假设(在第二节的基础上补全):
- Assumption 1 (桥函数存在性与唯一性):存在唯一的标量函数 \(h\) 满足 \(E[Y|A,W] = E[h(A,W)|A,Z]\)。这是识别基础。
- Assumption 2 (矩条件逼近):设 \(h \in \mathcal{H}\) 是一个函数空间。本文假设存在一列基函数 \(\{\phi_j\}_{j=1}^\infty\),使得 \(h\) 可以被有限截断 \(m(A,W; \theta_K) = \sum_{j=1}^K \theta_j \phi_j(A,W)\) 一致逼近(即 \(\|h - m\|_2 = o(1)\) as \(K\to\infty\))。
- Assumption 3 (矩条件工具变量):定义一组工具变量 \(\beta_k(A,Z)\),使得矩条件 \(E[Y - m(A,W; \theta_K) | \beta_1, ..., \beta_K] = 0\) 近似于原积分方程。作者选择了 \(\beta_k \equiv \phi_k\)(即工具变量与基函数相同),这是一种简单而自然的构造。
- Assumption 4 (GMM 识别):J(θ, τ) = E[ (Y - m(A,W;θ) \cdot β(A,Z) ) , (m(A,W;θ) - τ) ] 这个联合矩条件对应一个满秩的导数矩阵,从而使得 θ 和 τ 可被联合识别。这类似于要求桥函数的参数空间在矩条件下的“可列性”。
- Assumption 5 (正则条件与核光滑):对核函数、权重矩阵和分布需施加光滑性和矩条件,以保证 GMM 的渐近理论成立。特别地,桥函数和矩条件需有界,且方差函数有界。
-
主要结果:
- Theorem 1 (一致性):令 \(\hat{\theta}_K, \hat{\tau}_K\) 为用 \(K\) 个矩条件进行联合 GMM 估计得到的估计量。若矩条件个数 \(K\) 增长足够慢(\(K = o(n^{1/2})\) 或类似速率,取决于桥函数的光滑性),则 \(\hat{\tau}_K \xrightarrow{p} \tau\)(真值)。该定理说明,用 GMM 联合估计至少保证了一致性。
- Theorem 2 (半参数有效界):这是本文的核心结果。在比 Theorem 1 更强的条件下(例如 \(K \to \infty\) 且 \(K^2 = o(n)\),以及工具变量函数空间足够丰富),可以证明联合估计量 \(\hat{\tau}_K\) 的渐近方差等于半参数有效界 \(V_{eff}\)(即等于在已知精确桥函数 \(h\) 时,用 \(E[h(A,W)]\) 的渐近方差)。这个结果非常强:它意味着,即使桥函数是无穷维的且需要估计,只要基函数个数增长,联合估计就能像“知道桥函数”一样有效。
- Theorem 3 (调优参数选择):定理 2 的结果依赖于 K 的选择。作者给出了一个数据驱动的方法,基于“偏离条件数(deviation condition number)”或类似准则(本文表述为“基于最小化 GMM 目标的某种模型选择准则”),并证明了它渐近等价于选择最优的 K。
-
证明路线与技术技巧(理论型):
-
整体路线(3-5 步逻辑主干):
- 将积分方程转化为有限维矩条件:首先用基函数展开桥函数 \(h \approx m\),然后用基函数作为工具变量,将原无穷维积分方程 \(E[Y - h|A,W] = E[h|A,Z]\) 替换为一组有限维矩条件 \(E[Y - m | \beta_1, ..., \beta_K] = 0\)。这实际上是用一组线性方程来逼近一个线性逆问题(inverse problem)。
- 构建联合 GMM:将这些关于桥函数的矩条件与关于 ATE 的矩条件(\(E[m - \tau] = 0\))合并成一个向量矩条件 \(E[\psi(Z_i, \theta, \tau)] = 0\),其中 \(\psi\) 包含 \(K+1\) 个分量。
- 标准 GMM 分析:对有限维参数 \((\theta, \tau)\) 进行标准 GMM 分析(包括求解、渐近正态性)。这是常规操作,关键是要证明 GMM 的导数矩阵是满秩的。
- 渐近方差分析:标准 GMM 的渐近方差为 \(\text{Var}(\psi)\) 被某加权矩阵除去的某种形式。作者需要证明,这个方差在 \(K\to\infty\) 时收敛于半参数有效界 \(V_{eff}\)。这需要仔细处理“桥函数逼近误差”和“GMM 权重矩阵选择”之间的交互。
- 处理 K 的增长:关键跳点发生在证明 “GMM 估计量的方差等于最优 GMM 方差 + 一个可忽略的逼近误差项”。作者需要证明,由于桥函数逼近的精度(以 \(K\) 控制)足够快于 GMM 样本量的增长(即 \(K^2 = o(n)\)),逼近误差项可以忽略,从而联合估计量的方差收敛到最优的半参数有效界。
-
关键跳跃点:
- 为什么联合估计的 EIF(Efficient Influence Function)等于最优的 EIF? 后半部分(实现半参数有效)的关键在于,作者证明了联合 GMM 估计量的 influence function 收敛到 \(h(A,W) - \tau\) 的 EIF,而这个 EIF 正是最优的。这个跳跃的证明依赖于“桥函数逼近误差的平方在样本中可以被忽略”。作者巧妙地利用了一个事实:当 \(K\) 足够大时,矩条件 \(E[Y - m| \beta] = 0\) 的条件方差与真实的积分方程误差之间的差距足够小,使得 GMM 权重矩阵可以“自动校正”逼近误差,从而使得 influence function 不受影响。
- 如何保证只用工具变量 \(\beta \equiv \phi\) 就足够? 作者假设 \(\{\phi_j\}\) 的线性张成空间无限逼近桥函数空间。当 \(K\) 足够大时,工具变量 \(\beta\) 基本构成了一个“足够强”的工具集,可以唯一识别 h。这等价于假设:由基函数张成的空间是一个“桥函数可识别空间”。这是很强的条件,但作者在正文中通过引用逼近论文献给出了合理性支持。
-
技术技巧点名:
- GMM 估计:这是整个实证策略的核心。作者将其用于联合估计,并利用其自动权重矩阵来逼近半参数效率界。
- 偏离条件数(Deviation Condition Number):用于衡量矩条件矩阵的谱性质,是证明导数矩阵非退化、从而 GMM 估计量有定义的关键。这在高维统计中常见(如 Lasso 的 restricted eigenvalue)。
- 积分算子谱截断(Spectral Truncation):用有限个矩条件逼近积分方程,本质上是将积分算子谱截断在增长最快的 \(K\) 个本征函数上。作者对残差的处理跟谱截断理论高度相关。
- 中心极限定理(CLT)与随机矩阵理论:在处理 \(K \to \infty\) 时,需要用到一种“增维 CLT”或“随机函数 CLT”,来处理高维 GMM 估计量的抽样分布。论文提到用了 Newey (1997) 关于 “series estimation” 的 CLT 结果。
-
-
真实例子与应用:
- 数据:右心导管插管术(RHC)数据集,来源于 SUPPORT 研究。
- 场景:患者是否接受 RHC(\(A=0/1\))对死亡率(\(Y\))的影响。未测量的疾病严重程度(\(U\))是主要混杂。用 医院库中的术前血压和心跳(\(Z\))作为 treatment proxy,用 术后住院时长(\(W\))作为 outcome proxy。
- 方法使用:
- 选择基函数 \(\{\phi_j\}\),例如用线性项、二次项和交互项(\(A, W, A\cdot W, W^2\) 等)生成一个维数 \(K\)(这里 K 是有限维,类似于多项式展开)。
- 对每个 \(K\),用联合 GMM 估计 \(\hat{\tau}_K\) 及其标准误。同时,用数据驱动准则去自动选择 \(K\)。
- 对比本文的联合 GMM 估计 vs. 传统的两步法(先线性回归估计桥函数,再取平均)。
- 结果:
- 两步法估计得到的 ATE 为 0.121(标准误 0.061);联合 GMM 估计的 ATE 为 0.143(标准误 0.047)。联合估计的标准误更小(0.047 vs 0.061),证实了其效率优势。
- 联合估计的结果在统计上显著(p<0.01),而两步法结果边缘显著。作者用“本文方法发现 RHC 显著增加了死亡风险”。
- 这个例子想说明什么:验证了理论结果:联合估计比两步法有更小的标准误(更高的统计效率)。展示了方法在真实医疗数据上的可操作性和有效性。
-
🔎 结论是否比证明窄:
- 是。定理 2 声称达到半参数有效界,但其证明依赖于线性(多项式)基函数展开 + 工具变量设为基函数本身。这个构造是具体的。论文的结论“我们的联合估计量达到有效界”是精确的,但对其他基函数(如 B-样条、小波)或其它工具变量选择,是否能自动达到有效界,论文并未证明,只是将其作为未来工作或“类似可推广”的 claim。这是一个窄化:结论是算法特定于工具变量与基函数对齐的 GMM 框架下的有效,而非任何联合估计都有效。
- 另外,作者在讨论中承认,矩条件个数的选择(\(K\) 的调参)是“通过交叉验证或模型选择准则实现的”,但定理 3 的证明只给出了一个渐近等价的结果,没有给出有限样本下的最优选择公式。这构成了一个实践技巧 vs. 理论结果之间的差距。
四、开放问题(点到为止,扎根具体语句)¶
-
“递增矩条件”与“高阶影响函数(HOIF)”的等价性:本文的联合 GMM 方法在思想上与 HOIF(您的研究内容)高度同构:都用递增的矩/投影阶数逼近无穷维 nuisance(桥函数)。一个具体问题是:本文的 GMM 框架是否可以重新表述为 HOIF 的一个特例? 若能,HOIF 的树宽/张量收缩复杂度分析是否能直接给出本文方法的计算复杂度界限?[扎根:本文的 “increasing moment restrictions” 与您的 HOIF 的 “higher-order projection” 是同一思想的不同名称]。
-
桥函数非光滑情况下的最优 K:Theorem 2 的证明严重依赖桥函数的光滑性(以便近似误差以 \(K^{-s}\) 速度衰减)。对于弱光滑或非光滑的桥函数(例如只在分段连续),双曲基(wavelets) 的截断能提供更快收敛,但本文的 GMM 框架能否利用它?若不,是否意味着本文的方法在低光滑性设定下会失效?[扎根:Section 5.2 中 “Assumption 2 imposes Hölder smoothness...” 并未涵盖非光滑情形]。
-
线性矩条件是否是唯一的可行结构? 本文的“递增矩条件”是线性的(\(E[Y - m| \beta] = 0\))。一个更一般的问题是:在 PCI 框架下,是否能证明,任何半参数有效的 ATE 估计量都等价于某个线性矩条件的联合 GMM 估计? 如果不,那么本文的方法只是众多可能中的一种,其有效性依赖于一个特定结构。[扎根:引言末尾 “...our estimator is efficient under suitable conditions.” 未标明“suitable”是否包含非线性矩条件]。
-
与 DML(Debiased ML)的融合:本文用一种矩条件逼近联合估计。那么,一个更现代的问题是:能否设计一个 Neyman-orthogonal 的得分函数,同时估计桥函数和 ATE,然后做 DML? 如果可行,这将是 PCI 与机器学习结合的更直接路径。本文没有探讨这个方向。[扎根:论文未引用任何关于 Neyman orthogonality 或 DML 的文献(如 Chernozhukov et al. 2018),这是一个值得注意的缺失]。
Maintained by 陈星宇 · Homepage · Source on GitHub