跳转至

Semiparametric sensitivity analysis: unmeasured confounding in observational studies

作者: Razieh Nabi, Matteo Bonvini, Edward H Kennedy, Ming-Yueh Huang, Marcela Smid et al.
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向是观察性研究中针对未测量混杂的敏感性分析。其根本问题是:在因果推断中,无混杂假设(unconfoundedness)是不可检验的,因此研究者需要评估结论对潜在未测量混杂的敏感程度。当前成熟度:这是一个非常活跃的领域,已有大量方法,但多数方法在估计效率或模型灵活性上存在局限。本文试图在半参数效率理论框架下,为一种特定的敏感性分析参数化方案提供高效的、具有 \(\sqrt{n}\) 收敛速度的估计量。

发展脉络(history)

  1. 奠基工作:敏感性分析的概念与基本框架

    • Robins et al. [2000]:提出了一个关键的敏感性分析假设类,即通过指定一个“选择函数”(selection function)来参数化未测量混杂的影响。这是本文直接推广的起点。
    • Franks et al. [2019]:将Tukey分解从缺失数据领域推广到因果推断,提出了一个灵活的敏感性分析框架,允许对观测数据使用灵活模型,并清晰分离了可识别与不可识别的部分。本文的框架正是建立在此基础之上。
    • Zhou and Yao:与Franks等人类似,也提出了一个基于选择函数的敏感性分析框架。本文声称将其推广到半参数设定。
  2. 主要进展:方法的多样化与精细化

    • 基于偏R²的敏感性分析Cinelli and Hazlett [2020] 在线性模型框架下,提出了一个基于偏R²的遗漏变量偏倚公式,将敏感性参数与可解释的关联强度(R²)联系起来。
    • 基于边际敏感性模型Zhao, Small, and Bhattacharya [2017] 提出了一个边际敏感性模型,通过逆概率加权(IPW)估计量构造置信区间,并利用百分位自助法(percentile bootstrap)和广义极小极大-极大极小不等式来求解。
    • 基于污染模型Bonvini and Kennedy [2021] 采用污染模型方法,通过约束受未测量混杂影响的单位比例来给出ACE的界。
    • 基于贝叶斯方法Dorie et al. [2016] 提出了一个半参数贝叶斯敏感性分析方法,将贝叶斯加性回归树(BART)与双参数敏感性分析策略结合。
    • 基于无分布假设的界Ding and VanderWeele [2015] 推导了一个边界因子和尖锐不等式,无需对未测量混杂变量做任何分布假设,即可评估其影响。
  3. 当前Frontier:半参数效率与灵活模型

    • Yadlowsky et al. [2018] 开发了一个基于损失最小化的方法,用于估计有界未测量混杂下的CATE和ATE界,其估计量具有Neyman正交性,允许以 \(o_p(n^{-1/4})\) 的速率估计 nuisance 参数。
    • Veitch and Zaveri [2020] 通过指定一个依赖于测量和未测量协变量的倾向得分模型,规避了对未测量混杂变量边际分布建模的需要,并提出了“Austen plots”可视化工具。
    • 本文的位置:本文声称其独特贡献在于,在Franks等人和Zhou & Yao的敏感性分析框架下,推导了ACE的非参数有效影响函数(EIF),并基于此构造了一个具有 \(\sqrt{n}\) 渐近性的一步估计量。这标志着该领域从“提出框架”向“提供高效、可推断的估计量”的转变。

子线索聚类

  1. 点识别(Point Identification)路线:通过引入额外的、不可检验的假设(如选择函数参数化),使得在给定敏感性参数值下,ACE是点识别的。本文属于此类。代表工作:Robins et al. [2000], Franks et al. [2019], Zhou and Yao。
  2. 集识别(Set Identification / Bounding)路线:在较弱的假设下,推导ACE的识别区间(界)。代表工作:Richardson et al. [2014], Ding and VanderWeele [2015], Bonvini and Kennedy [2021], Dorn and Guo [2021]。
  3. 基于模型的敏感性分析:对未测量混杂与处理/结果的关系进行参数化建模,然后进行偏倚校正或敏感性分析。代表工作:Cinelli and Hazlett [2020], Carnegie et al. [2016], VanderWeele and Arah [2011]。
  4. 半参数/非参数效率估计:关注在给定模型下,如何构造高效、稳健的估计量。代表工作:Yadlowsky et al. [2018], Kennedy et al. [2022](综述),以及本文。

这个方向在追问的核心问题

  1. 如何参数化未测量混杂? 敏感性参数应该具有可解释性,且其取值范围应易于校准。主流方法包括选择函数、偏R²、边际敏感性模型等。瓶颈在于参数化方案的选择本身是主观的,且不同方案可能导致不同结论。
  2. 如何对敏感性分析参数进行推断? 给定一个敏感性参数值,如何得到ACE的置信区间?主流方法包括一步估计、双稳健估计、贝叶斯方法等。瓶颈在于如何保证估计量的 \(\sqrt{n}\) 收敛性和有效性,尤其是在使用灵活的非参数模型估计 nuisance 参数时。
  3. 如何将敏感性分析结果呈现给实践者? 如何将复杂的敏感性分析结果(如一系列点估计和置信区间)转化为易于理解的结论(如“结论对未测量混杂的敏感程度如何”)?主流方法包括偏倚校正图、轮廓图、Austen plots等。瓶颈在于如何平衡信息的全面性与可解释性。

⚠️ 作者的 framing

  • 作者的缺口描述:作者将缺口 frame 为“现有敏感性分析方法(如Franks et al. [2019])虽然灵活,但缺乏高效的、具有 \(\sqrt{n}\) 渐近性的估计量”。因此,本文的“显然的下一步”就是利用半参数效率理论,为这个框架推导EIF并构造高效估计量
  • 被淡化或回避的竞争路线
    • 集识别路线:作者在引言中将其归类为“寻求集识别”的方法,并指出其“可能过于保守”。这淡化了集识别方法在无需强假设方面的优势。
    • 其他点识别路线:如Yadlowsky et al. [2018] 和 Veitch and Zaveri [2020] 的工作,虽然也被引用,但作者并未详细比较其与本文方法在效率或灵活性上的优劣。作者强调本文的EIF推导是“独特贡献”,暗示其他方法可能没有达到半参数有效。
  • 什么明显该被引/该存在、却没出现在intro里?
    • Rotnitzky et al. [2019] 关于“混合偏倚性质”(mixed bias property)的论文。该论文系统性地刻画了一类具有混合偏倚性质的参数,而本文的ACE在给定敏感性参数下很可能属于此类。引用该文可以更清晰地定位本文估计量的性质(如率双稳健性)。这是一个值得研究者去查的潜在缺口。
    • Bhattacharya et al. [2020] 关于含隐变量因果图中因果效应的半参数推断。该文提供了图形化准则和半参数估计量,与本文的敏感性分析框架有潜在联系,但未被引用。

张力

未见明显对立引用。各方法主要在参数化方案、估计策略和推断目标上有所不同,但并未出现在同一设定下得出相反结论的冲突。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \(A \in \{0, 1\}\):二元处理变量(treatment)。
    • \(Y\):结果变量(outcome)。
    • \(X\):可观测的协变量向量(observed covariates)。
    • \(Y(1), Y(0)\):潜在结果(potential outcomes),分别代表个体在接受处理(\(A=1\))和对照(\(A=0\))下的结果。这是不可观测的,因为每个个体只能观测到一个。
    • \(\psi = \mathbb{E}[Y(1) - Y(0)]\):平均因果效应(ACE),是目标参数(estimand)
    • \(U\):未测量的混杂变量(unmeasured confounder)。这是不可观测的。
    • \(O = (X, A, Y)\):可观测数据,即研究者实际能观测到的数据。
    • \(n\):样本量。
    • \(P\):观测数据 \(O\) 的分布。
    • \(\nu_t(P)\):在给定敏感性参数 \(t\) 下,ACE 的识别泛函(identifying functional)。它是一个从观测数据分布 \(P\) 到实数的映射。
    • \(\phi_t(O; P)\):在给定 \(t\) 下,ACE 的有效影响函数(EIF)。它是一个关于单个观测 \(O\) 和分布 \(P\) 的函数,满足 \(\mathbb{E}_P[\phi_t(O; P)] = 0\)\(\text{Var}_P[\phi_t(O; P)]\)\(\nu_t(P)\) 的半参数效率界。
    • \(\hat{\psi}_t\):在给定 \(t\) 下,ACE 的估计量。
    • \(k\):样本分割的折数(fold)。
    • \(n_k\):第 \(k\) 折的样本量。
    • \(\hat{P}^{(-k)}\):去掉第 \(k\) 折后,用剩余数据估计的观测数据分布。
    • \(\tau\):截断参数(truncation parameter),用于控制估计量的稳定性。
  • 模型

    • 数据生成机制:观测数据 \(O = (X, A, Y)\) 来自一个未知的联合分布 \(P\)。存在一个未测量的混杂变量 \(U\),使得 \(A\)\(Y\) 在给定 \(X\) 下不独立,即 \(A \not\perp Y | X\)
    • 识别假设:为了识别ACE,需要引入一个敏感性分析模型。本文采用的选择函数模型(以Franks et al. [2019]为基础)假设:
      • \(Y(1) \perp A | X, U\)\(Y(0) \perp A | X, U\)(给定 \(X\)\(U\),无混杂)。
      • 未测量混杂的影响通过一个选择函数 \(s(a, x, y) = \frac{P(A=a|X=x, U=u)}{P(A=a|X=x)}\) 来参数化。这个函数刻画了 \(U\) 对处理分配的影响。
      • 敏感性参数 \(t\) 被用来约束这个选择函数,例如 \(s(a, x, y) \in [1/\Gamma, \Gamma]\)\(s(a, x, y) = \exp(\gamma a)\)本文的框架允许 \(t\) 是任意固定的,不对其施加限制
    • 估计模型:对于观测数据分布 \(P\) 中的 nuisance 参数(如 \(\mathbb{E}[Y|A, X]\)\(P(A|X)\)),本文允许使用半参数模型(如广义线性模型、加性模型等),但不对敏感性参数 \(t\) 施加任何限制。
  • 可观测数据

    • 可观测\(n\) 个独立同分布的样本 \(\{O_i = (X_i, A_i, Y_i)\}_{i=1}^n\)
    • 不可观测:每个个体的潜在结果 \(Y_i(1), Y_i(0)\) 和未测量混杂变量 \(U_i\)
    • 关键点:ACE \(\psi\) 在无混杂假设下是可识别的,但在这个假设被违反时(即存在 \(U\)),它不再是可观测数据分布 \(P\) 的函数。敏感性分析通过引入一个参数 \(t\) 和一个模型,将 \(\psi\) 表达为 \(P\)\(t\) 的函数 \(\nu_t(P)\),从而在给定 \(t\) 下实现点识别。

第二步:讲最小内核

本文的核心思路可以浓缩为一个最简特例:假设我们只关心一个二元处理 \(A\) 和一个连续结果 \(Y\),并且我们采用一个最简单的选择函数模型\(s(a, x, y) = \exp(\gamma a)\),其中 \(\gamma\) 是敏感性参数。这意味着未测量混杂对处理分配的影响是常数,与 \(X\)\(Y\) 无关。

在这个特例下,Franks et al. [2019] 的框架给出了ACE的识别公式:

\[\psi(\gamma) = \mathbb{E}\left[ \frac{A Y}{\exp(\gamma) \cdot e(X)} - \frac{(1-A) Y}{\exp(-\gamma) \cdot (1-e(X))} \right]\]
其中 \(e(X) = P(A=1|X)\) 是倾向得分。

本文的核心贡献:作者没有止步于这个识别公式,而是问了一个更深入的问题:如何高效地估计 \(\psi(\gamma)\)

他们利用半参数理论,推导了 \(\psi(\gamma)\) 在非参数模型下的有效影响函数(EIF)。对于这个特例,EIF 的形式大致为:

\[\phi_\gamma(O; P) = \frac{A Y}{\exp(\gamma) \cdot e(X)} - \frac{(1-A) Y}{\exp(-\gamma) \cdot (1-e(X))} - \psi(\gamma) - \frac{A - e(X)}{\exp(\gamma) \cdot e(X) \cdot (1-e(X))} \cdot \mathbb{E}[Y|A=1, X] \cdot \exp(-\gamma) \cdot (1-e(X)) + \dots\]
(实际形式更复杂,涉及多个 nuisance 函数的乘积)

这个EIF的意义: 1. 效率界:它的方差 \(\text{Var}[\phi_\gamma(O; P)]\) 就是估计 \(\psi(\gamma)\) 所能达到的最小渐近方差(半参数效率界)。 2. 一步估计量:基于EIF,可以构造一个“一步估计量”(one-step estimator):

\[\hat{\psi}_{\gamma, \text{one-step}} = \frac{1}{n} \sum_{i=1}^n \phi_\gamma(O_i; \hat{P}) + \hat{\psi}_{\gamma, \text{plug-in}}\]
其中 \(\hat{\psi}_{\gamma, \text{plug-in}}\) 是直接将估计的 nuisance 函数代入识别公式得到的“插件估计量”。一步估计量通过加上EIF的样本均值来校正插件估计量的偏倚,从而在 nuisance 函数估计得足够好时达到 \(\sqrt{n}\) 收敛和半参数有效。

所以,本文在数学上干了一件什么事? 它在一个特定的、灵活的敏感性分析框架下,推导了目标参数(ACE)的EIF,并基于此构造了一个一步估计量,证明了该估计量在 nuisance 函数以足够快速度收敛时具有 \(\sqrt{n}\) 渐近性和半参数有效性。这相当于为这个框架提供了一个“最优”的推断工具。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在观察性研究中,针对未测量混杂的敏感性分析,以平均因果效应(ACE)为估计目标,在给定敏感性参数下,如何构造一个高效、具有 \(\sqrt{n}\) 渐近性的估计量。
  2. 核心工具/方法:利用半参数效率理论,推导了ACE在给定敏感性参数下的非参数有效影响函数(EIF),并基于此构造了一个一步估计量,结合了样本分割(sample splitting)截断(truncation) 技术。
  3. 主要结论:建立了保证该一步估计量具有 \(\sqrt{n}\) 渐近性和半参数有效性的充分条件。这些条件主要涉及 nuisance 函数(如条件均值、倾向得分)的估计误差收敛速度。通过模拟和真实数据(孕期吸烟对出生体重的影响)验证了方法的性能。

关键设定与假设

  • 设定:二元处理 \(A\),任意结果 \(Y\),可观测协变量 \(X\)。存在未测量混杂 \(U\)
  • 敏感性分析模型:采用 Franks et al. [2019] 和 Zhou & Yao 的框架,通过一个选择函数 \(s(a, x, y)\) 来参数化未测量混杂的影响。敏感性参数 \(t\) 用于约束 \(s\)关键点:本文不对 \(t\) 施加任何限制,\(t\) 是固定的、由研究者指定的。
  • 估计目标:在给定 \(t\) 下,ACE 的识别泛函 \(\nu_t(P)\)
  • 假设
    1. 一致性(Consistency)\(Y = A Y(1) + (1-A) Y(0)\)
    2. 正值性(Positivity)\(0 < P(A=1|X) < 1\)
    3. 选择函数模型正确指定:所假设的选择函数形式(如 \(s(a, x, y) = \exp(\gamma a)\))是正确的。这是不可检验的,是敏感性分析的核心假设。
    4. Nuisance函数估计的收敛速度:为了保证 \(\sqrt{n}\) 渐近性,需要 \(\hat{e}(X)\)\(\hat{\mu}(A, X)\)(条件均值 \(\mathbb{E}[Y|A, X]\))等 nuisance 函数的估计误差的 \(L_2\) 范数以 \(o_p(n^{-1/4})\) 的速度收敛。这是使用灵活模型(如机器学习)时的标准条件。
    5. 截断条件:为了保证一步估计量的稳定性,需要对倾向得分的估计值进行截断,避免其接近0或1。

主要结果

  • 定理1(EIF的推导):在非参数模型下,推导了 \(\nu_t(P)\) 的有效影响函数 \(\phi_t(O; P)\)。这个EIF的形式依赖于选择函数 \(s\) 和观测数据分布 \(P\)直觉:EIF 刻画了当观测数据分布 \(P\) 发生微小变化时,目标参数 \(\nu_t(P)\) 如何变化。它是构造高效估计量的基石。
  • 定理2(一步估计量的渐近性):在正则条件下,所构造的一步估计量 \(\hat{\psi}_t\)\(\sqrt{n}\) 相合的、渐近正态的,且其渐近方差等于 \(\text{Var}[\phi_t(O; P)]\),即达到了半参数效率界。必要条件:所有 nuisance 函数的估计误差的 \(L_2\) 范数必须为 \(o_p(n^{-1/4})\)解决的技术难点:如何证明在样本分割和截断后,一步估计量的剩余偏倚(由 nuisance 函数估计误差引起)是可忽略的。
  • 推论(方差估计):给出了一个基于EIF的方差估计量,可用于构造置信区间。

证明路线与技术技巧

  • 整体路线

    1. 推导EIF:使用路径导数(pathwise derivative)方法。首先将 \(\nu_t(P)\) 视为分布 \(P\) 的泛函,然后计算其在某个扰动方向上的导数。通过求解一个积分方程,得到EIF \(\phi_t(O; P)\)
    2. 构造一步估计量\(\hat{\psi}_t = \frac{1}{K} \sum_{k=1}^K \left[ \frac{1}{n_k} \sum_{i \in \text{fold } k} \phi_t(O_i; \hat{P}^{(-k)}) + \nu_t(\hat{P}^{(-k)}) \right]\)。这里使用了 \(K\) 折样本分割,以避免过拟合导致的偏倚。
    3. 分析渐近偏倚:将 \(\hat{\psi}_t - \psi_t\) 分解为三部分:一个关于EIF的鞅差序列和(渐近正态)、一个由 nuisance 函数估计误差引起的二阶项、一个由截断引起的项。
    4. 控制二阶项:证明在 nuisance 函数估计误差为 \(o_p(n^{-1/4})\) 的条件下,二阶项是 \(o_p(n^{-1/2})\)。这一步通常需要利用冯·米塞斯展开(von Mises expansion)或泰勒展开,并证明交叉项(如 \((\hat{e} - e)(\hat{\mu} - \mu)\))的期望是可忽略的。
    5. 控制截断项:证明截断对渐近性质的影响是可忽略的,只要截断阈值选择得当(例如,随着 \(n\) 增长,截断阈值趋近于0或1的速度足够慢)。
  • 关键跳跃点

    • EIF的显式形式:推导出 \(\phi_t(O; P)\) 的显式表达式是第一个关键跳跃。这需要将选择函数模型嵌入到半参数框架中,并求解一个复杂的积分方程。作者声称这是本文的独特贡献。
    • 二阶项的控制:证明在 nuisance 函数估计误差为 \(o_p(n^{-1/4})\) 时,二阶项是 \(o_p(n^{-1/2})\)。这需要仔细分析 \(\nu_t(P)\)\(P\) 的“二阶光滑性”,并利用样本分割来解耦 nuisance 函数估计与EIF评估之间的相关性。
  • 技术技巧点名

    • 路径导数(Pathwise derivative):用于推导EIF。
    • 冯·米塞斯展开(von Mises expansion):用于将估计误差分解为线性主项和高阶项。
    • 样本分割(Sample splitting / Cross-fitting):用于打破 nuisance 函数估计与一步估计之间的依赖,简化渐近分析。
    • 截断(Truncation):用于处理倾向得分接近0或1时的数值不稳定性。
    • 鞅差序列(Martingale difference sequence):用于处理样本分割后的估计量,证明其渐近正态性。

真实例子与应用

  • 数据/场景:使用孕期吸烟对出生体重影响的观察性研究数据。数据来自一个大型队列研究,包含母亲的社会经济地位、产前护理等信息作为可观测协变量 \(X\),处理 \(A\) 是孕期是否吸烟,结果 \(Y\) 是新生儿出生体重。
  • 方法应用
    1. 选择一个敏感性分析模型(例如,选择函数 \(s(a, x, y) = \exp(\gamma a)\))。
    2. 指定一系列 \(\gamma\) 值(例如,\(\gamma = 0, 0.1, 0.2, \dots\)),其中 \(\gamma=0\) 对应无未测量混杂。
    3. 对于每个 \(\gamma\),使用本文提出的方法估计ACE \(\hat{\psi}_\gamma\) 及其95%置信区间。
    4. 绘制 \(\gamma\)\(\hat{\psi}_\gamma\) 及其置信区间的曲线图。
  • 结果:当 \(\gamma=0\) 时,估计的ACE为负(吸烟导致出生体重降低),且置信区间不包含0。随着 \(\gamma\) 增大(即未测量混杂对处理分配的影响增强),ACE的估计值向0方向移动,置信区间也逐渐变宽。当 \(\gamma\) 达到某个阈值时,置信区间开始包含0,表明结论不再稳健。
  • 这个例子想说明什么:展示了本文方法如何用于评估一个已知因果关系的稳健性。它提供了一个直观的、量化的工具,让研究者可以判断:需要多强的未测量混杂,才能推翻“吸烟导致低出生体重”这一结论

🔎 结论是否比证明窄

  • 窄结论:定理2的 \(\sqrt{n}\) 渐近性严格依赖于 nuisance 函数估计误差为 \(o_p(n^{-1/4})\) 的条件。作者在文中明确指出了这一点。
  • 泛泛claim:作者在摘要和引言中声称“推广了Robins et al., Franks et al., and Zhou and Yao的敏感性分析方法”。这个claim是准确的,因为本文确实将他们的框架从“提出识别公式”推广到了“提供高效估计量”。但需要留意的是,这个推广的有效性依赖于 nuisance 函数的估计质量,这在实践中可能难以保证。
  • Conjecture:作者可能暗示,当使用更灵活的机器学习方法估计 nuisance 函数时,只要其收敛速度足够快,本文的估计量仍然有效。但这只是一个基于理论条件的推断,并未在论文中针对特定机器学习方法进行严格的证明或模拟验证。

四、开放问题

  1. 高维协变量下的扩展:本文的 \(\sqrt{n}\) 渐近性要求 nuisance 函数估计误差为 \(o_p(n^{-1/4})\)。当协变量 \(X\) 的维度 \(p\) 很大(如 \(p \gg n\))时,这个条件可能难以满足。扎根点:定理2的条件。一个开放问题是:能否在高维稀疏模型下,通过引入正则化或降维技术,放松这个条件,或者推导出更慢的收敛速度(如 \(n^{-1/3}\))下的极限分布?
  2. 更复杂的选择函数模型:本文的EIF推导依赖于选择函数 \(s(a, x, y)\) 的具体形式。对于更复杂、更灵活的 \(s\)(例如,允许 \(s\) 依赖于 \(X\)\(Y\)),EIF的形式会如何变化?是否总能得到显式表达式?扎根点:定理1的推导过程。一个开放问题是:能否发展出一个通用的、自动化的EIF推导算法,适用于一类广泛的选择函数模型?
  3. 与Proximal Causal Inference的结合:本文的敏感性分析框架与Proximal Causal Inference(PCI)都处理未测量混杂,但策略不同。PCI利用代理变量(proxies)来识别因果效应,而本文通过参数化选择函数。一个开放问题是:能否将本文的EIF推导和一步估计方法应用于PCI框架下的敏感性分析?例如,在PCI的识别公式中引入一个类似于选择函数的敏感性参数,然后推导其EIF。扎根点:本文的引言和第一节,以及研究者对PCI的兴趣。
  4. 多个敏感性参数:本文主要关注一个标量敏感性参数 \(t\)。在实际中,未测量混杂可能通过多个渠道影响处理和结果,需要多个敏感性参数。扎根点:本文的设定。一个开放问题是:如何将本文的方法扩展到多个敏感性参数的情况?EIF的推导和估计量的构造会变得更加复杂,但可能提供更全面的敏感性分析。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论