Semiparametric sensitivity analysis: unmeasured confounding in observational studies¶

作者: Razieh Nabi, Matteo Bonvini, Edward H Kennedy, Ming-Yueh Huang, Marcela Smid et al.
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是观察性研究中针对未测量混杂的敏感性分析。其根本问题是：在因果推断中，无混杂假设（unconfoundedness）是不可检验的，因此研究者需要评估结论对潜在未测量混杂的敏感程度。当前成熟度：这是一个非常活跃的领域，已有大量方法，但多数方法在估计效率或模型灵活性上存在局限。本文试图在半参数效率理论框架下，为一种特定的敏感性分析参数化方案提供高效的、具有 \(\sqrt{n}\) 收敛速度的估计量。

发展脉络（history）¶

奠基工作：敏感性分析的概念与基本框架
- Robins et al. [2000]：提出了一个关键的敏感性分析假设类，即通过指定一个“选择函数”（selection function）来参数化未测量混杂的影响。这是本文直接推广的起点。
- Franks et al. [2019]：将Tukey分解从缺失数据领域推广到因果推断，提出了一个灵活的敏感性分析框架，允许对观测数据使用灵活模型，并清晰分离了可识别与不可识别的部分。本文的框架正是建立在此基础之上。
- Zhou and Yao：与Franks等人类似，也提出了一个基于选择函数的敏感性分析框架。本文声称将其推广到半参数设定。
主要进展：方法的多样化与精细化
- 基于偏R²的敏感性分析：Cinelli and Hazlett [2020] 在线性模型框架下，提出了一个基于偏R²的遗漏变量偏倚公式，将敏感性参数与可解释的关联强度（R²）联系起来。
- 基于边际敏感性模型：Zhao, Small, and Bhattacharya [2017] 提出了一个边际敏感性模型，通过逆概率加权（IPW）估计量构造置信区间，并利用百分位自助法（percentile bootstrap）和广义极小极大-极大极小不等式来求解。
- 基于污染模型：Bonvini and Kennedy [2021] 采用污染模型方法，通过约束受未测量混杂影响的单位比例来给出ACE的界。
- 基于贝叶斯方法：Dorie et al. [2016] 提出了一个半参数贝叶斯敏感性分析方法，将贝叶斯加性回归树（BART）与双参数敏感性分析策略结合。
- 基于无分布假设的界：Ding and VanderWeele [2015] 推导了一个边界因子和尖锐不等式，无需对未测量混杂变量做任何分布假设，即可评估其影响。
当前Frontier：半参数效率与灵活模型
- Yadlowsky et al. [2018] 开发了一个基于损失最小化的方法，用于估计有界未测量混杂下的CATE和ATE界，其估计量具有Neyman正交性，允许以 \(o_p(n^{-1/4})\) 的速率估计 nuisance 参数。
- Veitch and Zaveri [2020] 通过指定一个依赖于测量和未测量协变量的倾向得分模型，规避了对未测量混杂变量边际分布建模的需要，并提出了“Austen plots”可视化工具。
- 本文的位置：本文声称其独特贡献在于，在Franks等人和Zhou & Yao的敏感性分析框架下，推导了ACE的非参数有效影响函数（EIF），并基于此构造了一个具有 \(\sqrt{n}\) 渐近性的一步估计量。这标志着该领域从“提出框架”向“提供高效、可推断的估计量”的转变。

子线索聚类¶

点识别（Point Identification）路线：通过引入额外的、不可检验的假设（如选择函数参数化），使得在给定敏感性参数值下，ACE是点识别的。本文属于此类。代表工作：Robins et al. [2000], Franks et al. [2019], Zhou and Yao。
集识别（Set Identification / Bounding）路线：在较弱的假设下，推导ACE的识别区间（界）。代表工作：Richardson et al. [2014], Ding and VanderWeele [2015], Bonvini and Kennedy [2021], Dorn and Guo [2021]。
基于模型的敏感性分析：对未测量混杂与处理/结果的关系进行参数化建模，然后进行偏倚校正或敏感性分析。代表工作：Cinelli and Hazlett [2020], Carnegie et al. [2016], VanderWeele and Arah [2011]。
半参数/非参数效率估计：关注在给定模型下，如何构造高效、稳健的估计量。代表工作：Yadlowsky et al. [2018], Kennedy et al. [2022]（综述），以及本文。

这个方向在追问的核心问题¶

如何参数化未测量混杂？ 敏感性参数应该具有可解释性，且其取值范围应易于校准。主流方法包括选择函数、偏R²、边际敏感性模型等。瓶颈在于参数化方案的选择本身是主观的，且不同方案可能导致不同结论。
如何对敏感性分析参数进行推断？ 给定一个敏感性参数值，如何得到ACE的置信区间？主流方法包括一步估计、双稳健估计、贝叶斯方法等。瓶颈在于如何保证估计量的 \(\sqrt{n}\) 收敛性和有效性，尤其是在使用灵活的非参数模型估计 nuisance 参数时。
如何将敏感性分析结果呈现给实践者？ 如何将复杂的敏感性分析结果（如一系列点估计和置信区间）转化为易于理解的结论（如“结论对未测量混杂的敏感程度如何”）？主流方法包括偏倚校正图、轮廓图、Austen plots等。瓶颈在于如何平衡信息的全面性与可解释性。

⚠️ 作者的 framing¶

作者的缺口描述：作者将缺口 frame 为“现有敏感性分析方法（如Franks et al. [2019]）虽然灵活，但缺乏高效的、具有 \(\sqrt{n}\) 渐近性的估计量”。因此，本文的“显然的下一步”就是利用半参数效率理论，为这个框架推导EIF并构造高效估计量。
被淡化或回避的竞争路线：
- 集识别路线：作者在引言中将其归类为“寻求集识别”的方法，并指出其“可能过于保守”。这淡化了集识别方法在无需强假设方面的优势。
- 其他点识别路线：如Yadlowsky et al. [2018] 和 Veitch and Zaveri [2020] 的工作，虽然也被引用，但作者并未详细比较其与本文方法在效率或灵活性上的优劣。作者强调本文的EIF推导是“独特贡献”，暗示其他方法可能没有达到半参数有效。
什么明显该被引/该存在、却没出现在intro里？
- Rotnitzky et al. [2019] 关于“混合偏倚性质”（mixed bias property）的论文。该论文系统性地刻画了一类具有混合偏倚性质的参数，而本文的ACE在给定敏感性参数下很可能属于此类。引用该文可以更清晰地定位本文估计量的性质（如率双稳健性）。这是一个值得研究者去查的潜在缺口。
- Bhattacharya et al. [2020] 关于含隐变量因果图中因果效应的半参数推断。该文提供了图形化准则和半参数估计量，与本文的敏感性分析框架有潜在联系，但未被引用。

张力¶

未见明显对立引用。各方法主要在参数化方案、估计策略和推断目标上有所不同，但并未出现在同一设定下得出相反结论的冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(A \in \{0, 1\}\)：二元处理变量（treatment）。
- \(Y\)：结果变量（outcome）。
- \(X\)：可观测的协变量向量（observed covariates）。
- \(Y(1), Y(0)\)：潜在结果（potential outcomes），分别代表个体在接受处理（\(A=1\)）和对照（\(A=0\)）下的结果。这是不可观测的，因为每个个体只能观测到一个。
- \(\psi = \mathbb{E}[Y(1) - Y(0)]\)：平均因果效应（ACE），是目标参数（estimand）。
- \(U\)：未测量的混杂变量（unmeasured confounder）。这是不可观测的。
- \(O = (X, A, Y)\)：可观测数据，即研究者实际能观测到的数据。
- \(n\)：样本量。
- \(P\)：观测数据 \(O\) 的分布。
- \(\nu_t(P)\)：在给定敏感性参数 \(t\) 下，ACE 的识别泛函（identifying functional）。它是一个从观测数据分布 \(P\) 到实数的映射。
- \(\phi_t(O; P)\)：在给定 \(t\) 下，ACE 的有效影响函数（EIF）。它是一个关于单个观测 \(O\) 和分布 \(P\) 的函数，满足 \(\mathbb{E}_P[\phi_t(O; P)] = 0\) 且 \(\text{Var}_P[\phi_t(O; P)]\) 是 \(\nu_t(P)\) 的半参数效率界。
- \(\hat{\psi}_t\)：在给定 \(t\) 下，ACE 的估计量。
- \(k\)：样本分割的折数（fold）。
- \(n_k\)：第 \(k\) 折的样本量。
- \(\hat{P}^{(-k)}\)：去掉第 \(k\) 折后，用剩余数据估计的观测数据分布。
- \(\tau\)：截断参数（truncation parameter），用于控制估计量的稳定性。
模型：
- 数据生成机制：观测数据 \(O = (X, A, Y)\) 来自一个未知的联合分布 \(P\)。存在一个未测量的混杂变量 \(U\)，使得 \(A\) 和 \(Y\) 在给定 \(X\) 下不独立，即 \(A \not\perp Y | X\)。
- 识别假设：为了识别ACE，需要引入一个敏感性分析模型。本文采用的选择函数模型（以Franks et al. [2019]为基础）假设：
  - \(Y(1) \perp A | X, U\) 和 \(Y(0) \perp A | X, U\)（给定 \(X\) 和 \(U\)，无混杂）。
  - 未测量混杂的影响通过一个选择函数 \(s(a, x, y) = \frac{P(A=a|X=x, U=u)}{P(A=a|X=x)}\) 来参数化。这个函数刻画了 \(U\) 对处理分配的影响。
  - 敏感性参数 \(t\) 被用来约束这个选择函数，例如 \(s(a, x, y) \in [1/\Gamma, \Gamma]\) 或 \(s(a, x, y) = \exp(\gamma a)\)。本文的框架允许 \(t\) 是任意固定的，不对其施加限制。
- 估计模型：对于观测数据分布 \(P\) 中的 nuisance 参数（如 \(\mathbb{E}[Y|A, X]\) 和 \(P(A|X)\)），本文允许使用半参数模型（如广义线性模型、加性模型等），但不对敏感性参数 \(t\) 施加任何限制。
可观测数据：
- 可观测：\(n\) 个独立同分布的样本 \(\{O_i = (X_i, A_i, Y_i)\}_{i=1}^n\)。
- 不可观测：每个个体的潜在结果 \(Y_i(1), Y_i(0)\) 和未测量混杂变量 \(U_i\)。
- 关键点：ACE \(\psi\) 在无混杂假设下是可识别的，但在这个假设被违反时（即存在 \(U\)），它不再是可观测数据分布 \(P\) 的函数。敏感性分析通过引入一个参数 \(t\) 和一个模型，将 \(\psi\) 表达为 \(P\) 和 \(t\) 的函数 \(\nu_t(P)\)，从而在给定 \(t\) 下实现点识别。

第二步：讲最小内核¶

本文的核心思路可以浓缩为一个最简特例：假设我们只关心一个二元处理 \(A\) 和一个连续结果 \(Y\)，并且我们采用一个最简单的选择函数模型：\(s(a, x, y) = \exp(\gamma a)\)，其中 \(\gamma\) 是敏感性参数。这意味着未测量混杂对处理分配的影响是常数，与 \(X\) 和 \(Y\) 无关。

在这个特例下，Franks et al. [2019] 的框架给出了ACE的识别公式：

\[\psi(\gamma) = \mathbb{E}\left[ \frac{A Y}{\exp(\gamma) \cdot e(X)} - \frac{(1-A) Y}{\exp(-\gamma) \cdot (1-e(X))} \right]\]

其中 \(e(X) = P(A=1|X)\) 是倾向得分。

本文的核心贡献：作者没有止步于这个识别公式，而是问了一个更深入的问题：如何高效地估计 \(\psi(\gamma)\)？

他们利用半参数理论，推导了 \(\psi(\gamma)\) 在非参数模型下的有效影响函数（EIF）。对于这个特例，EIF 的形式大致为：

\[\phi_\gamma(O; P) = \frac{A Y}{\exp(\gamma) \cdot e(X)} - \frac{(1-A) Y}{\exp(-\gamma) \cdot (1-e(X))} - \psi(\gamma) - \frac{A - e(X)}{\exp(\gamma) \cdot e(X) \cdot (1-e(X))} \cdot \mathbb{E}[Y|A=1, X] \cdot \exp(-\gamma) \cdot (1-e(X)) + \dots\]

（实际形式更复杂，涉及多个 nuisance 函数的乘积）

这个EIF的意义： 1. 效率界：它的方差 \(\text{Var}[\phi_\gamma(O; P)]\) 就是估计 \(\psi(\gamma)\) 所能达到的最小渐近方差（半参数效率界）。 2. 一步估计量：基于EIF，可以构造一个“一步估计量”（one-step estimator）：

\[\hat{\psi}_{\gamma, \text{one-step}} = \frac{1}{n} \sum_{i=1}^n \phi_\gamma(O_i; \hat{P}) + \hat{\psi}_{\gamma, \text{plug-in}}\]

其中 \(\hat{\psi}_{\gamma, \text{plug-in}}\) 是直接将估计的 nuisance 函数代入识别公式得到的“插件估计量”。一步估计量通过加上EIF的样本均值来校正插件估计量的偏倚，从而在 nuisance 函数估计得足够好时达到 \(\sqrt{n}\) 收敛和半参数有效。

所以，本文在数学上干了一件什么事？ 它在一个特定的、灵活的敏感性分析框架下，推导了目标参数（ACE）的EIF，并基于此构造了一个一步估计量，证明了该估计量在 nuisance 函数以足够快速度收敛时具有 \(\sqrt{n}\) 渐近性和半参数有效性。这相当于为这个框架提供了一个“最优”的推断工具。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在观察性研究中，针对未测量混杂的敏感性分析，以平均因果效应（ACE）为估计目标，在给定敏感性参数下，如何构造一个高效、具有 \(\sqrt{n}\) 渐近性的估计量。
核心工具/方法：利用半参数效率理论，推导了ACE在给定敏感性参数下的非参数有效影响函数（EIF），并基于此构造了一个一步估计量，结合了样本分割（sample splitting） 和截断（truncation） 技术。
主要结论：建立了保证该一步估计量具有 \(\sqrt{n}\) 渐近性和半参数有效性的充分条件。这些条件主要涉及 nuisance 函数（如条件均值、倾向得分）的估计误差收敛速度。通过模拟和真实数据（孕期吸烟对出生体重的影响）验证了方法的性能。

关键设定与假设¶

设定：二元处理 \(A\)，任意结果 \(Y\)，可观测协变量 \(X\)。存在未测量混杂 \(U\)。
敏感性分析模型：采用 Franks et al. [2019] 和 Zhou & Yao 的框架，通过一个选择函数 \(s(a, x, y)\) 来参数化未测量混杂的影响。敏感性参数 \(t\) 用于约束 \(s\)。关键点：本文不对 \(t\) 施加任何限制，\(t\) 是固定的、由研究者指定的。
估计目标：在给定 \(t\) 下，ACE 的识别泛函 \(\nu_t(P)\)。
假设：
1. 一致性（Consistency）：\(Y = A Y(1) + (1-A) Y(0)\)。
2. 正值性（Positivity）：\(0 < P(A=1|X) < 1\)。
3. 选择函数模型正确指定：所假设的选择函数形式（如 \(s(a, x, y) = \exp(\gamma a)\)）是正确的。这是不可检验的，是敏感性分析的核心假设。
4. Nuisance函数估计的收敛速度：为了保证 \(\sqrt{n}\) 渐近性，需要 \(\hat{e}(X)\) 和 \(\hat{\mu}(A, X)\)（条件均值 \(\mathbb{E}[Y|A, X]\)）等 nuisance 函数的估计误差的 \(L_2\) 范数以 \(o_p(n^{-1/4})\) 的速度收敛。这是使用灵活模型（如机器学习）时的标准条件。
5. 截断条件：为了保证一步估计量的稳定性，需要对倾向得分的估计值进行截断，避免其接近0或1。

主要结果¶

定理1（EIF的推导）：在非参数模型下，推导了 \(\nu_t(P)\) 的有效影响函数 \(\phi_t(O; P)\)。这个EIF的形式依赖于选择函数 \(s\) 和观测数据分布 \(P\)。直觉：EIF 刻画了当观测数据分布 \(P\) 发生微小变化时，目标参数 \(\nu_t(P)\) 如何变化。它是构造高效估计量的基石。
定理2（一步估计量的渐近性）：在正则条件下，所构造的一步估计量 \(\hat{\psi}_t\) 是 \(\sqrt{n}\) 相合的、渐近正态的，且其渐近方差等于 \(\text{Var}[\phi_t(O; P)]\)，即达到了半参数效率界。必要条件：所有 nuisance 函数的估计误差的 \(L_2\) 范数必须为 \(o_p(n^{-1/4})\)。解决的技术难点：如何证明在样本分割和截断后，一步估计量的剩余偏倚（由 nuisance 函数估计误差引起）是可忽略的。
推论（方差估计）：给出了一个基于EIF的方差估计量，可用于构造置信区间。

证明路线与技术技巧¶

整体路线：
1. 推导EIF：使用路径导数（pathwise derivative）方法。首先将 \(\nu_t(P)\) 视为分布 \(P\) 的泛函，然后计算其在某个扰动方向上的导数。通过求解一个积分方程，得到EIF \(\phi_t(O; P)\)。
2. 构造一步估计量：\(\hat{\psi}_t = \frac{1}{K} \sum_{k=1}^K \left[ \frac{1}{n_k} \sum_{i \in \text{fold } k} \phi_t(O_i; \hat{P}^{(-k)}) + \nu_t(\hat{P}^{(-k)}) \right]\)。这里使用了 \(K\) 折样本分割，以避免过拟合导致的偏倚。
3. 分析渐近偏倚：将 \(\hat{\psi}_t - \psi_t\) 分解为三部分：一个关于EIF的鞅差序列和（渐近正态）、一个由 nuisance 函数估计误差引起的二阶项、一个由截断引起的项。
4. 控制二阶项：证明在 nuisance 函数估计误差为 \(o_p(n^{-1/4})\) 的条件下，二阶项是 \(o_p(n^{-1/2})\)。这一步通常需要利用冯·米塞斯展开（von Mises expansion）或泰勒展开，并证明交叉项（如 \((\hat{e} - e)(\hat{\mu} - \mu)\)）的期望是可忽略的。
5. 控制截断项：证明截断对渐近性质的影响是可忽略的，只要截断阈值选择得当（例如，随着 \(n\) 增长，截断阈值趋近于0或1的速度足够慢）。
关键跳跃点：
- EIF的显式形式：推导出 \(\phi_t(O; P)\) 的显式表达式是第一个关键跳跃。这需要将选择函数模型嵌入到半参数框架中，并求解一个复杂的积分方程。作者声称这是本文的独特贡献。
- 二阶项的控制：证明在 nuisance 函数估计误差为 \(o_p(n^{-1/4})\) 时，二阶项是 \(o_p(n^{-1/2})\)。这需要仔细分析 \(\nu_t(P)\) 对 \(P\) 的“二阶光滑性”，并利用样本分割来解耦 nuisance 函数估计与EIF评估之间的相关性。
技术技巧点名：
- 路径导数（Pathwise derivative）：用于推导EIF。
- 冯·米塞斯展开（von Mises expansion）：用于将估计误差分解为线性主项和高阶项。
- 样本分割（Sample splitting / Cross-fitting）：用于打破 nuisance 函数估计与一步估计之间的依赖，简化渐近分析。
- 截断（Truncation）：用于处理倾向得分接近0或1时的数值不稳定性。
- 鞅差序列（Martingale difference sequence）：用于处理样本分割后的估计量，证明其渐近正态性。

真实例子与应用¶

数据/场景：使用孕期吸烟对出生体重影响的观察性研究数据。数据来自一个大型队列研究，包含母亲的社会经济地位、产前护理等信息作为可观测协变量 \(X\)，处理 \(A\) 是孕期是否吸烟，结果 \(Y\) 是新生儿出生体重。
方法应用：
1. 选择一个敏感性分析模型（例如，选择函数 \(s(a, x, y) = \exp(\gamma a)\)）。
2. 指定一系列 \(\gamma\) 值（例如，\(\gamma = 0, 0.1, 0.2, \dots\)），其中 \(\gamma=0\) 对应无未测量混杂。
3. 对于每个 \(\gamma\)，使用本文提出的方法估计ACE \(\hat{\psi}_\gamma\) 及其95%置信区间。
4. 绘制 \(\gamma\) 与 \(\hat{\psi}_\gamma\) 及其置信区间的曲线图。
结果：当 \(\gamma=0\) 时，估计的ACE为负（吸烟导致出生体重降低），且置信区间不包含0。随着 \(\gamma\) 增大（即未测量混杂对处理分配的影响增强），ACE的估计值向0方向移动，置信区间也逐渐变宽。当 \(\gamma\) 达到某个阈值时，置信区间开始包含0，表明结论不再稳健。
这个例子想说明什么：展示了本文方法如何用于评估一个已知因果关系的稳健性。它提供了一个直观的、量化的工具，让研究者可以判断：需要多强的未测量混杂，才能推翻“吸烟导致低出生体重”这一结论。

🔎 结论是否比证明窄¶

窄结论：定理2的 \(\sqrt{n}\) 渐近性严格依赖于 nuisance 函数估计误差为 \(o_p(n^{-1/4})\) 的条件。作者在文中明确指出了这一点。
泛泛claim：作者在摘要和引言中声称“推广了Robins et al., Franks et al., and Zhou and Yao的敏感性分析方法”。这个claim是准确的，因为本文确实将他们的框架从“提出识别公式”推广到了“提供高效估计量”。但需要留意的是，这个推广的有效性依赖于 nuisance 函数的估计质量，这在实践中可能难以保证。
Conjecture：作者可能暗示，当使用更灵活的机器学习方法估计 nuisance 函数时，只要其收敛速度足够快，本文的估计量仍然有效。但这只是一个基于理论条件的推断，并未在论文中针对特定机器学习方法进行严格的证明或模拟验证。

四、开放问题¶

高维协变量下的扩展：本文的 \(\sqrt{n}\) 渐近性要求 nuisance 函数估计误差为 \(o_p(n^{-1/4})\)。当协变量 \(X\) 的维度 \(p\) 很大（如 \(p \gg n\)）时，这个条件可能难以满足。扎根点：定理2的条件。一个开放问题是：能否在高维稀疏模型下，通过引入正则化或降维技术，放松这个条件，或者推导出更慢的收敛速度（如 \(n^{-1/3}\)）下的极限分布？
更复杂的选择函数模型：本文的EIF推导依赖于选择函数 \(s(a, x, y)\) 的具体形式。对于更复杂、更灵活的 \(s\)（例如，允许 \(s\) 依赖于 \(X\) 或 \(Y\)），EIF的形式会如何变化？是否总能得到显式表达式？扎根点：定理1的推导过程。一个开放问题是：能否发展出一个通用的、自动化的EIF推导算法，适用于一类广泛的选择函数模型？
与Proximal Causal Inference的结合：本文的敏感性分析框架与Proximal Causal Inference（PCI）都处理未测量混杂，但策略不同。PCI利用代理变量（proxies）来识别因果效应，而本文通过参数化选择函数。一个开放问题是：能否将本文的EIF推导和一步估计方法应用于PCI框架下的敏感性分析？例如，在PCI的识别公式中引入一个类似于选择函数的敏感性参数，然后推导其EIF。扎根点：本文的引言和第一节，以及研究者对PCI的兴趣。
多个敏感性参数：本文主要关注一个标量敏感性参数 \(t\)。在实际中，未测量混杂可能通过多个渠道影响处理和结果，需要多个敏感性参数。扎根点：本文的设定。一个开放问题是：如何将本文的方法扩展到多个敏感性参数的情况？EIF的推导和估计量的构造会变得更加复杂，但可能提供更全面的敏感性分析。

Maintained by 陈星宇 · Homepage · Source on GitHub