跳转至

Beyond principal ignorability: Nonparametric sensitivity bounds for principal stratification

作者: Xinyuan Chen, Michael O. Harhay, Fan Li
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.01669


一、领域脉络与小综述

这个方向是什么 Principal stratification(主分层)是因果推断中处理中间变量(如非依从、截断致死)的核心框架。其根本统计问题在于:当处理不仅影响最终结局 \(Y\),还影响中间变量 \(D\) 时,我们关心的因果效应(如始终存活者的平均因果效应 SACE)在潜在结果层面定义,但主分层 \(S=(D(1), D(0))\) 是潜变量,导致目标 estimand 只能被部分识别。当前该子方向的成熟度表现为:点识别需要强不可测假设(如 Principal Ignorability, PI),而最坏情况下的非参数大样本界虽已确立,但缺乏连续的、由混杂强度参数化的敏感性分析框架。本文正是填补了从“点识别(PI成立)”到“最坏情况界(PI完全失效)”之间的连续谱系。

发展脉络 - 奠基工作:Frangakis and Rubin (2002) 提出主分层框架,将因果效应定义在由潜在中间变量构成的潜变量层上,开启了“部分识别”的根本困境。Zhang and Rubin (2003) 首次推导了 SACE 的最坏情况非参数界,但界过宽缺乏实用价值。 - 主要进展: - 界收紧路线:Imai (2008) 与 Grilli and Mealli (2008) 在无协变量或弱分布假设下给出了大样本界;Long and Hudgens (2013) 引入协变量与单调性收紧了界;Lu et al. (2018) 与 Yin et al. (2018) 利用排除限制或次要结局进一步压缩界宽。这些工作均停留在“最坏情况”或“特定结构假设”的两极。 - 点识别路线:Ding and Lu (2016) 提出了 Principal Ignorability (PI) 假设(即给定协变量,潜在结局与主分层独立),使得 PCE 可以在无单调性下点识别,但作者明确指出该假设“fundamentally untestable”。 - 敏感性分析范式奠基:Ding and VanderWeele (2016a) 在标准因果推断(无中间变量)设定下,提出了基于未测混杂相对风险(RR)的 margin-free bounding factor,创造了从点识别到最坏情况界的连续代数桥。Ding and VanderWeele (2016b) 将此范式拓展至中介分析。 - 当前 frontier 与本文位置:本文作者指出,尽管 Ding-VanderWeele 的 bounding factor 范式在标准设定和中介设定中已成熟,但主分层设定存在两个独特特征使得“existing bounding factor cannot be applied directly”:(1) 目标潜变量均值是观测单元均值的加权混合,混合权重由 principal scores 决定;(2) \(D(1)\)\(D(0)\) 的跨世界依赖引入了额外的敏感性维度 \(\theta(x)\)。本文将 bounding factor 嵌入混合结构并耦合 \(\theta(x)\),在主分层中建立了连续敏感性谱系,并证明其界在有限 BF 下严格嵌套于 Grilli-Mealli 界,随 BF \(\to\infty\) 收敛于最坏情况界。

子线索聚类 1. 结构性界收紧(无敏感性参数):Zhang & Rubin (2003) \(\to\) Grilli & Mealli (2008) \(\to\) Long & Hudgens (2013) \(\to\) Lu et al. (2018)。这一簇通过单调性、排除限制、随机占优等结构假设压缩最坏情况界,但无法量化假设失效的连续程度。 2. 点识别与潜变量可忽略性:Ding & Lu (2016) \(\to\) Tong et al. (2026) \(\to\) Chen & Li (2026)。这一簇依赖 PI 或 MPI 假设实现点识别,近期开始结合半参数理论估计 principal scores,但回避了 PI 违反的后果。 3. 混杂相对风险与 Cornfield 范式:Ding & VanderWeele (2014, 2016a, 2016b)。这一簇在标准/中介设定下用 RR 参数化未测混杂,提供 falsification threshold(E-value)。本文将此范式迁移至主分层的混合结构中。

这个方向在追问的核心问题 1. 如何在不可测的 PI 假设与最坏情况之间,建立由混杂强度连续参数化的 sharp 非参数界?(当前瓶颈:既有界要么太宽无用,要么依赖不可测的点识别假设,缺乏中间地带) 2. 跨世界潜在中间变量的依赖(\(\theta(x)\))如何与未测结局混杂(BF)交互,共同决定 PCE 的识别域?(当前瓶颈:\(\theta(x)\) 仅被用于点识别 principal scores,未被纳入敏感性界的推导) 3. 对于非线性对比函数(如 probabilistic index),主分层的部分识别与敏感性分析如何进行?(当前瓶颈:PCE 仅适用于连续/二元结局,缺乏对复杂结局的推广)

⚠️ 作者的 framing - 作者的 framing:作者将缺口 frame 为“PI 假设不可测,因此需要量化其违反程度的敏感性分析”,并强调主分层的“混合结构”与“跨世界依赖”使得现有 DV 范式不能直接套用,从而本文的重新推导成为“显然的下一步”。同时,作者淡化或回避了贝叶斯路线(如 Imbens & Rubin 1997; Schwartz et al. 2011)与工具变量路线(如 Levis et al. 2025 利用排除限制与 IV 估计 ATE 的界),将它们排除在连续敏感性谱系的比较之外(见表1)。 - 缺失的引用:Intro 中明显缺失了对半参数敏感性分析的讨论。近期因果推断敏感性分析的 frontier 大量使用半参数效率界与 debiased ML(如 DML 结合 E-value),但本文的界完全停留在非参数条件期望层面,未触及在半参数子模型下界的 sharpness 或估计的效率问题。此外,对于连续中间变量的主分层(Lu et al. 2025; Zhang & Yang 2025),作者仅在 Discussion 中一笔带过,未在 Intro 中将其作为并列的 frontier 进行对比定位。

张力 未见明显对立引用。不同路线(最坏情况界 vs. PI 点识别 vs. 贝叶斯)是在不同假设集下工作,结论不矛盾而是互补。但存在一个隐含张力:Long & Hudgens (2013) 依赖单调性收紧界,而本文作者证明在 \(\theta(x)\to\infty\)(单调性)时,10 层(complier)的 E-value 反而达到最坏情况(Proposition 2),即单调性对 falsification 而言是最不利的假设,这与“单调性收紧识别界”的常规直觉形成微妙反差。


二、这篇论文做了什么

类型判断:理论型(非参数 sharp 界推导 + Cornfield 条件)为主,附带数据示例。

三句话 ①研究了主分层下 Principal Ignorability (PI) 假设违反时,PCE 与 PGCE 的非参数敏感性界问题; ②核心工具是 Ding-VanderWeele 的 margin-free bounding factor,将其嵌入主分层的混合权重分解并耦合跨世界 odds ratio \(\theta(x)\); ③主要结论是推导出 PCE/PGCE 的 sharp 非参数界,证明其严格嵌套于最坏情况界并随 BF \(\to\infty\) 收敛,并给出 Cornfield-type 条件与 Principal E-value 以量化使因果效应为零所需的最小混杂联合强度。

关键设定与假设 - Assumption 1 (Treatment ignorability)\(Z \perp \{D(0), D(1), Y(0), Y(1)\} | X\)。标准无混杂假设,本文不挑战此假设。 - Assumption 2 (Latent PI):存在未测混杂 \(U\) 使得 \(Y(z) \perp S | X, U\),但 \(Y(z) \not\perp S | X\)。这是对 Ding & Lu (2016) PI 假设的结构性放松,引入 \(U\) 作为 \(S \to Y\) 的混杂路径。 - Assumption 3 (Non-monotonicity via \(\theta\))\(\theta(x) = e_{11}(x)e_{00}(x) / \{e_{10}(x)e_{01}(x)\}\)。跨世界 odds ratio,参数化 \(D(1)\)\(D(0)\) 的依赖。\(\theta \to \infty\) 退化为单调性,\(\theta=1\) 为独立,\(\theta=0\) 为最大负依赖。相比已有文献常直接假设单调性,此假设更一般,引入了额外的敏感性维度。 - SUTVA 与有界结局\(Y(z) \in [0,1]\)。保证界的推导中 \(1-Y(z)\) 的对称操作合法。

主要结果 1. Theorem 1 (PCE 的 sharp 非参数界):在 Assumptions 1-3 下,潜变量条件均值 \(\mu_{z,s}(x)\) 被 sharp 地界定为 \([L_{z,s}(x), U_{z,s}(x)]\),其中界由观测单元均值 \(m_{z,d}(x)\)、混合权重 \(w_{z,s}(x)\)(依赖 \(\theta(x)\))与 bounding factor \(\text{BF}_{U}^{z,d}(x)\) 共同决定。直觉:观测均值是目标层与干扰层均值的加权混合,BF 限制了干扰层均值偏离目标层均值的倍数,结合 \(Y \in [0,1]\) 的截断,得到 sharp 界。技术难点:BF 必须穿透混合权重分解,且权重本身受 \(\theta(x)\) 调控。 2. Proposition 1 (嵌套性):对任意有限 \(\text{BF} > 1\),本文界严格嵌套于 Grilli & Mealli (2008) 最坏情况界内;随 \(\text{BF} \to \infty\) 收敛于最坏情况界。直觉:BF 参数化了从 PI 成立(BF=1,点识别)到最坏混杂(BF=\(\infty\),大样本界)的连续谱系。 3. Theorem 2 (Cornfield-type 条件与 Principal E-value):为使 PCE \(\Delta_s(x)\) 为零,未测混杂 \(U\) 必须满足 \(\min(\text{RR}_{SU}, \text{RR}_{UY}) \ge \Lambda_s^*(x)\)\(\max(\text{RR}_{SU}, \text{RR}_{UY}) \ge \Lambda_s^*(x) + \sqrt{\Lambda_s^*(x)(\Lambda_s^*(x)-1)}\)。后者定义了 Principal E-value \(EV_s(x)\)。直觉:单一路径的无限强混杂不能抵消另一路径的弱混杂,必须两条路径同时达到阈值;E-value 给出了“解释掉因果效应所需的最小混杂风险比”的单变量汇总。

方法 / 证明骨架 1. 定义选择 RR(\(U\) 在目标层与干扰层的分布不平衡)与结局 RR(\(U\)\(Y(z)\) 的最大期望风险比),构造 margin-free bounding factor \(\text{BF}\)。 2. 利用 Lemma 1(DV2016a 的推广),证明干扰层均值与目标层均值的比值被 BF 约束:\(1/\text{BF} \le \mu_{z,s'}/\mu_{z,s} \le \text{BF}\)。 3. 将观测单元均值 \(m_{z,d}\) 分解为 \(\mu_{z,s}\)\(\mu_{z,s'}\) 的加权混合,权重 \(w_{z,s}\)\(\theta(x)\) 与边际 principal scores 决定。 4. 将 Lemma 1 的比值约束代入混合分解,解出 \(\mu_{z,s}\) 的上下界,并结合 \(Y \in [0,1]\) 的约束(对 \(1-Y\) 同样操作取 min/max)得到 sharp 界。 5. 对 PGCE(乘积空间上的非线性对比),将两个独立复制的选择 RR 复合,定义三个 BF(单侧、双侧混杂),推导乘积空间上的混合分解与 Cornfield 阈值,证明 \(\gamma_{SU}^* < \gamma_{UY}^* < \Gamma^*\)(选择混杂比结局混杂更致命)。

🔎 结论是否比证明窄 - Discussion 中的 Future work 承认:作者明确指出当前框架仅针对二元中间变量,对连续中间变量“involves substantially different identification arguments (Lu et al., 2025; Zhang and Yang, 2025)”,但正文未给出任何连续情形的界或猜想。这是一个干净的窄结论缺口。 - 半参数估计的缺失:作者在 Discussion 提到“incorporating debiased machine learning estimators... would provide formal guarantees on convergence rates”,但正文的理论完全停留在非参数条件期望层面,未证明在半参数子模型下,当 nuisance functions(\(m_{z,d}(x)\), \(e_s(x)\))收敛速率低于 \(n^{-1/4}\) 时,界的估计是否仍有效或需要 debiasing。这是一个被 claim 但未证明的泛泛陈述。


三、值不值得做 / 研究者能做什么

领域层面的判断材料 - 社区真在乎的开放问题:从被引文献看,Ding & VanderWeele (2016a/b) 的 E-value 范式在流行病学与因果推断社区已被广泛采纳(高引用),将其迁移至主分层是自然且被期待的方向。Tong et al. (2026) 与 Chen & Li (2026) 近期在主分层的半参数估计上发力,表明“主分层 + 机器学习/debiasing”是当前活跃 frontier。连续中间变量的主分层识别与估计(Lu et al. 2025; Zhang & Yang 2025)是近期 JRSSB 上的焦点,社区对非二元中间变量的突破有明确需求。 - 作者一家之言:将敏感性维度仅框定在 PI 违反(\(U\) 混杂 \(S\)\(Y\)),而假设 Treatment ignorability(\(Z\) 的无混杂)成立。这在观察性研究中是强假设,Ding & VanderWeele (2014) 已处理 \(Z\) 的混杂,但本文未触及 \(Z\)\(S\) 同时有未测混杂的联合敏感性。 - 建议:去读同子领域近期 5 篇 intro(Tong et al. 2026; Chen & Li 2026; Lu et al. 2025; Zhang & Yang 2025; Levis et al. 2025),看它们是否都指向“PI 假设的敏感性”或“连续中间变量的识别”。若都指向后者,则本文的二元中间变量敏感性框架虽完整,但可能已非社区最迫切的 frontier。

问题种子清单

(A) 立即可做 1. 问题表述:在半参数子模型(如 \(m_{z,d}(x)\) 属于光滑函数空间,\(e_s(x)\) 属于高维稀疏线性模型)下,证明本文非参数敏感性界的估计量(代入 nuisance 估计后)何时达到 \(n^{-1/2}\) 收敛速率,何时需要 debiased 校正? - 扎根在本文哪里:Discussion 明确承认“model misspecification in these nuisance functions can distort the empirical bounds, and incorporating debiased machine learning estimators... would provide formal guarantees”,但未给出任何收敛速率或 debiasing 的理论。 - 攻它需要什么:方法:半参数效率界理论 + DML/cross-fitting;数据:模拟 + 真实数据;算力:普通。成本极低。 - 谁已经在附近做:Tong et al. (2026) 与 Chen & Li (2026) 已在主分层点识别(PI 下)做了半参数估计;Levis et al. (2025) 在 IV 设定下做了 debiased bounds。需自查拥挤度,但在 PI 违反的敏感性界下做 debiased 估计尚无文献。 - 武器库匹配 + 独特角度:very_familiar(高维渐近 / minimax bounds / estimation theory in causal inference)可直接动手。独特角度:研究者可计算敏感性界估计量的 influence function,判断是否需要 HOIF(若 nuisance 速率极慢),从而将界估计与高阶 U-统计量理论连接。

  1. 问题表述:推导 PCE 敏感性界估计量(基于 nuisance 估计代入)的 influence function,并构造一步估计器或 cross-fitted 估计器,给出置信带(confidence bands on sensitivity bounds)的构造方法。
  2. 扎根在本文哪里:Discussion 提到“enable valid inference via confidence bands on the sensitivity bounds”,但正文无任何推断理论。
  3. 攻它需要什么:方法:半参数理论 + M-estimation 理论;数据:模拟验证;算力:普通。
  4. 谁已经在附近做:Levis et al. (2025) 给了 IV bounds 的置信带;Ding & VanderWeele 系列未给 E-value 的半参数置信区间。拥挤度低。
  5. 武器库匹配 + 独特角度:moderately_familiar(semiparametric theory / M-estimation theory)。研究者可利用 estimation theory 经验,推导界的渐近分布,并利用 minimax 思维评估置信带在有限样本下的覆盖率。

(B) 中期可做 1. 问题表述:将本文的 margin-free bounding factor 与 \(\theta(x)\) 敏感性框架,推广至连续中间变量的主分层设定,推导连续潜变量层均值的 sharp 非参数界。 - 扎根在本文哪里:Discussion 明确指出“Extending the margin-free bounding parameters to continuous intermediate variables requires evaluating the confounding penalties over a continuous latent mixture, which involves substantially different identification arguments (Lu et al., 2025; Zhang and Yang, 2025)”。 - 攻它需要什么:方法:连续潜变量的识别理论 + 测度论下的 Radon-Nikodym 导数处理;数据:模拟;算力:普通。需补 1-2 篇文献:Lu et al. (2025, JRSSB) 与 Zhang & Yang (2025, JRSSB),理解连续主分层的点识别框架,再引入 BF 穿透连续混合分布。 - 谁已经在附近做:Lu et al. (2025) 与 Zhang & Yang (2025) 刚发表连续主分层的点识别与半参数估计,但未做敏感性分析。拥挤度极低,是明显 gap。 - 武器库匹配 + 独特角度:moderately_familiar(identification theory in causal inference)。补完连续主分层的识别文献后,可复用本文“BF 穿透混合权重”的核心逻辑,但混合权重需从概率推广为密度/分布函数。研究者对 inverse problems with random noise 的熟悉度可能有助于处理连续混合的解卷积问题。

(C) 暂不建议 1. 问题表述:在 \(Z\)\(S\) 均存在未测混杂(即 Treatment ignorability 与 PI 同时违反)时,推导 PCE 的联合敏感性界。 - 扎根在本文哪里:Assumption 1 假设 \(Z\) 无混杂,作者声明“Violations of this assumption... will therefore not be explored here”。 - 攻它需要什么:核心机器缺:联合混杂下的非参数识别理论,需处理 \(Z\) 的未测混杂 \(V\)\(S\) 的未测混杂 \(U\) 可能相关,且 \(V\) 同时影响 \(D\)\(Y\) 的复杂 DAG 结构。现有 DV 范式仅处理单一路径的混杂。 - 为何不易绕过:从武器库内,identification theory 可处理单变量混杂,但双混杂 \((U, V)\) 且存在中间变量 \(D\) 的联合界推导,需极强的 DAG 代数与多变量 RR 的联合约束,技术路径不清晰,且极易退化为无信息的最坏情况界。

迁移视角 - 方法 T:本文的“margin-free bounding factor 穿透混合权重分解 + 跨世界 odds ratio \(\theta(x)\) 参数化”的敏感性界推导技术。 - 目标领域中介分析的敏感性分析。 - 为什么可行:中介分析(Mediation analysis)中,自然直接/间接效应的识别同样依赖跨世界独立性假设(如 \(Y(1, M(0)) \perp M(0) | X\)),且存在中间变量 \(M\) 的混合结构。Ding & VanderWeele (2016b) 已将 BF 用于中介敏感性,但未引入类似 \(\theta(x)\) 的跨世界依赖参数。研究者可将本文的 \(\theta(x)\) 敏感性维度迁移至中介分析,量化 \(M(1)\)\(M(0)\) 依赖对自然间接效应界的影响,这在中介分析文献中是缺失的。研究者对因果推断 identification theory 的熟悉度使得此迁移的技术门槛可控。


四、延伸与下一步

沿引用链的阅读路线 1. 地基(先读): - Frangakis & Rubin (2002):理解主分层的根本动机与潜变量定义。 - Ding & VanderWeele (2016a):理解 bounding factor 与 E-value 的原始范式,这是本文的核心工具来源。 - Ding & Lu (2016):理解 PI 假设的定义与点识别逻辑,本文是对其的放松。 2. Frontier(后读): - Grilli & Mealli (2008) + Long & Hudgens (2013):理解本文界所嵌套的“最坏情况界”的具体形式,以便对比。 - Chen & Li (2026) + Tong et al. (2026):理解当前主分层在 PI 下的半参数估计 frontier,为做 debiased bounds 估计铺垫。 - Lu et al. (2025) + Zhang & Yang (2025):理解连续中间变量的主分层识别,为连续敏感性界铺垫。

假设扰动 - 改动假设:将 Assumption 1(Treatment ignorability)放松,允许 \(Z\) 存在未测混杂 \(V\)。 - 结论变化:观测单元均值 \(m_{z,d}(x)\) 将不再是目标层与干扰层均值的简单混合,因为 \(Z\) 的混杂会扭曲 \(Z\)\(D\)\(Y\) 的效应识别,principal scores \(e_s(x)\) 的点识别也将失效(除非有 IV)。整个界的推导基础崩塌,需重新建立 \(Z\)\(S\) 双重混杂下的识别域。 - 需要的新工具:工具变量下的主分层识别理论(如 Levis et al. 2025 的 IV bounds),结合 DV 的 bounding factor。 - 落入哪一档:C 档(暂不建议),因双混杂下的非参数界推导技术路径不清晰,极易退化为无信息界。

理解检测题 在本文的设定下(Assumptions 1-3 成立),假设你只关心 stratum \(s=10\)(complier)的 PCE \(\Delta_{10}(x)\),且已知单调性成立(\(\theta(x) \to \infty\))。请写出 \(\Delta_{10}(x)\) 的敏感性下界 \(L_{1,10}(x) - U_{0,10}(x)\) 的显式表达式(用 \(m_{1,1}(x), m_{0,0}(x), p_1(x), p_0(x)\)\(\text{BF}_{U}^{1,1}(x), \text{BF}_{U}^{0,0}(x)\) 表示),并解释:当 \(\text{BF}_{U}^{1,1}(x) = \text{BF}_{U}^{0,0}(x) = B\) 时,下界如何随 \(B\) 变化?当 \(B \to \infty\) 时,下界收敛到什么?这如何体现 Proposition 2 所说的“单调性对 falsification 是最坏情况”?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论