Beyond principal ignorability: Nonparametric sensitivity bounds for principal stratification¶

作者: Xinyuan Chen, Michael O. Harhay, Fan Li
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.01669

一、领域脉络与小综述¶

这个方向是什么 Principal stratification（主分层）是因果推断中处理中间变量（如非依从、截断致死）的核心框架。其根本统计问题在于：当处理不仅影响最终结局 \(Y\)，还影响中间变量 \(D\) 时，我们关心的因果效应（如始终存活者的平均因果效应 SACE）在潜在结果层面定义，但主分层 \(S=(D(1), D(0))\) 是潜变量，导致目标 estimand 只能被部分识别。当前该子方向的成熟度表现为：点识别需要强不可测假设（如 Principal Ignorability, PI），而最坏情况下的非参数大样本界虽已确立，但缺乏连续的、由混杂强度参数化的敏感性分析框架。本文正是填补了从“点识别（PI成立）”到“最坏情况界（PI完全失效）”之间的连续谱系。

发展脉络 - 奠基工作：Frangakis and Rubin (2002) 提出主分层框架，将因果效应定义在由潜在中间变量构成的潜变量层上，开启了“部分识别”的根本困境。Zhang and Rubin (2003) 首次推导了 SACE 的最坏情况非参数界，但界过宽缺乏实用价值。 - 主要进展： - 界收紧路线：Imai (2008) 与 Grilli and Mealli (2008) 在无协变量或弱分布假设下给出了大样本界；Long and Hudgens (2013) 引入协变量与单调性收紧了界；Lu et al. (2018) 与 Yin et al. (2018) 利用排除限制或次要结局进一步压缩界宽。这些工作均停留在“最坏情况”或“特定结构假设”的两极。 - 点识别路线：Ding and Lu (2016) 提出了 Principal Ignorability (PI) 假设（即给定协变量，潜在结局与主分层独立），使得 PCE 可以在无单调性下点识别，但作者明确指出该假设“fundamentally untestable”。 - 敏感性分析范式奠基：Ding and VanderWeele (2016a) 在标准因果推断（无中间变量）设定下，提出了基于未测混杂相对风险（RR）的 margin-free bounding factor，创造了从点识别到最坏情况界的连续代数桥。Ding and VanderWeele (2016b) 将此范式拓展至中介分析。 - 当前 frontier 与本文位置：本文作者指出，尽管 Ding-VanderWeele 的 bounding factor 范式在标准设定和中介设定中已成熟，但主分层设定存在两个独特特征使得“existing bounding factor cannot be applied directly”：(1) 目标潜变量均值是观测单元均值的加权混合，混合权重由 principal scores 决定；(2) \(D(1)\) 与 \(D(0)\) 的跨世界依赖引入了额外的敏感性维度 \(\theta(x)\)。本文将 bounding factor 嵌入混合结构并耦合 \(\theta(x)\)，在主分层中建立了连续敏感性谱系，并证明其界在有限 BF 下严格嵌套于 Grilli-Mealli 界，随 BF \(\to\infty\) 收敛于最坏情况界。

子线索聚类 1. 结构性界收紧（无敏感性参数）：Zhang & Rubin (2003) \(\to\) Grilli & Mealli (2008) \(\to\) Long & Hudgens (2013) \(\to\) Lu et al. (2018)。这一簇通过单调性、排除限制、随机占优等结构假设压缩最坏情况界，但无法量化假设失效的连续程度。 2. 点识别与潜变量可忽略性：Ding & Lu (2016) \(\to\) Tong et al. (2026) \(\to\) Chen & Li (2026)。这一簇依赖 PI 或 MPI 假设实现点识别，近期开始结合半参数理论估计 principal scores，但回避了 PI 违反的后果。 3. 混杂相对风险与 Cornfield 范式：Ding & VanderWeele (2014, 2016a, 2016b)。这一簇在标准/中介设定下用 RR 参数化未测混杂，提供 falsification threshold（E-value）。本文将此范式迁移至主分层的混合结构中。

这个方向在追问的核心问题 1. 如何在不可测的 PI 假设与最坏情况之间，建立由混杂强度连续参数化的 sharp 非参数界？（当前瓶颈：既有界要么太宽无用，要么依赖不可测的点识别假设，缺乏中间地带） 2. 跨世界潜在中间变量的依赖（\(\theta(x)\)）如何与未测结局混杂（BF）交互，共同决定 PCE 的识别域？（当前瓶颈：\(\theta(x)\) 仅被用于点识别 principal scores，未被纳入敏感性界的推导） 3. 对于非线性对比函数（如 probabilistic index），主分层的部分识别与敏感性分析如何进行？（当前瓶颈：PCE 仅适用于连续/二元结局，缺乏对复杂结局的推广）

⚠️ 作者的 framing - 作者的 framing：作者将缺口 frame 为“PI 假设不可测，因此需要量化其违反程度的敏感性分析”，并强调主分层的“混合结构”与“跨世界依赖”使得现有 DV 范式不能直接套用，从而本文的重新推导成为“显然的下一步”。同时，作者淡化或回避了贝叶斯路线（如 Imbens & Rubin 1997; Schwartz et al. 2011）与工具变量路线（如 Levis et al. 2025 利用排除限制与 IV 估计 ATE 的界），将它们排除在连续敏感性谱系的比较之外（见表1）。 - 缺失的引用：Intro 中明显缺失了对半参数敏感性分析的讨论。近期因果推断敏感性分析的 frontier 大量使用半参数效率界与 debiased ML（如 DML 结合 E-value），但本文的界完全停留在非参数条件期望层面，未触及在半参数子模型下界的 sharpness 或估计的效率问题。此外，对于连续中间变量的主分层（Lu et al. 2025; Zhang & Yang 2025），作者仅在 Discussion 中一笔带过，未在 Intro 中将其作为并列的 frontier 进行对比定位。

张力未见明显对立引用。不同路线（最坏情况界 vs. PI 点识别 vs. 贝叶斯）是在不同假设集下工作，结论不矛盾而是互补。但存在一个隐含张力：Long & Hudgens (2013) 依赖单调性收紧界，而本文作者证明在 \(\theta(x)\to\infty\)（单调性）时，10 层（complier）的 E-value 反而达到最坏情况（Proposition 2），即单调性对 falsification 而言是最不利的假设，这与“单调性收紧识别界”的常规直觉形成微妙反差。

二、这篇论文做了什么¶

类型判断：理论型（非参数 sharp 界推导 + Cornfield 条件）为主，附带数据示例。

三句话 ①研究了主分层下 Principal Ignorability (PI) 假设违反时，PCE 与 PGCE 的非参数敏感性界问题； ②核心工具是 Ding-VanderWeele 的 margin-free bounding factor，将其嵌入主分层的混合权重分解并耦合跨世界 odds ratio \(\theta(x)\)； ③主要结论是推导出 PCE/PGCE 的 sharp 非参数界，证明其严格嵌套于最坏情况界并随 BF \(\to\infty\) 收敛，并给出 Cornfield-type 条件与 Principal E-value 以量化使因果效应为零所需的最小混杂联合强度。

关键设定与假设 - Assumption 1 (Treatment ignorability)：\(Z \perp \{D(0), D(1), Y(0), Y(1)\} | X\)。标准无混杂假设，本文不挑战此假设。 - Assumption 2 (Latent PI)：存在未测混杂 \(U\) 使得 \(Y(z) \perp S | X, U\)，但 \(Y(z) \not\perp S | X\)。这是对 Ding & Lu (2016) PI 假设的结构性放松，引入 \(U\) 作为 \(S \to Y\) 的混杂路径。 - Assumption 3 (Non-monotonicity via \(\theta\))：\(\theta(x) = e_{11}(x)e_{00}(x) / \{e_{10}(x)e_{01}(x)\}\)。跨世界 odds ratio，参数化 \(D(1)\) 与 \(D(0)\) 的依赖。\(\theta \to \infty\) 退化为单调性，\(\theta=1\) 为独立，\(\theta=0\) 为最大负依赖。相比已有文献常直接假设单调性，此假设更一般，引入了额外的敏感性维度。 - SUTVA 与有界结局：\(Y(z) \in [0,1]\)。保证界的推导中 \(1-Y(z)\) 的对称操作合法。

主要结果 1. Theorem 1 (PCE 的 sharp 非参数界)：在 Assumptions 1-3 下，潜变量条件均值 \(\mu_{z,s}(x)\) 被 sharp 地界定为 \([L_{z,s}(x), U_{z,s}(x)]\)，其中界由观测单元均值 \(m_{z,d}(x)\)、混合权重 \(w_{z,s}(x)\)（依赖 \(\theta(x)\)）与 bounding factor \(\text{BF}_{U}^{z,d}(x)\) 共同决定。直觉：观测均值是目标层与干扰层均值的加权混合，BF 限制了干扰层均值偏离目标层均值的倍数，结合 \(Y \in [0,1]\) 的截断，得到 sharp 界。技术难点：BF 必须穿透混合权重分解，且权重本身受 \(\theta(x)\) 调控。 2. Proposition 1 (嵌套性)：对任意有限 \(\text{BF} > 1\)，本文界严格嵌套于 Grilli & Mealli (2008) 最坏情况界内；随 \(\text{BF} \to \infty\) 收敛于最坏情况界。直觉：BF 参数化了从 PI 成立（BF=1，点识别）到最坏混杂（BF=\(\infty\)，大样本界）的连续谱系。 3. Theorem 2 (Cornfield-type 条件与 Principal E-value)：为使 PCE \(\Delta_s(x)\) 为零，未测混杂 \(U\) 必须满足 \(\min(\text{RR}_{SU}, \text{RR}_{UY}) \ge \Lambda_s^*(x)\) 且 \(\max(\text{RR}_{SU}, \text{RR}_{UY}) \ge \Lambda_s^*(x) + \sqrt{\Lambda_s^*(x)(\Lambda_s^*(x)-1)}\)。后者定义了 Principal E-value \(EV_s(x)\)。直觉：单一路径的无限强混杂不能抵消另一路径的弱混杂，必须两条路径同时达到阈值；E-value 给出了“解释掉因果效应所需的最小混杂风险比”的单变量汇总。

方法 / 证明骨架 1. 定义选择 RR（\(U\) 在目标层与干扰层的分布不平衡）与结局 RR（\(U\) 对 \(Y(z)\) 的最大期望风险比），构造 margin-free bounding factor \(\text{BF}\)。 2. 利用 Lemma 1（DV2016a 的推广），证明干扰层均值与目标层均值的比值被 BF 约束：\(1/\text{BF} \le \mu_{z,s'}/\mu_{z,s} \le \text{BF}\)。 3. 将观测单元均值 \(m_{z,d}\) 分解为 \(\mu_{z,s}\) 与 \(\mu_{z,s'}\) 的加权混合，权重 \(w_{z,s}\) 由 \(\theta(x)\) 与边际 principal scores 决定。 4. 将 Lemma 1 的比值约束代入混合分解，解出 \(\mu_{z,s}\) 的上下界，并结合 \(Y \in [0,1]\) 的约束（对 \(1-Y\) 同样操作取 min/max）得到 sharp 界。 5. 对 PGCE（乘积空间上的非线性对比），将两个独立复制的选择 RR 复合，定义三个 BF（单侧、双侧混杂），推导乘积空间上的混合分解与 Cornfield 阈值，证明 \(\gamma_{SU}^* < \gamma_{UY}^* < \Gamma^*\)（选择混杂比结局混杂更致命）。

🔎 结论是否比证明窄 - Discussion 中的 Future work 承认：作者明确指出当前框架仅针对二元中间变量，对连续中间变量“involves substantially different identification arguments (Lu et al., 2025; Zhang and Yang, 2025)”，但正文未给出任何连续情形的界或猜想。这是一个干净的窄结论缺口。 - 半参数估计的缺失：作者在 Discussion 提到“incorporating debiased machine learning estimators... would provide formal guarantees on convergence rates”，但正文的理论完全停留在非参数条件期望层面，未证明在半参数子模型下，当 nuisance functions（\(m_{z,d}(x)\), \(e_s(x)\)）收敛速率低于 \(n^{-1/4}\) 时，界的估计是否仍有效或需要 debiasing。这是一个被 claim 但未证明的泛泛陈述。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料 - 社区真在乎的开放问题：从被引文献看，Ding & VanderWeele (2016a/b) 的 E-value 范式在流行病学与因果推断社区已被广泛采纳（高引用），将其迁移至主分层是自然且被期待的方向。Tong et al. (2026) 与 Chen & Li (2026) 近期在主分层的半参数估计上发力，表明“主分层 + 机器学习/debiasing”是当前活跃 frontier。连续中间变量的主分层识别与估计（Lu et al. 2025; Zhang & Yang 2025）是近期 JRSSB 上的焦点，社区对非二元中间变量的突破有明确需求。 - 作者一家之言：将敏感性维度仅框定在 PI 违反（\(U\) 混杂 \(S\) 与 \(Y\)），而假设 Treatment ignorability（\(Z\) 的无混杂）成立。这在观察性研究中是强假设，Ding & VanderWeele (2014) 已处理 \(Z\) 的混杂，但本文未触及 \(Z\) 与 \(S\) 同时有未测混杂的联合敏感性。 - 建议：去读同子领域近期 5 篇 intro（Tong et al. 2026; Chen & Li 2026; Lu et al. 2025; Zhang & Yang 2025; Levis et al. 2025），看它们是否都指向“PI 假设的敏感性”或“连续中间变量的识别”。若都指向后者，则本文的二元中间变量敏感性框架虽完整，但可能已非社区最迫切的 frontier。

问题种子清单

(A) 立即可做 1. 问题表述：在半参数子模型（如 \(m_{z,d}(x)\) 属于光滑函数空间，\(e_s(x)\) 属于高维稀疏线性模型）下，证明本文非参数敏感性界的估计量（代入 nuisance 估计后）何时达到 \(n^{-1/2}\) 收敛速率，何时需要 debiased 校正？ - 扎根在本文哪里：Discussion 明确承认“model misspecification in these nuisance functions can distort the empirical bounds, and incorporating debiased machine learning estimators... would provide formal guarantees”，但未给出任何收敛速率或 debiasing 的理论。 - 攻它需要什么：方法：半参数效率界理论 + DML/cross-fitting；数据：模拟 + 真实数据；算力：普通。成本极低。 - 谁已经在附近做：Tong et al. (2026) 与 Chen & Li (2026) 已在主分层点识别（PI 下）做了半参数估计；Levis et al. (2025) 在 IV 设定下做了 debiased bounds。需自查拥挤度，但在 PI 违反的敏感性界下做 debiased 估计尚无文献。 - 武器库匹配 + 独特角度：very_familiar（高维渐近 / minimax bounds / estimation theory in causal inference）可直接动手。独特角度：研究者可计算敏感性界估计量的 influence function，判断是否需要 HOIF（若 nuisance 速率极慢），从而将界估计与高阶 U-统计量理论连接。

问题表述：推导 PCE 敏感性界估计量（基于 nuisance 估计代入）的 influence function，并构造一步估计器或 cross-fitted 估计器，给出置信带（confidence bands on sensitivity bounds）的构造方法。
扎根在本文哪里：Discussion 提到“enable valid inference via confidence bands on the sensitivity bounds”，但正文无任何推断理论。
攻它需要什么：方法：半参数理论 + M-estimation 理论；数据：模拟验证；算力：普通。
谁已经在附近做：Levis et al. (2025) 给了 IV bounds 的置信带；Ding & VanderWeele 系列未给 E-value 的半参数置信区间。拥挤度低。
武器库匹配 + 独特角度：moderately_familiar（semiparametric theory / M-estimation theory）。研究者可利用 estimation theory 经验，推导界的渐近分布，并利用 minimax 思维评估置信带在有限样本下的覆盖率。

(B) 中期可做 1. 问题表述：将本文的 margin-free bounding factor 与 \(\theta(x)\) 敏感性框架，推广至连续中间变量的主分层设定，推导连续潜变量层均值的 sharp 非参数界。 - 扎根在本文哪里：Discussion 明确指出“Extending the margin-free bounding parameters to continuous intermediate variables requires evaluating the confounding penalties over a continuous latent mixture, which involves substantially different identification arguments (Lu et al., 2025; Zhang and Yang, 2025)”。 - 攻它需要什么：方法：连续潜变量的识别理论 + 测度论下的 Radon-Nikodym 导数处理；数据：模拟；算力：普通。需补 1-2 篇文献：Lu et al. (2025, JRSSB) 与 Zhang & Yang (2025, JRSSB)，理解连续主分层的点识别框架，再引入 BF 穿透连续混合分布。 - 谁已经在附近做：Lu et al. (2025) 与 Zhang & Yang (2025) 刚发表连续主分层的点识别与半参数估计，但未做敏感性分析。拥挤度极低，是明显 gap。 - 武器库匹配 + 独特角度：moderately_familiar（identification theory in causal inference）。补完连续主分层的识别文献后，可复用本文“BF 穿透混合权重”的核心逻辑，但混合权重需从概率推广为密度/分布函数。研究者对 inverse problems with random noise 的熟悉度可能有助于处理连续混合的解卷积问题。

(C) 暂不建议 1. 问题表述：在 \(Z\) 与 \(S\) 均存在未测混杂（即 Treatment ignorability 与 PI 同时违反）时，推导 PCE 的联合敏感性界。 - 扎根在本文哪里：Assumption 1 假设 \(Z\) 无混杂，作者声明“Violations of this assumption... will therefore not be explored here”。 - 攻它需要什么：核心机器缺：联合混杂下的非参数识别理论，需处理 \(Z\) 的未测混杂 \(V\) 与 \(S\) 的未测混杂 \(U\) 可能相关，且 \(V\) 同时影响 \(D\) 与 \(Y\) 的复杂 DAG 结构。现有 DV 范式仅处理单一路径的混杂。 - 为何不易绕过：从武器库内，identification theory 可处理单变量混杂，但双混杂 \((U, V)\) 且存在中间变量 \(D\) 的联合界推导，需极强的 DAG 代数与多变量 RR 的联合约束，技术路径不清晰，且极易退化为无信息的最坏情况界。

迁移视角 - 方法 T：本文的“margin-free bounding factor 穿透混合权重分解 + 跨世界 odds ratio \(\theta(x)\) 参数化”的敏感性界推导技术。 - 目标领域：中介分析的敏感性分析。 - 为什么可行：中介分析（Mediation analysis）中，自然直接/间接效应的识别同样依赖跨世界独立性假设（如 \(Y(1, M(0)) \perp M(0) | X\)），且存在中间变量 \(M\) 的混合结构。Ding & VanderWeele (2016b) 已将 BF 用于中介敏感性，但未引入类似 \(\theta(x)\) 的跨世界依赖参数。研究者可将本文的 \(\theta(x)\) 敏感性维度迁移至中介分析，量化 \(M(1)\) 与 \(M(0)\) 依赖对自然间接效应界的影响，这在中介分析文献中是缺失的。研究者对因果推断 identification theory 的熟悉度使得此迁移的技术门槛可控。

四、延伸与下一步¶

沿引用链的阅读路线 1. 地基（先读）： - Frangakis & Rubin (2002)：理解主分层的根本动机与潜变量定义。 - Ding & VanderWeele (2016a)：理解 bounding factor 与 E-value 的原始范式，这是本文的核心工具来源。 - Ding & Lu (2016)：理解 PI 假设的定义与点识别逻辑，本文是对其的放松。 2. Frontier（后读）： - Grilli & Mealli (2008) + Long & Hudgens (2013)：理解本文界所嵌套的“最坏情况界”的具体形式，以便对比。 - Chen & Li (2026) + Tong et al. (2026)：理解当前主分层在 PI 下的半参数估计 frontier，为做 debiased bounds 估计铺垫。 - Lu et al. (2025) + Zhang & Yang (2025)：理解连续中间变量的主分层识别，为连续敏感性界铺垫。

假设扰动 - 改动假设：将 Assumption 1（Treatment ignorability）放松，允许 \(Z\) 存在未测混杂 \(V\)。 - 结论变化：观测单元均值 \(m_{z,d}(x)\) 将不再是目标层与干扰层均值的简单混合，因为 \(Z\) 的混杂会扭曲 \(Z\) 对 \(D\) 和 \(Y\) 的效应识别，principal scores \(e_s(x)\) 的点识别也将失效（除非有 IV）。整个界的推导基础崩塌，需重新建立 \(Z\) 与 \(S\) 双重混杂下的识别域。 - 需要的新工具：工具变量下的主分层识别理论（如 Levis et al. 2025 的 IV bounds），结合 DV 的 bounding factor。 - 落入哪一档：C 档（暂不建议），因双混杂下的非参数界推导技术路径不清晰，极易退化为无信息界。

理解检测题 在本文的设定下（Assumptions 1-3 成立），假设你只关心 stratum \(s=10\)（complier）的 PCE \(\Delta_{10}(x)\)，且已知单调性成立（\(\theta(x) \to \infty\)）。请写出 \(\Delta_{10}(x)\) 的敏感性下界 \(L_{1,10}(x) - U_{0,10}(x)\) 的显式表达式（用 \(m_{1,1}(x), m_{0,0}(x), p_1(x), p_0(x)\) 与 \(\text{BF}_{U}^{1,1}(x), \text{BF}_{U}^{0,0}(x)\) 表示），并解释：当 \(\text{BF}_{U}^{1,1}(x) = \text{BF}_{U}^{0,0}(x) = B\) 时，下界如何随 \(B\) 变化？当 \(B \to \infty\) 时，下界收敛到什么？这如何体现 Proposition 2 所说的“单调性对 falsification 是最坏情况”？

Maintained by 陈星宇 · Homepage · Source on GitHub

Beyond principal ignorability: Nonparametric sensitivity bounds for principal stratification¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论