Implementing the principal stratum strategy for intercurrent events with survival outcomes: a tutorial¶

作者: Xiaoxiao Zhou, Joyce Chen, Pallavi Mishra-Kalyani, Xiaoxue Li, Yuan Li Shen, Shu Wang, Susan Halabi, Fan Li
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.27655

一、领域脉络与小综述¶

这个方向是什么： Principal stratification（主分层）要解决的根本统计问题是：当干预后发生的中介/并发事件（intercurrent event, ICE，如治疗中断、疾病进展、死亡）既影响结局又受干预影响时，如何定义并估计一个有因果解释的亚群效应。由于 ICE 的潜在状态 \(U_i = (D_i(0), D_i(1))\) 不可观测，目标人群（如"无论分配如何都会坚持服药者"）是潜在的，直接按观测 ICE 分层会产生选择偏差。该方向当前成熟度：理论框架已建立 20 年，但针对生存结局的 identification 与 estimation 仍高度依赖不可检验的结构假设，且有限样本下操作特征（方差、收敛）极差，实践落地远落后于理论。

发展脉络： 1. 奠基工作：Frangakis & Rubin (2002) [7] 提出 Principal Stratification 框架，将因果效应定义在联合潜在 ICE 状态的子群上，解决了 post-treatment selection bias；Angrist, Imbens & Rubin (1996) [28] 引入 Monotonicity + Exclusion Restriction (ER) 将 IV 估计解释为 Complier 平均因果效应（CACE），为主分层提供了最早的 identification 路径。 2. 主要进展： - Mixture model 路径：Imbens & Rubin (1997) [11] 发展了 Bayesian mixture model 估计；Zhang, Rubin & Mealli (2009) [8] 将其推广至更一般设定；Mattei, Li & Mealli (2013) [12] 利用多结局改善混合成分的分离。 - Weighting 路径：Jo & Stuart (2009) [13] 引入 principal score；Ding & Lu (2017) [14] 发展了基于 principal score 的加权与匹配；Jiang, Yang & Ding (2022) [9] 提出了 multiply robust principal score weighting 估计。 3. 当前 frontier（生存结局）：Liu, Wruck & Li (2024) [27] 开发了生存结局下 mixture model 的 Bayesian 估计及 PStrataR 包；Cheng et al. (2024/2026) [15,17] 开发了生存结局下 multiply robust weighting 估计及 mrPStrataR 包，填补了时间-事件数据的工具空白。 4. 本文的位置：本文是一篇 Tutorial，首次系统梳理在 ICH E9(R1) estimand 框架下，针对生存结局与二值 ICE 的 principal stratum strategy 的 identification、estimation（mixture vs weighting）与敏感性分析，并提供了 R 代码与模拟操作特征。

子线索聚类： 1. Mixture model 簇：基于潜在类别模型参数化 \(U\) 与结局，依赖 ER 或 Monotonicity 削减混合成分，使用 EM 或 MCMC 求解。代表：[8, 11, 12, 27]。 2. Principal score weighting 簇：基于 Principal Ignorability (PI) 假设，将不可观测的 \(U\) 替换为可估的 principal score \(\pi_u(X)\)，使用 IPW 或 multiply robust 估计。代表：[9, 13, 14, 15]。 3. 概念争议簇：质疑主分层因果效应的透明度与假设合理性，主张用 mediation 替代。代表：Vansteelandt & Van Lancker (2025) [20] 称之为 "chasing shadows"；Stensrud & Dukes (2022) [3] 推荐 mediation；VanderWeele (2011) [21] 与 Ding & Lu (2025) [22] 则持平衡观点，认为主分层可提供 ITT 无法捕捉的异质性。

这个方向在追问的核心问题： 1. Identification：在何种最少假设下，SPCE (Survival Principal Causal Effect) 可非参数识别？当前瓶颈：Monotonicity 与 ER/PI 均不可检验，且在生存结局下 censoring 进一步增加识别难度。 2. Estimation efficiency & robustness：如何在依赖大量工作模型（strata, outcome, censoring, propensity）下构造高效且多重稳健的估计？当前瓶颈：mixture model 方差极大（小成分几乎不可估）；weighting 方法虽有多重稳健性，但依赖 PI，且当前仅限 binary ICE + monotonicity。 3. Sensitivity analysis：如何系统量化核心假设偏离对 SPCE 的影响？当前瓶颈：敏感性参数（如 \(\zeta, \xi\)）的选取缺乏数据驱动准则。

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为"理论到实践的鸿沟"（regulatory studies 中 principal stratum strategy poorly understood），好让这篇 Tutorial 成为"显然的下一步"。 - 被淡化的竞争路线：Mediation analysis（[3, 20] 提倡）被仅在 Section 1 一句话提及后搁置；Hypothetical strategy（[19] 对比过）未被深入比较。 - 缺失的引用：Intro 缺少对半参数效率理论（semiparametric efficiency bounds for principal effects）的引用——这是一个显然该存在的理论支柱，用于评判 mixture 与 weighting 的效率；也缺少对高维协变量下 principal score 估计（如 double/debiased ML）的引用，而这在现代因果推断中已是标配。

张力：未见明显对立引用。Mixture model 与 Weighting 路径依赖不同假设（ER vs PI），在假设满足时均能识别，但假设不可检验且互不包含，形成"假设选择"而非"结论矛盾"的张力。概念争议簇（[20] vs [22]）存在立场对立，但非技术结论冲突。

二、这篇论文做了什么¶

类型：方法型 Tutorial（含理论梳理、模拟、实证与代码）。

三句话： ① 研究了在 ICH E9(R1) estimand 框架下，针对生存结局与二值 ICE（治疗中断）的 principal stratum causal effect 的 identification 与 estimation。 ② 核心工具是 Bayesian mixture model（依赖 ER/Monotonicity）与 multiply robust principal score weighting（依赖 PI/Monotonicity）。 ③ 主要结论是：两种方法定性结论一致，但 weighting 精度远高于 mixture；小比例 stratum（如 01, 10）的效应估计极不稳定；敏感性分析显示结果对假设偏离有一定鲁棒性。

关键设定与假设： - 设定：二值干预 \(Z\)，二值 ICE \(D\)，生存结局 \(T\)，删失 \(C\)，基线协变量 \(X\)。潜在主分层 \(U = (D(0), D(1)) \in \{00, 01, 10, 11\}\)。目标 estimand：SPCE \(\tau_u^{SPCE}(t) = S_{1,u}(t) - S_{0,u}(t)\)。 - Assumption 1 (Unconfounded assignment)：\(Z \perp \{T(0), T(1), D(0), D(1)\} | X\)。随机化下成立。 - Assumption 2 (Monotonicity)：\(D(1) \geq D(0)\)。排除 10 stratum。统计含义：干预更易诱发 ICE。 - Assumption 3 (Cond. independent censoring)：\(T(z) \perp C(z) | \{Z, U, X\}\)。允许在 stratum + covariate 内独立删失。 - Assumption 4 (Exclusion Restriction, ER)：\(S_{0,11}(t) = S_{1,11}(t)\)。Mixture model 路径核心假设，含义：对 always-discontinuer，干预无效应。 - Assumption 5 (Principal Ignorability, PI)：\(Pr(T(1) \geq t | U=11, X) = Pr(T(1) \geq t | U=01, X)\) 且 \(Pr(T(0) \geq t | U=01, X) = Pr(T(0) \geq t | U=00, X)\)。Weighting 路径核心假设，含义：条件于 \(X\)，潜在结局在共享同一观测 ICE 潜在状态的 strata 间无差异。 - 放宽/强化：相比经典非删失设定，Assumption 3 是生存结局特有的强化；PI 在生存时间上逐点定义，比连续结局更强。

主要结果： 1. Mixture model 估计：Algorithm 1。使用 Multinomial logistic strata model (Eq 4) + Weibull-Cox outcome model (Eq 6)，通过 HMC/MCMC 采样 \(U\) 与参数。ER 假设通过约束 \((ϕ_{0,11}, ψ_{0,11}, γ_{0,11}) = (ϕ_{1,11}, ψ_{1,11}, γ_{1,11})\) 实现。直觉：将观测 \((Z, D)\) 细胞视为两个 strata 的混合，用模型分离。技术难点：混合模型的多峰后验与标签切换。 2. Multiply robust weighting 估计：Algorithm 2 + Appendix Eq 15-23。需估四个模型：propensity \(e(X)\), principal score \(p_z(X)\) (映射为 \(\pi_u(X)\) via Eq 9), outcome \(S_{z,d}(t|X)\), censoring \(S^C_{z,d}(t|X)\)。估计量形如 \(\hat{S}^{mr}_{z,u}(t) = P_n[\text{复杂加权与增广项}]\)。直觉：将不可观测的 \(U\) 替换为可估的 \(\pi_u(X)\)，再用 IPW + outcome regression + censoring augmentation 构造多重稳健。技术难点：四个模型任一错可能导致偏差，但某些组合错下仍一致。 3. 敏感性分析：PI 偏离用 \(\epsilon_z(t, X) = \exp(\xi_z \times t/t_{max})\) (Eq 13) 量化；Monotonicity 偏离用 \(\zeta(X) = \pi_{10}(X)/\pi_{01}(X)\) (Eq 14) 量化。

方法/证明骨架： 1. 定义 SPCE estimand 并展示观测细胞是 strata 的混合。 2. Mixture 路径：参数化 strata 与 outcome 模型 → MCMC 采样 \(U\) 与参数 → 后验预测 \(S_{z,u}(t)\)。 3. Weighting 路径：在 PI + Monotonicity 下证明 \(S_{z,u}(t)\) 非参数识别 → 构造 multiply robust influence function → plug-in 估计。 4. 模拟与实证：CALGB 90206 试验再分析，比较两方法操作特征。

🔎 结论是否比证明窄： - 窄结论 1：Section 4 声称 weighting 估计是 "multiply robust"，但 Appendix Eq 15-23 的具体形式仅在所有四个模型中特定组合正确下才一致（如 outcome + censoring 模型正确，或 principal score + propensity 模型正确），并未证明"任意三个错一个对仍一致"。作者泛泛 claim "multiply robust"，但严格证明仅覆盖部分组合。 - 窄结论 2：Section 7 模拟中，作者设定"PI 与 ER 不完全成立但偏离不严重"，得出"两方法仍能恢复真实效应"。这是一个在特定参数设定下的模拟结论，却被泛泛陈述为"mild violation 下 robust"。缺乏对偏离程度（如 \(\xi\) 真实值）与偏差大小的理论量化。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料： - 反复出现 / 社区真在乎的问题：Principal stratification 的 identification 假设（ER, PI, Monotonicity）不可检验，且小 stratum 估计方差极大——这在 [11], [14], [27] 中反复出现，是共识性真 gap。敏感性分析缺乏数据驱动准则也是共识。 - 作者一家之言：Tutorial 本身填补"实践鸿沟"的需求是真实的（regulatory 社区确实困惑），但"两方法定性一致"仅在该数据集与模拟设定下成立，非普遍结论。 - 提醒：要确认"小 stratum 估计极不稳定"是否真 gap，去读 [27] 与 [9] 的 intro——它们都指向同一问题（mixture model 方差大、小成分不可估），这是共识。要确认"PI vs ER 哪个更合理"，读 [20] 与 [22]——它们打架，这是机会。

问题种子清单：

(A) 立即可做（用 very_familiar 就能动手）：

问题表述：推导生存结局下 SPCE 的半参数效率界（semiparametric efficiency bound），并据此构造 one-step estimator 或 TMLE，与现有 mixture 与 weighting 估计比较效率。
扎根在本文哪里：Section 3 & 4 给出了两类估计，但完全缺失效率理论分析——既未推导效率界，也未证明现有估计是否达到界。Intro 缺失对效率理论的引用。
攻它需要什么：very_familiar 的 estimation theory in causal inference + high-dimensional asymptotics；数据：可用本文模拟设定；算力：普通笔记本。
谁已经在附近做：Jiang et al. (2022) [9] 对非删失结局推导了 multiply robust 估计，但未给效率界；需自查拥挤度（semiparametric efficiency for principal effects 可能仅有零星工作）。
武器库匹配 + 独特角度：very_familiar 的 estimation theory + high-dimensional asymptotics 可直接推导 tangent space 与效率界；独特角度：现有工作均未触及生存结局下 SPCE 的效率界，这是空白。
问题表述：将 principal score weighting 中的四个工作模型替换为双稳健/去偏机器学习（如 cross-fitted debiased ML），并在高维 \(X\) 下证明其 \(\sqrt{n}\)-一致性与多重稳健性。
扎根在本文哪里：Algorithm 2 使用 logistic/Cox 工作模型，Section 4 声称 "multiply robust"，但高维 \(X\) 下这些参数模型极易错，且未讨论高维设定。
攻它需要什么：very_familiar 的高维渐近 + software development（实现 cross-fitting）；数据：模拟 + CALGB 数据；算力：中等。
谁已经在附近做：需自查拥挤度（debiased ML for principal score 可能无人做）。
武器库匹配 + 独特角度：very_familiar 的高维渐近可直接分析 cross-fitted estimator 的渐近分布；独特角度：将现代高维因果推断工具引入 principal stratification，该子领域几乎全是低维参数模型。

(B) 中期可做（需补 moderately_familiar 的具体块）：

问题表述：利用高阶影响函数 (HOIF) 构造 SPCE 的更高阶稳健估计，量化 PI 假设偏离下的偏差缩减率。
扎根在本文哪里：Section 4 的 PI 假设是 weighting 路径的命门；Eq 13 的敏感性分析仅用标量 \(\xi\) 手动调参，缺乏理论化的偏差修正。
攻它需要什么：需补 HOIF 在生存结局下的具体表达式（当前武器库 moderately_familiar HOIF 是对连续/二值结局的，生存结局需推导）+ 补 1-2 篇 HOIF 原始文献（如 Robins et al. 2008, 2017）+ 补完后推导 SPCE 的 2nd-order influence function，构造 bias-corrected estimator。
谁已经在附近做：HOIF 在 principal stratification 中几乎无人用；需自查。
武器库匹配 + 独特角度：moderately_familiar 的 HOIF 理论 + very_familiar 的 higher-order U-statistics computation (treewidth/einsum)——独特角度：HOIF 估计涉及高阶 U-统计量计算，研究者有独特的 tensor contraction 视角来优化计算复杂度，这是别人没有的。
问题表述：在放宽 Monotonicity（允许 10 stratum 存在）下，推导 PI 的 identification 条件与 multiply robust 估计。
扎根在本文哪里：Section 4 明确说 "current software for weighting method requires monotonicity"（第 18 页），且 Eq 14 的敏感性分析仅在固定 \(\zeta\) 下做，未给出无 Monotonicity 下的正式估计。
攻它需要什么：需补 identification theory in causal inference（moderately_familiar）中关于 4-strata 无 Monotonicity 下的识别条件推导 + 补 Ding & Lu (2017) [14] 的非单调设定讨论 + 补完后构造 4-strata 下的 multiply robust estimator。
谁已经在附近做：Ding & Lu (2017) [14] 讨论过非单调，但未给生存结局的 MR 估计；需自查。
武器库匹配 + 独特角度：moderately_familiar 的 identification theory 可推导识别条件；独特角度：从识别理论出发，而非纯参数模型，给出更一般的估计。

(C) 暂不建议：

问题表述：在无 Monotonicity + 无 ER + 无 PI 下，仅靠分布假设（如参数化 survival model）识别 SPCE。
核心机器缺什么：缺混合模型非参数识别的理论工具——4 个 strata 2 个观测细胞，非参数下不可识别，需极强参数假设；且生存结局的混合模型标签切换与多峰后验无解析解。
为何不易绕过：这是本质的欠识别问题，非计算可绕过。

迁移视角（多样性的来源）： - 方法 T：Multiply robust principal score weighting + sensitivity analysis for PI。 - 目标领域：流行病学中的 longitudinal treatment adherence 与生存结局（如 HIV 队列中服药坚持性与死亡率）。 - 为什么可行：流行病学队列中 ICE（中断/换药）极常见，且往往有丰富基线与时间依赖协变量，PI 假设更易辩护；研究者有 epidemiology (secondary interest) + causal inference estimation theory (very_familiar) 的交叉背景，可将该 Tutorial 的工具直接迁移到流行病学数据集，并嵌入 debiased ML 提升鲁棒性——这在该领域尚未出现。

四、延伸与下一步¶

沿引用链的阅读路线： 1. 地基（先读）： - Frangakis & Rubin (2002) [7]：主分层框架原始定义。 - Angrist, Imbens & Rubin (1996) [28]：IV/ER/Monotonicity 的经典设定。 - Ding & Lu (2017) [14]：Principal score 方法的基础与非单调讨论。 2. Frontier（再读）： - Jiang, Yang & Ding (2022) [9]：Multiply robust 估计的非删失版本。 - Liu, Wruck & Li (2024) [27]：生存结局下 mixture model 的 Bayesian 估计。 - Cheng et al. (2026) [17]：生存结局下 multiply robust 估计的理论证明。 - Vansteelandt & Van Lancker (2025) [20] + Ding & Lu (2025) [22]：概念争议，理解社区对主分层的质疑与辩护。

假设扰动： - 改动假设：Assumption 5 (Principal Ignorability) → 改为"PI 在部分协变量子集上成立"（即 \(Pr(T(1) \geq t | U=11, V) = Pr(T(1) \geq t | U=01, V)\)，其中 \(V \subset X\) 是临床已知预测变量，而非全部 \(X\)）。 - 结论变化：识别条件放宽，但需对剩余混淆建模；估计需构造 partial PI 下的 influence function。 - 需要新工具：Partial PI 下的非参数识别理论 + conditional influence function 推导。 - 落入哪一档：B 档——需补 identification theory (moderately_familiar) 中 partial conditional independence 的推导，补完后可构造估计。

理解检测题：在 CALGB 90206 试验中，假设 Monotonicity 成立（无 10 stratum），但 PI 不成立：已知 always-discontinuer (11) 的潜在生存概率在控制臂下比 defier (01) 低 20%（即 \(S_{0,11}(t) = 0.8 \times S_{0,01}(t)\) 在所有 \(t\)）。请写出在此偏离下，\(\hat{S}^{mr}_{0,00}(t)\)（Eq 18-19）的解析偏差表达式（用 \(\pi_u(X), S_{z,d}(t|X)\) 与偏离系数 0.8 表示），并指出偏差在哪个时间点 \(t\) 最大。

Maintained by 陈星宇 · Homepage · Source on GitHub

Implementing the principal stratum strategy for intercurrent events with survival outcomes: a tutorial¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论