跳转至

Implementing the principal stratum strategy for intercurrent events with survival outcomes: a tutorial

作者: Xiaoxiao Zhou, Joyce Chen, Pallavi Mishra-Kalyani, Xiaoxue Li, Yuan Li Shen, Shu Wang, Susan Halabi, Fan Li
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.27655


一、领域脉络与小综述

这个方向是什么: Principal stratification(主分层)要解决的根本统计问题是:当干预后发生的中介/并发事件(intercurrent event, ICE,如治疗中断、疾病进展、死亡)既影响结局又受干预影响时,如何定义并估计一个有因果解释的亚群效应。由于 ICE 的潜在状态 \(U_i = (D_i(0), D_i(1))\) 不可观测,目标人群(如"无论分配如何都会坚持服药者")是潜在的,直接按观测 ICE 分层会产生选择偏差。该方向当前成熟度:理论框架已建立 20 年,但针对生存结局的 identification 与 estimation 仍高度依赖不可检验的结构假设,且有限样本下操作特征(方差、收敛)极差,实践落地远落后于理论。

发展脉络: 1. 奠基工作:Frangakis & Rubin (2002) [7] 提出 Principal Stratification 框架,将因果效应定义在联合潜在 ICE 状态的子群上,解决了 post-treatment selection bias;Angrist, Imbens & Rubin (1996) [28] 引入 Monotonicity + Exclusion Restriction (ER) 将 IV 估计解释为 Complier 平均因果效应(CACE),为主分层提供了最早的 identification 路径。 2. 主要进展: - Mixture model 路径:Imbens & Rubin (1997) [11] 发展了 Bayesian mixture model 估计;Zhang, Rubin & Mealli (2009) [8] 将其推广至更一般设定;Mattei, Li & Mealli (2013) [12] 利用多结局改善混合成分的分离。 - Weighting 路径:Jo & Stuart (2009) [13] 引入 principal score;Ding & Lu (2017) [14] 发展了基于 principal score 的加权与匹配;Jiang, Yang & Ding (2022) [9] 提出了 multiply robust principal score weighting 估计。 3. 当前 frontier(生存结局):Liu, Wruck & Li (2024) [27] 开发了生存结局下 mixture model 的 Bayesian 估计及 PStrataR 包;Cheng et al. (2024/2026) [15,17] 开发了生存结局下 multiply robust weighting 估计及 mrPStrataR 包,填补了时间-事件数据的工具空白。 4. 本文的位置:本文是一篇 Tutorial,首次系统梳理在 ICH E9(R1) estimand 框架下,针对生存结局与二值 ICE 的 principal stratum strategy 的 identification、estimation(mixture vs weighting)与敏感性分析,并提供了 R 代码与模拟操作特征。

子线索聚类: 1. Mixture model 簇:基于潜在类别模型参数化 \(U\) 与结局,依赖 ER 或 Monotonicity 削减混合成分,使用 EM 或 MCMC 求解。代表:[8, 11, 12, 27]。 2. Principal score weighting 簇:基于 Principal Ignorability (PI) 假设,将不可观测的 \(U\) 替换为可估的 principal score \(\pi_u(X)\),使用 IPW 或 multiply robust 估计。代表:[9, 13, 14, 15]。 3. 概念争议簇:质疑主分层因果效应的透明度与假设合理性,主张用 mediation 替代。代表:Vansteelandt & Van Lancker (2025) [20] 称之为 "chasing shadows";Stensrud & Dukes (2022) [3] 推荐 mediation;VanderWeele (2011) [21] 与 Ding & Lu (2025) [22] 则持平衡观点,认为主分层可提供 ITT 无法捕捉的异质性。

这个方向在追问的核心问题: 1. Identification:在何种最少假设下,SPCE (Survival Principal Causal Effect) 可非参数识别?当前瓶颈:Monotonicity 与 ER/PI 均不可检验,且在生存结局下 censoring 进一步增加识别难度。 2. Estimation efficiency & robustness:如何在依赖大量工作模型(strata, outcome, censoring, propensity)下构造高效且多重稳健的估计?当前瓶颈:mixture model 方差极大(小成分几乎不可估);weighting 方法虽有多重稳健性,但依赖 PI,且当前仅限 binary ICE + monotonicity。 3. Sensitivity analysis:如何系统量化核心假设偏离对 SPCE 的影响?当前瓶颈:敏感性参数(如 \(\zeta, \xi\))的选取缺乏数据驱动准则。

⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为"理论到实践的鸿沟"(regulatory studies 中 principal stratum strategy poorly understood),好让这篇 Tutorial 成为"显然的下一步"。 - 被淡化的竞争路线:Mediation analysis([3, 20] 提倡)被仅在 Section 1 一句话提及后搁置;Hypothetical strategy([19] 对比过)未被深入比较。 - 缺失的引用:Intro 缺少对半参数效率理论(semiparametric efficiency bounds for principal effects)的引用——这是一个显然该存在的理论支柱,用于评判 mixture 与 weighting 的效率;也缺少对高维协变量下 principal score 估计(如 double/debiased ML)的引用,而这在现代因果推断中已是标配。

张力: 未见明显对立引用。Mixture model 与 Weighting 路径依赖不同假设(ER vs PI),在假设满足时均能识别,但假设不可检验且互不包含,形成"假设选择"而非"结论矛盾"的张力。概念争议簇([20] vs [22])存在立场对立,但非技术结论冲突。


二、这篇论文做了什么

类型:方法型 Tutorial(含理论梳理、模拟、实证与代码)。

三句话: ① 研究了在 ICH E9(R1) estimand 框架下,针对生存结局与二值 ICE(治疗中断)的 principal stratum causal effect 的 identification 与 estimation。 ② 核心工具是 Bayesian mixture model(依赖 ER/Monotonicity)与 multiply robust principal score weighting(依赖 PI/Monotonicity)。 ③ 主要结论是:两种方法定性结论一致,但 weighting 精度远高于 mixture;小比例 stratum(如 01, 10)的效应估计极不稳定;敏感性分析显示结果对假设偏离有一定鲁棒性。

关键设定与假设: - 设定:二值干预 \(Z\),二值 ICE \(D\),生存结局 \(T\),删失 \(C\),基线协变量 \(X\)。潜在主分层 \(U = (D(0), D(1)) \in \{00, 01, 10, 11\}\)。目标 estimand:SPCE \(\tau_u^{SPCE}(t) = S_{1,u}(t) - S_{0,u}(t)\)。 - Assumption 1 (Unconfounded assignment)\(Z \perp \{T(0), T(1), D(0), D(1)\} | X\)。随机化下成立。 - Assumption 2 (Monotonicity)\(D(1) \geq D(0)\)。排除 10 stratum。统计含义:干预更易诱发 ICE。 - Assumption 3 (Cond. independent censoring)\(T(z) \perp C(z) | \{Z, U, X\}\)。允许在 stratum + covariate 内独立删失。 - Assumption 4 (Exclusion Restriction, ER)\(S_{0,11}(t) = S_{1,11}(t)\)。Mixture model 路径核心假设,含义:对 always-discontinuer,干预无效应。 - Assumption 5 (Principal Ignorability, PI)\(Pr(T(1) \geq t | U=11, X) = Pr(T(1) \geq t | U=01, X)\)\(Pr(T(0) \geq t | U=01, X) = Pr(T(0) \geq t | U=00, X)\)。Weighting 路径核心假设,含义:条件于 \(X\),潜在结局在共享同一观测 ICE 潜在状态的 strata 间无差异。 - 放宽/强化:相比经典非删失设定,Assumption 3 是生存结局特有的强化;PI 在生存时间上逐点定义,比连续结局更强。

主要结果: 1. Mixture model 估计:Algorithm 1。使用 Multinomial logistic strata model (Eq 4) + Weibull-Cox outcome model (Eq 6),通过 HMC/MCMC 采样 \(U\) 与参数。ER 假设通过约束 \((ϕ_{0,11}, ψ_{0,11}, γ_{0,11}) = (ϕ_{1,11}, ψ_{1,11}, γ_{1,11})\) 实现。直觉:将观测 \((Z, D)\) 细胞视为两个 strata 的混合,用模型分离。技术难点:混合模型的多峰后验与标签切换。 2. Multiply robust weighting 估计:Algorithm 2 + Appendix Eq 15-23。需估四个模型:propensity \(e(X)\), principal score \(p_z(X)\) (映射为 \(\pi_u(X)\) via Eq 9), outcome \(S_{z,d}(t|X)\), censoring \(S^C_{z,d}(t|X)\)。估计量形如 \(\hat{S}^{mr}_{z,u}(t) = P_n[\text{复杂加权与增广项}]\)。直觉:将不可观测的 \(U\) 替换为可估的 \(\pi_u(X)\),再用 IPW + outcome regression + censoring augmentation 构造多重稳健。技术难点:四个模型任一错可能导致偏差,但某些组合错下仍一致。 3. 敏感性分析:PI 偏离用 \(\epsilon_z(t, X) = \exp(\xi_z \times t/t_{max})\) (Eq 13) 量化;Monotonicity 偏离用 \(\zeta(X) = \pi_{10}(X)/\pi_{01}(X)\) (Eq 14) 量化。

方法/证明骨架: 1. 定义 SPCE estimand 并展示观测细胞是 strata 的混合。 2. Mixture 路径:参数化 strata 与 outcome 模型 → MCMC 采样 \(U\) 与参数 → 后验预测 \(S_{z,u}(t)\)。 3. Weighting 路径:在 PI + Monotonicity 下证明 \(S_{z,u}(t)\) 非参数识别 → 构造 multiply robust influence function → plug-in 估计。 4. 模拟与实证:CALGB 90206 试验再分析,比较两方法操作特征。

🔎 结论是否比证明窄: - 窄结论 1:Section 4 声称 weighting 估计是 "multiply robust",但 Appendix Eq 15-23 的具体形式仅在所有四个模型中特定组合正确下才一致(如 outcome + censoring 模型正确,或 principal score + propensity 模型正确),并未证明"任意三个错一个对仍一致"。作者泛泛 claim "multiply robust",但严格证明仅覆盖部分组合。 - 窄结论 2:Section 7 模拟中,作者设定"PI 与 ER 不完全成立但偏离不严重",得出"两方法仍能恢复真实效应"。这是一个在特定参数设定下的模拟结论,却被泛泛陈述为"mild violation 下 robust"。缺乏对偏离程度(如 \(\xi\) 真实值)与偏差大小的理论量化。


三、值不值得做 / 研究者能做什么

领域层面的判断材料: - 反复出现 / 社区真在乎的问题:Principal stratification 的 identification 假设(ER, PI, Monotonicity)不可检验,且小 stratum 估计方差极大——这在 [11], [14], [27] 中反复出现,是共识性真 gap。敏感性分析缺乏数据驱动准则也是共识。 - 作者一家之言:Tutorial 本身填补"实践鸿沟"的需求是真实的(regulatory 社区确实困惑),但"两方法定性一致"仅在该数据集与模拟设定下成立,非普遍结论。 - 提醒:要确认"小 stratum 估计极不稳定"是否真 gap,去读 [27] 与 [9] 的 intro——它们都指向同一问题(mixture model 方差大、小成分不可估),这是共识。要确认"PI vs ER 哪个更合理",读 [20] 与 [22]——它们打架,这是机会。

问题种子清单

(A) 立即可做(用 very_familiar 就能动手):

  1. 问题表述:推导生存结局下 SPCE 的半参数效率界(semiparametric efficiency bound),并据此构造 one-step estimator 或 TMLE,与现有 mixture 与 weighting 估计比较效率。
  2. 扎根在本文哪里:Section 3 & 4 给出了两类估计,但完全缺失效率理论分析——既未推导效率界,也未证明现有估计是否达到界。Intro 缺失对效率理论的引用。
  3. 攻它需要什么:very_familiar 的 estimation theory in causal inference + high-dimensional asymptotics;数据:可用本文模拟设定;算力:普通笔记本。
  4. 谁已经在附近做:Jiang et al. (2022) [9] 对非删失结局推导了 multiply robust 估计,但未给效率界;需自查拥挤度(semiparametric efficiency for principal effects 可能仅有零星工作)。
  5. 武器库匹配 + 独特角度:very_familiar 的 estimation theory + high-dimensional asymptotics 可直接推导 tangent space 与效率界;独特角度:现有工作均未触及生存结局下 SPCE 的效率界,这是空白。

  6. 问题表述:将 principal score weighting 中的四个工作模型替换为双稳健/去偏机器学习(如 cross-fitted debiased ML),并在高维 \(X\) 下证明其 \(\sqrt{n}\)-一致性与多重稳健性。

  7. 扎根在本文哪里:Algorithm 2 使用 logistic/Cox 工作模型,Section 4 声称 "multiply robust",但高维 \(X\) 下这些参数模型极易错,且未讨论高维设定。
  8. 攻它需要什么:very_familiar 的高维渐近 + software development(实现 cross-fitting);数据:模拟 + CALGB 数据;算力:中等。
  9. 谁已经在附近做:需自查拥挤度(debiased ML for principal score 可能无人做)。
  10. 武器库匹配 + 独特角度:very_familiar 的高维渐近可直接分析 cross-fitted estimator 的渐近分布;独特角度:将现代高维因果推断工具引入 principal stratification,该子领域几乎全是低维参数模型。

(B) 中期可做(需补 moderately_familiar 的具体块):

  1. 问题表述:利用高阶影响函数 (HOIF) 构造 SPCE 的更高阶稳健估计,量化 PI 假设偏离下的偏差缩减率。
  2. 扎根在本文哪里:Section 4 的 PI 假设是 weighting 路径的命门;Eq 13 的敏感性分析仅用标量 \(\xi\) 手动调参,缺乏理论化的偏差修正。
  3. 攻它需要什么:需补 HOIF 在生存结局下的具体表达式(当前武器库 moderately_familiar HOIF 是对连续/二值结局的,生存结局需推导)+ 补 1-2 篇 HOIF 原始文献(如 Robins et al. 2008, 2017)+ 补完后推导 SPCE 的 2nd-order influence function,构造 bias-corrected estimator。
  4. 谁已经在附近做:HOIF 在 principal stratification 中几乎无人用;需自查。
  5. 武器库匹配 + 独特角度:moderately_familiar 的 HOIF 理论 + very_familiar 的 higher-order U-statistics computation (treewidth/einsum)——独特角度:HOIF 估计涉及高阶 U-统计量计算,研究者有独特的 tensor contraction 视角来优化计算复杂度,这是别人没有的。

  6. 问题表述:在放宽 Monotonicity(允许 10 stratum 存在)下,推导 PI 的 identification 条件与 multiply robust 估计。

  7. 扎根在本文哪里:Section 4 明确说 "current software for weighting method requires monotonicity"(第 18 页),且 Eq 14 的敏感性分析仅在固定 \(\zeta\) 下做,未给出无 Monotonicity 下的正式估计。
  8. 攻它需要什么:需补 identification theory in causal inference(moderately_familiar)中关于 4-strata 无 Monotonicity 下的识别条件推导 + 补 Ding & Lu (2017) [14] 的非单调设定讨论 + 补完后构造 4-strata 下的 multiply robust estimator。
  9. 谁已经在附近做:Ding & Lu (2017) [14] 讨论过非单调,但未给生存结局的 MR 估计;需自查。
  10. 武器库匹配 + 独特角度:moderately_familiar 的 identification theory 可推导识别条件;独特角度:从识别理论出发,而非纯参数模型,给出更一般的估计。

(C) 暂不建议

  1. 问题表述:在无 Monotonicity + 无 ER + 无 PI 下,仅靠分布假设(如参数化 survival model)识别 SPCE。
  2. 核心机器缺什么:缺混合模型非参数识别的理论工具——4 个 strata 2 个观测细胞,非参数下不可识别,需极强参数假设;且生存结局的混合模型标签切换与多峰后验无解析解。
  3. 为何不易绕过:这是本质的欠识别问题,非计算可绕过。

迁移视角(多样性的来源): - 方法 T:Multiply robust principal score weighting + sensitivity analysis for PI。 - 目标领域流行病学中的 longitudinal treatment adherence 与生存结局(如 HIV 队列中服药坚持性与死亡率)。 - 为什么可行:流行病学队列中 ICE(中断/换药)极常见,且往往有丰富基线与时间依赖协变量,PI 假设更易辩护;研究者有 epidemiology (secondary interest) + causal inference estimation theory (very_familiar) 的交叉背景,可将该 Tutorial 的工具直接迁移到流行病学数据集,并嵌入 debiased ML 提升鲁棒性——这在该领域尚未出现。


四、延伸与下一步

沿引用链的阅读路线: 1. 地基(先读): - Frangakis & Rubin (2002) [7]:主分层框架原始定义。 - Angrist, Imbens & Rubin (1996) [28]:IV/ER/Monotonicity 的经典设定。 - Ding & Lu (2017) [14]:Principal score 方法的基础与非单调讨论。 2. Frontier(再读): - Jiang, Yang & Ding (2022) [9]:Multiply robust 估计的非删失版本。 - Liu, Wruck & Li (2024) [27]:生存结局下 mixture model 的 Bayesian 估计。 - Cheng et al. (2026) [17]:生存结局下 multiply robust 估计的理论证明。 - Vansteelandt & Van Lancker (2025) [20] + Ding & Lu (2025) [22]:概念争议,理解社区对主分层的质疑与辩护。

假设扰动: - 改动假设Assumption 5 (Principal Ignorability) → 改为"PI 在部分协变量子集上成立"(即 \(Pr(T(1) \geq t | U=11, V) = Pr(T(1) \geq t | U=01, V)\),其中 \(V \subset X\) 是临床已知预测变量,而非全部 \(X\))。 - 结论变化:识别条件放宽,但需对剩余混淆建模;估计需构造 partial PI 下的 influence function。 - 需要新工具:Partial PI 下的非参数识别理论 + conditional influence function 推导。 - 落入哪一档B 档——需补 identification theory (moderately_familiar) 中 partial conditional independence 的推导,补完后可构造估计。

理解检测题: 在 CALGB 90206 试验中,假设 Monotonicity 成立(无 10 stratum),但 PI 不成立:已知 always-discontinuer (11) 的潜在生存概率在控制臂下比 defier (01) 低 20%(即 \(S_{0,11}(t) = 0.8 \times S_{0,01}(t)\) 在所有 \(t\))。请写出在此偏离下,\(\hat{S}^{mr}_{0,00}(t)\)(Eq 18-19)的解析偏差表达式(用 \(\pi_u(X), S_{z,d}(t|X)\) 与偏离系数 0.8 表示),并指出偏差在哪个时间点 \(t\) 最大。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论