Causal Inference for All: Marginal Estimands for Outcomes Truncated by Death¶

作者: Ruixuan Zhao, Mats Stensrud, Linbo Wang
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2607.00222

一、领域脉络与小综述¶

这个方向是什么¶

本方向处理的是纵向研究中一个根本性的因果推断难题：当感兴趣的结局（如生活质量、病毒载量）只有在患者存活时才被定义或可观测时，如何定义和估计治疗对该结局的因果效应。这被称为“结局被死亡截断”（truncation by death）问题。核心挑战在于，任何仅基于存活者的比较都会引入选择偏倚，因为存活者群体在不同治疗组之间是不同的。该领域当前的状态是：存在多种策略，但每种都有其根本性缺陷，导致实践者面临“要么因果可解释但只针对未知子群体，要么针对全人群但因果不可解释”的两难选择。

发展脉络（history）¶

奠基工作与早期困境：Robins (1986) 最早系统性地指出了“健康工人幸存者效应”问题，并提出了幸存者平均因果效应（SACE） 的概念，将目标群体限定为“无论接受哪种治疗都会存活”的始终幸存者（always-survivor）这一主层（principal stratum）。Rubin (2006) 将其纳入主层分析框架。然而，SACE 的实践应用有限，因为它针对的是一个未知且通常更健康的子群体，而非与临床或政策决策相关的全人群（Bornkamp et al., 2021; Stensrud and Dukes, 2022）。作者引用 Stensrud et al. (2022) 指出，基于 SACE 的建议可能难以应用于个体患者，甚至可能使主层外的患者暴露于无效或有害的治疗，引发伦理问题。
主要进展与替代方案：面对 SACE 的局限性，实践和监管机构发展了几种替代策略：
- 存活期间（while-alive）策略：汇总每个患者在观测到的存活时间内的结局。作者引用 Wei et al. (2023) 和 Janvin et al. (2024) 指出，虽然这是全人群汇总，但其对比 λ(1) - λ(0) 比较的是不同治疗组下不同时间段的结局，因此通常不具有因果解释。Janvin et al. (2024) 甚至证明，即使治疗对结局无直接影响，仅因生存时间差异，该对比也可能非零。
- 假设（hypothetical）策略与复合（composite）策略：ICH E9(R1) Addendum (2019) 正式讨论了这些策略。假设策略估计在“假设截断事件不发生”的反事实情景下的效应，但作者引用 Young et al. (2020) 指出这种干预通常不可行。复合策略为死亡后的结局赋予预设值或排名，但作者引用 Lachin (2020) 和 Little et al. (2012) 指出，选择预设值存在争议且可解释性有限，更根本的是，死亡后的结局（如生活质量）是“未定义”而非“缺失”。
当前 Frontier：近期，可分离效应（separable effects） 框架为突破困境提供了新思路。Stensrud et al. (2022, 2023) 提出将治疗概念性地分解为两个成分：一个直接影响结局（Z_Y），另一个直接影响生存（Z_S）。由此定义的条件可分离效应（CSE） E[Y_t(1, z_S) - Y_t(0, z_S) | S_t(z_S) = 1] 避免了 SACE 的跨世界（cross-world）条件，但仍是一个以生存为条件的 estimand，而非全人群汇总。
本文的位置：本文旨在调和“因果可解释的 estimand”与“实践中常用的全人群汇总”之间的矛盾。作者通过将问题分解为两个部分来构建新的 estimand：一是在两种治疗下结局都良好定义的保证生存期（guaranteed survival period） 内的效应；二是在一种治疗延长生存的延长生存期（extended survival period） 内的结局体验。这产生了全人群的因果 estimand。同时，作者将 CSE 推广为单世界边际可分离效应（single-world marginal separable effects），提供了另一种全人群框架。

子线索聚类¶

主层分析（Principal Stratification）：以 SACE 为代表，聚焦于始终幸存者子群体。主要工作包括 Robins (1986), Rubin (2006), Gilbert et al. (2003), Ding et al. (2011), Wang et al. (2017a,b), Grossi et al. (2025)。该线索的优势在于因果解释清晰，但代价是目标群体未知且可能不具代表性。
全人群实用策略：包括 while-alive 策略、假设策略、复合策略。主要工作包括 ICH (2019), Wei et al. (2023), Janvin et al. (2024), Diehr et al. (1995), Lu et al. (2025)。该线索的优势是面向全人群，但代价是因果解释性弱或依赖于有争议的假设。
可分离效应（Separable Effects）：通过概念性地分解治疗来定义因果效应。主要工作包括 Stensrud et al. (2022, 2023), Park et al. (2026)。该线索提供了单世界（single-world）的因果 estimand，但 CSE 仍以生存为条件。

这个方向在追问的核心问题¶

如何定义既面向全人群又具有因果可解释性的 estimand？ 这是本文试图解决的核心张力。
如何从观测到的纵向数据中识别这些 estimand？ 需要哪些假设（如单调性、可交换性、主层可忽略性）？
如何对这些 estimand 进行有效估计？ 需要发展相应的参数或半参数估计方法。
不同 estimand 的选择如何影响实际结论？ 在真实数据分析中，不同 estimand 可能导向不同的治疗决策。

⚠️ 作者的 framing¶

作者的缺口 frame：作者将现有文献的缺口 frame 为“因果可解释的 estimand（如 SACE）与全人群实用汇总（如 while-alive）之间存在不可调和的矛盾”。他们声称自己的贡献是提出了一类新的 estimand，能同时满足三个要求：面向全人群、具有因果可解释性、能利用常见的纵向数据。这使得他们的工作看起来是“显然的下一步”。
被淡化或回避的竞争路线：作者淡化了假设策略和复合策略，主要批评其可解释性争议和“未定义”问题。他们回避了敏感性分析这一重要方向。虽然 SACE 的识别需要强假设，但敏感性分析可以评估这些假设的违反程度对结论的影响。本文并未为所提出的新 estimand 发展敏感性分析方法，仅在讨论部分提及“未来工作”。
什么明显该被引 / 该存在、却没出现在 intro 里？ 作者在 intro 中未提及工具变量（IV）方法。在截断由死亡导致的问题中，有时可以利用一个工具变量（如随机化治疗本身）来识别局部平均处理效应（LATE），这与 SACE 有概念上的联系。虽然本文的设定是随机化试验，但讨论 IV 与主层分析的关系是常见的。此外，竞争风险（competing risks） 框架下的因果推断文献（如 Fine-Gray 模型）也未在 intro 中讨论，尽管其处理的是类似的多状态问题。值得研究者去查：检查 Stensrud et al. (2022) 和 Janvin et al. (2024) 的引言，看他们是否更全面地讨论了这些联系。

张力¶

未见明显对立引用。文献中的不同方法（SACE vs. while-alive）更多是互补而非矛盾，它们各自回答了不同的问题，但都未能同时满足全人群和因果可解释性这两个要求。本文正是试图填补这个空白。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- Z ∈ {0, 1}：二元治疗变量（1=积极治疗，0=对照）。
- t = 1, ..., t_max：离散的随访时间点。
- S_t：时间点 t 的存活状态（1=存活，0=死亡）。
- Y_t：时间点 t 的非死亡结局（如生活质量评分）。仅在 S_t = 1 时被定义。
- T = max{t: S_t = 1} ∧ t_max：观测到的随访时间（即存活时间）。
- L_0：基线协变量。
- S_t(z), Y_t(z), T(z)：在治疗 z 下的潜在存活状态、结局和随访时间。
- T(0) ∧ T(1)：保证生存时间，即个体在两种治疗下都会存活的最长时间。
- T(0) ∨ T(1)：最大生存时间。
- G_t：时间点 t 的生存类型（主层），如 LL（始终存活）、LD（仅在治疗1下存活）等。
- µ(z)：保证生存期 estimand，汇总治疗 z 下在 [0, T(0)∧T(1)] 期间的潜在结局。
- µ_ext：延长生存期 estimand，汇总在延长生存期内的潜在结局。
- Γ(z_Y, z_S)：边际可分离效应 estimand，汇总在治疗成分 (z_Y, z_S) 下、在 [0, T(z_S)] 期间的潜在结局。
模型：
- 数据生成机制由一个纵向随机化试验描述。个体在基线被随机分配治疗 Z，然后按时间顺序观测到 (S_t, Y_t)，其中 Y_t 仅在 S_t=1 时被观测。S_t 和 Y_t 可能受基线协变量 L_0 和过去的历史影响。
- 在潜在结果框架下，存在潜在变量 S_t(z), Y_t(z), T(z)。一致性假设将观测数据与潜在结果联系起来：S_t = Z S_t(1) + (1-Z) S_t(0)，Y_t = Z Y_t(1) + (1-Z) Y_t(0)。
- 对于可分离效应，治疗 Z 被概念性地分解为两个成分 (Z_Y, Z_S)，它们分别影响结局和生存。存在一个假设的四臂试验 C，其中 Z_Y 和 Z_S 被独立随机化。
可观测数据：
- 研究者实际能观测到的是来自 n 个个体的独立同分布样本：{L_{0i}, Z_i, \bar{S}_{t_{max}i}, \bar{Y}_{t_{max}i}}。
- 关键点：Y_t 只有在 S_t=1 时才被观测到。当 S_t=0 时，Y_t 是未定义的，而非缺失。这是问题的核心。
- 想要但观测不到的量：所有跨世界的潜在结果，如 Y_t(1) 对于在 Z=0 下死亡的个体，以及 T(0) ∧ T(1) 和 G_t 等主层成员身份。

第二步：讲最小内核¶

本文的核心思路可以用一个最简特例来理解：只有两个时间点（t_max = 1）的纵向研究。

设定：个体在基线被随机分配治疗 Z。在时间点 t=1，我们观测存活状态 S_1 和（如果存活）结局 Y_1。基线协变量为 L_0。
可观测数据：{L_0, Z, S_1, Y_1}，其中 Y_1 仅在 S_1=1 时被观测。
核心问题：如何定义和估计治疗对 Y_1 的因果效应，考虑到死亡截断？
现有方法的困境：
- SACE：E[Y_1(1) - Y_1(0) | S_1(1) = S_1(0) = 1]。它只针对“始终存活者”，这是一个未知子群体。
- While-alive：E[Y_1(1) | S_1(1)=1] - E[Y_1(0) | S_1(0)=1]。它比较的是不同子群体（治疗组存活者 vs. 对照组存活者），存在选择偏倚。
本文的最小内核（保证生存期 estimand）：
- 定义保证生存时间 T(0) ∧ T(1)。在 t_max=1 时，T(0) ∧ T(1) 要么是 0（如果个体在任一治疗下都会死亡），要么是 1（如果个体在两种治疗下都能存活到时间点 1）。
- 定义保证生存期 estimand µ(z) = E[Y_1(z) | T(0) ∧ T(1) = 1] * Pr(T(0) ∧ T(1) = 1)。这可以理解为：在“保证生存”的子群体中，治疗 z 下的平均结局，乘以该子群体的大小。
- 核心思路：µ(z) 是一个全人群的 estimand，因为它是对所有个体（包括那些在某种治疗下会死亡的个体）的期望。它只对“保证生存”的子群体内的 Y_1(z) 求平均，而对那些在治疗 z 下会死亡的个体，Y_1(z) 是未定义的，但它们在 µ(z) 中的贡献为 0（因为 Pr(T(0) ∧ T(1) = 1) 的权重为 0）。因此，µ(z) 避免了选择偏倚，因为它比较的是同一个子群体（保证生存者）在两种治疗下的潜在结局。
- 识别挑战：µ(z) 依赖于跨世界量 T(0) ∧ T(1)。如何从观测数据中识别它？作者使用单调性假设（T(1) ≥ T(0)）和主层可忽略性假设（S_1(0) ⊥⊥ L_0 | S_1(1)=1）等，将 Pr(T(0) ∧ T(1) = 1 | ...) 与可观测的 Pr(T=1 | Z=0, L_0) 和 Pr(S_1=1 | Z=1, L_0) 联系起来。
- 结论：在这个最简特例下，本文的核心贡献是提出了一个新的、面向全人群的、因果可解释的 estimand，它通过将分析限制在“保证生存期”来避免选择偏倚，并通过一系列假设（如单调性）来实现识别。论文的一般情形只是将这个思路推广到多个时间点和不同的加权方案。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对纵向研究中结局被死亡截断的问题，提出了一类新的边际 estimand，旨在同时满足面向全人群、具有因果可解释性、且能利用常见纵向数据这三个要求。
核心工具/方法：通过将生存时间划分为保证生存期和延长生存期，定义了相应的 while guaranteed-survival 和 while extended-survival estimands；并将条件可分离效应（CSE） 推广为单世界边际可分离效应（single-world marginal separable effects）。识别和估计依赖于主层分析、替代变量（substitution variable）和影响函数（influence function）等技术。
主要结论：给出了这些新 estimand 的识别条件（基于单调性、可交换性、主层可忽略性等假设）和相应的估计方法（plug-in 估计量和基于影响函数的估计量）。通过前列腺癌试验的再分析，展示了不同 estimand 如何导致不同的治疗结论，并阐明了它们之间的概念差异。

关键设定与假设¶

设定：纵向随机化试验，离散时间点 t=1,...,t_max，二元治疗 Z，基线协变量 L_0，存活状态 S_t，结局 Y_t（仅在 S_t=1 时定义）。对于可分离效应，还引入了时变协变量 L_t。
关键假设：
- 一致性（Consistency）：观测数据等于潜在结果在分配治疗下的值。
- 单调性（Monotonicity, Assumption 4）：T(1) ≥ T(0) a.s.。即治疗不会缩短生存时间。这是识别保证生存期 estimand 的关键，因为它将 T(0) ∧ T(1) 简化为 T(0)。
- 可交换性（Ignorability, Assumptions 5, 8, 14）：给定基线协变量 L_0，治疗分配与潜在结果独立。这在随机化试验中通常成立。
- 主层可忽略性（Survival Principal Ignorability, Assumption 7）：S_r(0) ⊥⊥ \bar{L}_r(1) | S_r(1)=1, L_0。这是一个很强的假设，它意味着在控制了 L_0 后，治疗组中的协变量历史不提供关于对照组存活状态的信息。作者在补充材料中给出了一个基于潜在过程的合理性论证。
- 替代变量假设（Substitution Variable, Assumptions 10, 11）：用于识别主层内的平均潜在结局。假设存在一个基线变量 A，其与主层成员身份相关（替代相关性），且主层内 A 对结局的影响在不同治疗组和不同主层间是相同的（无交互作用）。这比 Wang et al. (2017b) 中的排除限制假设更弱。
- 可分离效应假设（Assumptions 1, 2, 12, 13）：治疗可分解为 Z_Y 和 Z_S，且 Z_Y 不影响生存（Z_Y 部分隔离），Z_S 对结局的影响仅通过生存和时变协变量（Z_S 可忽略成分条件）。这些假设用于识别边际可分离效应。
与已有文献的比较：相比 SACE，本文的 estimand 面向全人群；相比 while-alive，本文的 estimand 具有因果解释。相比 CSE，本文的边际可分离效应是全人群汇总而非条件于生存。假设方面，本文的替代变量假设比 Wang et al. (2017b) 的排除限制假设更宽松，但引入了新的主层可忽略性假设。

主要结果¶

定理 1（保证生存期 estimand 的识别）：在假设 4-11 下，E[I{T(0)∧T(1)=t} Y_r(z)] 对于 z=0,1 是可识别的。对于 z=0，它简化为一个逆概率加权形式。对于 z=1，它需要结合主层可忽略性、替代变量和 G-Markov 充分性假设，最终表达为一个涉及 M_r(\bar{L}_r, LL, 1, A, X) 的复杂公式。直觉：z=0 的情况直接，因为单调性将 T(0)∧T(1) 简化为 T(0)。z=1 的情况困难，因为需要从治疗组中识别出那些在对照组也会存活的子群体（LL 主层）的结局，这依赖于替代变量和主层可忽略性。
定理 2（边际可分离效应的识别）：在假设 1, 2, 3, 6, 12-14 下，E[I{T(z_S)=t} Y_r(z_Y, z_S)] 是可识别的。其识别公式为 E[ E{ I(T=t) E(Y_r | S_r=1, \bar{L}_r, Z=z_Y, L_0) | Z=z_S, L_0 } ]。直觉：这个公式非常优雅。它表明，边际可分离效应可以通过一个两步过程来识别：首先，在 Z=z_Y 的个体中，拟合一个结局回归模型 E(Y_r | ...)；然后，在 Z=z_S 的个体中，对这个回归模型的预测值进行平均，并限制在 T=t 的子集中。这避免了跨世界量。
命题 1（estimand 之间的联系）：在额外假设（如 Z_S 部分隔离）下，保证生存期 estimand ∆_gua 等于边际可分离效应 ∆_sep(0)，而延长生存期 estimand µ_ext 等于 Γ(1,1) - Γ(1,0)。这建立了不同框架之间的联系。

证明路线与技术技巧（理论型）¶

整体路线（以定理 1 为例）：
1. 分解：将 µ(z) 重写为 E[I{T(0)∧T(1)=t} Y_r(z)] 的加权和。
2. 识别 z=0 的组件：利用单调性将 T(0)∧T(1) 替换为 T(0)，然后通过可交换性和一致性，将其识别为 E[ I(T=t, Z=0) / Pr(Z=0|L_0) * Y_r ]。
3. 识别 z=1 的组件：这是核心难点。首先，通过主层可忽略性（Assumption 7）和单调性，将条件主层得分 Pr(T(0)∧T(1)=t | \bar{L}_r(1), L_0) 与可观测的 Pr(T=t|Z=0, L_0) 和 Pr(S_t=1|\bar{L}_r, Z=1, L_0) 联系起来（引理 1）。
4. 识别主层内平均结局：需要识别 E[Y_r(1) | T(0)=t, \bar{L}_r(1), L_0]，这等价于 E[Y_r | G_r=LL, \bar{L}_r, Z=1, L_0]。这是通过替代变量方法解决的。利用假设 10（无交互作用）和 11（替代相关性），将 E[Y_r | G_r=LL, ...] 与可观测的 E[Y_r | S_r=1, Z=1, ...] 和 E[Y_r | S_r=1, Z=0, ...] 联系起来，形成一个可解的方程组（公式 5-6）。
5. 组合：将步骤 3 和 4 的结果代入，得到 E[I{T(0)∧T(1)=t} Y_r(1)] 的识别公式（公式 8）。
关键跳跃点：
- 从跨世界到单世界的跳跃：通过单调性假设，将 T(0)∧T(1) 简化为 T(0)，这是整个识别策略的基石。
- 主层可忽略性假设：这个假设是连接治疗组协变量历史与对照组存活状态的关键，它使得条件主层得分可以被识别。没有这个假设，Pr(T(0)∧T(1)=t | \bar{L}_r(1), L_0) 就无法从观测数据中识别。
- 替代变量方法的运用：这是识别 LL 主层内平均结局的核心技巧。它巧妙地利用了一个基线变量 A 来“替代”不可观测的主层成员身份，通过假设无交互作用来解耦 A 对结局的影响与主层和治疗的关系。
技术技巧点名：
- 主层分析（Principal Stratification）：整个识别框架建立在主层（G_t）的概念之上。
- 替代变量（Substitution Variable）：用于识别主层内平均结局，是 Wang et al. (2017b) 方法的推广。
- 影响函数（Influence Function）：在定理 3 中，作者推导了边际可分离效应组件的非参数影响函数，这为构建倍稳健（triply robust） 估计量提供了理论基础。
- G-Markov 充分性（G-Markov Sufficiency, Assumption 9）：一个类似于马尔可夫性质的假设，用于简化主层内平均结局的识别，排除了结局对后续生存的直接因果路径。

真实例子与应用¶

数据：西南肿瘤学组（SWOG）进行的一项随机 III 期前列腺癌试验，比较多西他赛+雌莫司汀（DE）与米托蒽醌+泼尼松（MP）对转移性雄激素非依赖性前列腺癌患者的效果。
方法应用：作者将所提出的 while guaranteed-survival estimand (∆_gua) 和 marginal separable effect (∆_sep(0)) 应用于该数据，估计 DE 相对于 MP 对生活质量（QoL）变化的影响。他们使用基线 QoL 作为替代变量，并调整了时变的疾病进展指标。
结果：
- While guaranteed-survival 估计：∆_gua 在不同加权方案下差异很大。退出时间（exit-time）加权下的估计值（5.10）接近临床上有意义的差异阈值（5），而平均和 AUC 加权下的估计值较小（约 1.8）。这表明 DE 的 QoL 益处主要体现在生命末期，而非整个生存期。
- Marginal separable effect 估计：∆_sep(0) 的估计值接近于零，且置信区间包含零。这比 ∆_gua 的估计值小得多。
- 对比与解释：作者解释这种差异为：∆_gua 可能包含了生存相关成分（Z_S）通过影响疾病进展而对 QoL 产生的间接益处（DE 更强的抗肿瘤作用），而 ∆_sep(0) 则通过固定 Z_S=0 隔离了 QoL 相关成分（Z_Y）的直接效应。这与 DE 更强的抗肿瘤作用和 MP 更偏姑息治疗的历史角色一致。
- 延长生存期分析：µ_ext 的估计值为负（-0.77），表明在 DE 带来的额外生存期内，QoL 有所下降，但置信区间很宽。
例子想说明什么：这个例子旨在验证理论，展示所提出的 estimand 在实践中是可估计的，并且强调不同 estimand 的选择会导向不同的治疗结论。它生动地说明了 ∆_gua 和 ∆_sep(0) 捕捉了不同的因果机制，为研究者提供了更丰富的视角。

🔎 结论是否比证明窄¶

是。论文的主要结论（提出新 estimand 并给出识别和估计方法）是坚实的。但作者在讨论部分承认了局限性：while guaranteed-survival 和 while extended-survival estimands 的识别依赖于强假设（单调性、主层可忽略性、替代变量条件）。这些假设在证明中是严格需要的，但在实际应用中可能难以验证。作者在结论中声称这些 estimand 是“全人群的”和“因果可解释的”，但“因果可解释性”是建立在这些假设成立的基础上的。如果假设不成立，这些 estimand 的因果解释就会受到质疑。因此，结论的稳健性比证明所展示的要窄。作者在讨论中提到了未来需要发展敏感性分析，这间接承认了这一点。

四、开放问题¶

敏感性分析：本文的识别依赖于多个强假设（单调性、主层可忽略性、替代变量条件）。一个直接的开放问题是：如何对这些假设进行敏感性分析？例如，当单调性被违反时，T(0) ∧ T(1) 的识别会如何变化？当主层可忽略性不成立时，估计的偏差有多大？（扎根于 Section 7 Discussion: "Future work may also develop sensitivity analyses for these assumptions..."）
放松 G-Markov 充分性假设：Assumption 9 和 13 假设结局 Y_r 不会直接影响后续的生存 S_t（r < t）。这在某些场景下（如长期随访中，低 QoL 可能直接导致死亡风险增加）可能不成立。一个开放问题是：如何放松这个假设？是否可以引入额外的辅助信息或使用代理变量方法（如 Park et al., 2026 所建议的）？（扎根于 Section 7 Discussion: "Some of these restrictions may be relaxable with additional auxiliary information. Proxy-variable approaches... may help extend the separable-effect formulation to settings with unmeasured survival-outcome confounding."）
连续时间与竞争事件：本文的框架建立在离散时间点上。一个自然的推广是将其扩展到连续时间设定。此外，死亡只是截断事件的一种。如何处理其他竞争性中间事件（如疾病复发、治疗转换）？本文的框架是否可以推广？（扎根于 Section 7 Discussion: "extend the framework to continuous-time measurements, competing intercurrent events, and dynamic treatment regimes."）
非参数效率界：本文为边际可分离效应推导了影响函数，但并未给出其半参数效率界。一个开放问题是：对于所提出的 while guaranteed-survival 和 while extended-survival estimands，其半参数效率界是什么？是否存在可以达到 n^{-1/2} 收敛率的正则估计量？这直接连接研究者对效率理论的兴趣。（扎根于 Theorem 3 的影响函数推导，但未进一步讨论效率界。）

Maintained by 陈星宇 · Homepage · Source on GitHub