Causal inference for time-to-event data with a cured subpopulation¶

作者: Yi Wang, Yuhao Deng, Xiao-Hua Zhou
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Peking University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae028

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在生存分析中，当存在一个“治愈”亚组（即永远不会经历事件，如死亡或复发）时，如何对治疗效应进行有因果意义的定义、识别和估计。核心困难在于，治愈状态本身是潜在变量（不可观测），且通常与事件时间数据中的删失（censoring）纠缠在一起。当前成熟度中等：混合治愈模型（mixture cure model）在生物统计中已被广泛用于参数化建模，但将其纳入因果推断框架（特别是主分层框架）的工作相对较少，且识别策略仍在发展中。

发展脉络（history）¶

奠基工作：混合治愈模型：Boag (1949) 和 Berkson & Gage (1952) 最早提出将人群分为“治愈”和“未治愈”两组的混合模型。Faraggi & Simon (1995) 将其推广为半参数形式（如 Cox 比例风险模型用于未治愈组）。这些工作奠定了“治愈率”作为治疗效应度量的基础，但缺乏对治疗效应的因果解释——它们估计的是条件关联，而非因果效应。
主要进展：主分层框架引入因果推断：Frangakis & Rubin (2002) 提出主分层（principal stratification），将因果效应定义在由潜在结果（如潜在治愈状态）定义的子群上。这为处理“治愈”这类事后变量（post-treatment variable）提供了因果框架。Imbens & Rubin (1997) 在工具变量（IV）背景下使用类似思想。关键口子：主分层框架在生存数据中的应用仍不成熟，特别是当治愈状态与删失同时存在时。
当前 frontier：主分层 + 生存数据 + 识别策略：Gilbert et al. (2003) 和 Hudgens & Halloran (2006) 将主分层应用于疫苗试验中的“感染后”效应，但处理的是二值或连续终点，而非时间-事件数据。关键口子：对于时间-事件终点，治愈状态的定义（“永远不失败”）与删失（“随访期内未失败”）难以区分，导致主分层中的“始终未治愈”子群无法直接观测。
本文的位置：本文是首次（据作者声称）将主分层框架与混合治愈模型结合，提出针对“始终未治愈”子群的时点风险差和平均生存时间差作为因果估计量，并利用“替代变量”（substitutional variable）实现识别。它填补了“主分层因果效应”与“生存数据治愈模型”之间的空白。

子线索聚类¶

这些被引文献大致落在 3 条子线索上： 1. 混合治愈模型（Mixture Cure Models）：Boag (1949), Berkson & Gage (1952), Faraggi & Simon (1995), Kuk & Chen (1992), Peng & Dear (2000), Sy & Taylor (2000)。核心：参数化或半参数建模治愈概率和未治愈组的生存分布，但不涉及因果识别，估计的是条件关联。 2. 主分层因果推断（Principal Stratification）：Frangakis & Rubin (2002), Imbens & Rubin (1997), Gilbert et al. (2003), Hudgens & Halloran (2006), Zhang & Rubin (2003)。核心：定义基于潜在结果子群的因果效应，并研究其可识别性。瓶颈：通常需要强假设（如单调性、排除限制）或工具变量。 3. 替代变量与识别（Substitutional Variable / Negative Control）：本文引用了 Rosenbaum (1984) 关于“替代变量”的早期工作，以及 Tchetgen Tchetgen (2014) 关于“负对照”的近期工作。核心：利用一个与潜在治愈状态相关、但与治疗分配和结果无关的变量来辅助识别。本文的贡献：将这一思想首次应用于主分层 + 生存数据场景。

这个方向在追问的核心问题¶

如何定义“治愈”的因果效应？ 是治愈率（cure rate）本身，还是治愈后的生存时间？本文认为两者应互补。
如何识别“始终未治愈”子群的因果效应？ 由于治愈状态不可观测，需要额外的假设或变量。本文提出“替代变量”作为识别工具。
如何处理删失？ 在生存数据中，删失使得“是否治愈”与“是否在随访期内失败”混淆。本文通过混合治愈模型处理删失。
估计方法如何实现？ 需要将识别结果转化为可计算的估计量，并处理模型选择（如治愈概率的链接函数、未治愈组的生存模型）。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：“当前方法主要关注估计各种治愈模型中的模型参数，最终导致缺乏因果解释。” 因此，本文的“显然的下一步”是：将主分层框架引入，定义并识别具有因果意义的估计量。
被淡化或回避的竞争路线：
- 工具变量（IV）方法：IV 是主分层识别中最常用的工具，但本文没有采用。作者在引言中明确说“我们假设治疗分配是可忽略的（ignorable）”，从而回避了 IV 的复杂性。这意味着本文的识别策略不依赖于工具变量，而是依赖于一个替代变量。这既是优势（假设更弱？），也是局限（替代变量本身也需要假设）。
- 边际结构模型（Marginal Structural Models）：对于时间-事件数据，MSM 是处理时变混杂的常用因果工具，但本文处理的是静态治疗（如移植类型），且关注的是子群效应（始终未治愈），而非边际效应。作者没有讨论 MSM 路线。
什么明显该被引 / 该存在、却没出现在 intro 里？
- Proximal Causal Inference (PCI)：本文使用的“替代变量”与 PCI 中的“负对照”或“代理变量”高度相关。Tchetgen Tchetgen (2014) 被引了，但更系统的 PCI 框架（如 Miao et al., 2018; Tchetgen Tchetgen et al., 2020）未被提及。值得研究者去查：PCI 是否提供了比本文更一般的识别条件？本文的“替代变量”假设是否等价于 PCI 中的某个特定条件？
- Competing Risks：在生存分析中，治愈模型与竞争风险模型有密切联系（治愈可视为一种特殊的竞争风险）。本文未讨论竞争风险框架下的因果推断（如 Fine & Gray 模型）。

张力¶

未见明显对立引用。所有被引工作都在各自子线索内发展，没有直接冲突。但存在一个隐含张力：主分层框架（强调子群效应）与边际效应框架（如 MSM）之间的哲学和方法论差异，本文选择前者。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( Z \)：治疗分配（treatment assignment），二值变量（0 = 对照，1 = 治疗）。可观测。
- \( T \)：失败时间（failure time），连续非负随机变量。可观测（但可能被删失）。
- \( C \)：删失时间（censoring time），连续非负随机变量。可观测（但仅当 \( T > C \) 时，\( T \) 被删失）。
- \( Y = \min(T, C) \)：观测到的随访时间。可观测。
- \( \Delta = I(T \le C) \)：失败事件指示符（1 = 观测到失败，0 = 删失）。可观测。
- \( S \)：潜在治愈状态（potential cure status），二值潜在变量（0 = 始终未治愈，1 = 治愈）。不可观测。定义：\( S = 1 \) 当且仅当 \( T = \infty \)（即永远不会失败）。
- \( S(z) \)：在治疗分配 \( Z = z \) 下的潜在治愈状态。不可观测。\( S = S(Z) \) 是实际观测到的治愈状态（但实际不可观测）。
- \( T(z) \)：在治疗分配 \( Z = z \) 下的潜在失败时间。不可观测。\( T = T(Z) \) 是实际观测到的失败时间（但可能被删失）。
- \( X \)：协变量向量（covariates）。可观测。
- \( W \)：替代变量（substitutional variable），一个与 \( S \) 相关、但与 \( (Z, T, C) \) 条件独立的变量（给定 \( X \)）。可观测。这是识别关键。
模型：
- 数据生成机制：假设存在一个潜在治愈状态 \( S \)，它决定了失败时间 \( T \) 的分布。如果 \( S = 1 \)（治愈），则 \( T = \infty \)；如果 \( S = 0 \)（未治愈），则 \( T \) 服从某个有限生存分布。治疗 \( Z \) 和协变量 \( X \) 影响 \( S \) 和 \( T \)。
- 可忽略性（Ignorability）：\( \{T(0), T(1), S(0), S(1)\} \perp Z \mid X \)。即，给定协变量 \( X \)，治疗分配与潜在结果独立。这是因果推断的核心假设。
- 替代变量假设：\( W \perp (Z, T, C) \mid S, X \)。即，给定治愈状态 \( S \) 和协变量 \( X \)，替代变量 \( W \) 与治疗分配、失败时间、删失时间均独立。这是识别核心假设。
- 删失机制：假设删失时间 \( C \) 与失败时间 \( T \) 独立，给定 \( (Z, X, S) \)（即随机删失，但允许依赖于协变量和治疗）。
可观测数据：研究者实际能观测到的是 \( (Y_i, \Delta_i, Z_i, X_i, W_i) \) 的独立同分布样本，\( i = 1, \dots, n \)。关键不可观测量：\( S_i \)（治愈状态）、\( T_i \)（如果被删失）、\( T_i(0), T_i(1), S_i(0), S_i(1) \)（潜在结果）。

第二步：讲最小内核¶

最简特例：假设没有协变量 \( X \)，且替代变量 \( W \) 是二值的（0/1）。治疗 \( Z \) 也是二值的。我们想估计“始终未治愈”子群（即 \( S(0) = S(1) = 0 \)）中的治疗效应。

核心思路：由于 \( S \) 不可观测，我们无法直接知道谁属于“始终未治愈”子群。但我们可以利用替代变量 \( W \) 来“标记”这个子群。

最小内核命题：在可忽略性和替代变量假设下，“始终未治愈”子群中失败时间的分布是可识别的。

证明思路（最简版）： 1. 定义目标：我们想估计 \( P(T(1) > t \mid S(0)=S(1)=0) \) 和 \( P(T(0) > t \mid S(0)=S(1)=0) \)，以及它们的均值差。 2. 利用替代变量：假设 \( W \) 是“治愈状态”的一个完美代理，即 \( W = 1 \) 当且仅当 \( S = 1 \)（治愈）。那么，观测到 \( W = 0 \) 的人就是“始终未治愈”子群。但现实中 \( W \) 通常不是完美的。 3. 更一般的识别：假设 \( W \) 与 \( S \) 相关，但给定 \( S \) 后与 \( (Z, T, C) \) 独立。那么，我们可以通过观测数据中 \( W \) 的分布来“反解”出 \( S \) 的分布。具体地，对于治疗组 \( Z=1 \)，观测到的失败时间分布是治愈组和未治愈组的混合：

\[P(T > t \mid Z=1) = P(S=1 \mid Z=1) \cdot 1 + P(S=0 \mid Z=1) \cdot P(T > t \mid S=0, Z=1)\]

其中，\( P(S=1 \mid Z=1) \) 是治愈率。由于 \( S \) 不可观测，这个混合模型本身不可识别。但有了 \( W \)，我们可以写出：

\[P(W = w \mid Z=1) = P(S=1 \mid Z=1) \cdot P(W = w \mid S=1) + P(S=0 \mid Z=1) \cdot P(W = w \mid S=0)\]

以及

\[P(T > t, W = w \mid Z=1) = P(S=1 \mid Z=1) \cdot P(W = w \mid S=1) \cdot 1 + P(S=0 \mid Z=1) \cdot P(W = w \mid S=0) \cdot P(T > t \mid S=0, Z=1)\]

这是一个关于 \( P(S=1 \mid Z=1) \), \( P(W = w \mid S=1) \), \( P(W = w \mid S=0) \), 和 \( P(T > t \mid S=0, Z=1) \) 的方程组。在适当的秩条件下（例如，\( W \) 至少有两个取值，且 \( P(W \mid S) \) 非退化），这个方程组是可解的。这就是识别的基本思想：用 \( W \) 的分布来“解开”混合模型，从而识别出未治愈子群的生存分布。

为什么这个特例是内核：整篇论文的一般情形（有协变量 \( X \)，\( W \) 可以是连续或分类的，生存模型是半参数的）只是在这个最小内核上“加壳”——用回归模型处理协变量，用混合治愈模型参数化生存分布，用似然或估计方程进行估计。核心的识别逻辑（利用替代变量解开混合）完全体现在这个最简特例中。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对存在治愈亚组的生存数据，定义了“始终未治愈”子群中的时点风险差（timewise risk difference）和平均生存时间差（mean survival time difference）作为因果估计量，以补充治愈率治疗效应。
核心工具 / 方法：利用主分层框架定义因果效应，利用替代变量（substitutional variable）在可忽略治疗分配机制下实现识别，并采用混合治愈模型（mixture cure model）进行参数化估计。
主要结论：证明了在给定假设下，这两个估计量是可识别的；提供了基于混合治愈模型的估计方法（包括模型选择）；通过模拟研究和急性淋巴细胞白血病（ALL）移植类型比较的观察性研究展示了方法的实用性。

关键设定与假设¶

设定：在第二节最小记号的基础上，补全完整设定：
- 潜在结果：\( T(z) \) 和 \( S(z) \) 是潜在失败时间和潜在治愈状态。\( S(z) = 1 \) 当且仅当 \( T(z) = \infty \)。
- 主分层：根据 \( (S(0), S(1)) \) 的联合分布，将人群分为四个主分层。本文关注的是“始终未治愈”子群：\( \{i: S_i(0) = S_i(1) = 0\} \)。
- 因果估计量：
  - 时点风险差：\( \text{RD}(t) = P(T(1) > t \mid S(0)=S(1)=0) - P(T(0) > t \mid S(0)=S(1)=0) \)
  - 平均生存时间差：\( \text{MSD} = E[T(1) \mid S(0)=S(1)=0] - E[T(0) \mid S(0)=S(1)=0] \)
假设（相比已有文献）：
- A1（可忽略性）：\( \{T(0), T(1), S(0), S(1)\} \perp Z \mid X \)。相比 IV 方法：这是更强的假设（无未观测混杂），但也是本文识别策略的基础。
- A2（替代变量）：\( W \perp (Z, T, C) \mid S, X \)。相比无替代变量的混合治愈模型：这是额外的识别假设。相比 PCI：这是 PCI 中“负对照”假设的一种特殊形式（要求 \( W \) 与治疗和结果均独立，给定 \( S \) 和 \( X \)）。
- A3（随机删失）：\( C \perp T \mid Z, X, S \)。标准假设。
- A4（替代变量与治愈状态的相关性）：\( P(W \mid S, X) \) 非退化，即 \( W \) 能提供关于 \( S \) 的信息。这是识别所必需的秩条件。
- A5（模型假设）：混合治愈模型被正确指定。例如，治愈概率用逻辑回归建模，未治愈组的生存用 Cox 比例风险模型或加速失效时间模型建模。这是参数化估计的代价。

主要结果¶

定理 1（可识别性）：在假设 A1-A4 下，始终未治愈子群中的生存分布 \( P(T(z) > t \mid S(0)=S(1)=0) \) 是可识别的。直觉：替代变量 \( W \) 提供了关于 \( S \) 的额外信息，使得混合治愈模型中的参数可识别。必要条件：\( W \) 必须与 \( S \) 相关，且给定 \( S \) 后与 \( (Z, T, C) \) 独立。
定理 2（估计量的渐近性质）：在假设 A1-A5 下，基于混合治愈模型的最大似然估计（MLE）得到的 \( \widehat{\text{RD}}(t) \) 和 \( \widehat{\text{MSD}} \) 是相合的，且渐近正态。解决的技术难点：MLE 的渐近理论在混合模型中是复杂的，特别是当参数在边界上时。作者引用了标准结果（如 van der Vaart, 1998）来证明，但未深入讨论边界问题。
模型选择：作者建议通过交叉验证或似然比检验来选择混合治愈模型的具体形式（如治愈概率的链接函数、未治愈组的生存模型）。这是实用贡献，但理论性质（如模型选择的一致性）未证明。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线：
1. 建立识别方程：利用替代变量假设，写出观测数据似然函数，其中包含关于 \( S \) 的混合结构。
2. 证明参数可识别：通过分析似然函数的 Fisher 信息矩阵，证明在秩条件下，所有模型参数（包括治愈概率和未治愈组的生存参数）都是可识别的。这通常需要证明信息矩阵非奇异。
3. 推导因果估计量：将识别出的模型参数代入因果估计量的定义式，得到 \( \text{RD}(t) \) 和 \( \text{MSD} \) 的表达式。
4. 建立渐近理论：利用 MLE 的标准渐近理论（相合性、渐近正态性），证明基于 MLE 的因果估计量也具有相合性和渐近正态性。这依赖于 Delta 方法。
关键跳跃点：
- 跳跃点 1：从“混合模型不可识别”到“利用替代变量可识别”。这是本文的核心贡献。难点在于证明替代变量确实能“解开”混合。作者通过构造一个基于 \( W \) 的矩条件方程组，并证明其雅可比矩阵非奇异来实现。具体技巧：利用 \( W \) 的分布与 \( S \) 的分布之间的线性关系，将混合模型的识别问题转化为一个线性方程组的可解性问题。
- 跳跃点 2：处理删失。在生存数据中，删失使得观测到的似然函数更加复杂。作者假设随机删失，并利用标准生存分析技巧（如将删失视为独立）来处理。
技术技巧点名：
- MLE（最大似然估计）：用于估计混合治愈模型的参数。
- Delta 方法：用于从模型参数的渐近分布推导因果估计量的渐近分布。
- 似然比检验 / 交叉验证：用于模型选择。
- EM 算法：混合治愈模型的 MLE 通常通过 EM 算法实现（将 \( S \) 视为缺失数据），但本文未详细展开，只是提及。

真实例子与应用¶

数据 / 场景：急性淋巴细胞白血病（ALL）观察性研究，比较单倍体相合移植（haploidentical transplant, HID） 与同胞全相合移植（matched sibling transplant, MSDT） 的无白血病生存率（leukemia-free survival, LFS）。数据来自中国的一个医疗中心。
方法应用：
1. 定义治愈：将“治愈”定义为“永远不会复发或死亡”。这是一个合理的临床定义。
2. 选择替代变量：作者选择移植后 100 天内的急性移植物抗宿主病（aGVHD）发生情况作为替代变量 \( W \)。直觉：aGVHD 的发生与治愈状态（免疫重建）相关，但给定治愈状态后，aGVHD 不应直接影响长期 LFS（这是一个强假设，值得商榷）。
3. 模型选择：比较了不同混合治愈模型（如逻辑回归 vs. probit 链接，Cox vs. AFT 模型），通过 AIC/BIC 选择最优模型。
4. 估计：用所选模型估计了 HID 和 MSDT 组的治愈率，以及始终未治愈子群中的时点风险差和平均生存时间差。
结果：
- 治愈率：HID 组的治愈率显著低于 MSDT 组（约 30% vs. 50%）。
- 始终未治愈子群：在未治愈患者中，HID 组的平均生存时间长于 MSDT 组（约 2 年 vs. 1.5 年），且时点风险差显示 HID 组在早期（前 2 年）有更高的生存概率。
这个例子想说明什么：
- 验证理论：展示了所提出的因果估计量在实际数据中是可计算的。
- 展示相对 baseline 的优势：如果只比较治愈率，结论是 MSDT 更好。但通过分析始终未治愈子群，发现 HID 对未治愈患者反而有生存优势。这提供了一个更细致的因果画像：HID 虽然治愈率低，但一旦失败，患者的生存时间更长。这为临床决策提供了额外信息（例如，对于高风险患者，HID 可能是一个合理选择）。

🔎 结论是否比证明窄¶

窄结论 1：定理 1 的可识别性依赖于替代变量假设（A2）。作者在真实例子中使用的 aGVHD 是否满足这个假设？aGVHD 本身可能影响后续治疗和生存，因此给定治愈状态后，aGVHD 与 LFS 可能不独立。作者在讨论中承认了这一点，但未进行敏感性分析。结论比证明窄：识别性在理论上成立，但在实际应用中，替代变量的有效性需要仔细论证。
窄结论 2：定理 2 的渐近性质依赖于模型正确指定（A5）。在实际中，混合治愈模型可能被误设。作者通过模型选择来缓解，但未证明模型选择的一致性。结论比证明窄：渐近理论是“在正确模型下”的，而非“在所有可能模型下”。
泛泛 claim：作者在摘要和引言中声称“我们的方法提供了因果解释”。严格来说，这依赖于可忽略性和替代变量假设。如果这些假设不成立，则估计量没有因果解释。这是一个常见的“因果推断”论文的 claim，需要读者自行判断假设的合理性。

四、开放问题（点到为止，扎根具体语句）¶

替代变量的有效性检验：本文假设替代变量 \( W \) 满足 \( W \perp (Z, T, C) \mid S, X \)。在实际中，如何检验这个假设？是否存在类似于“负对照”检验的方法？扎根：作者在讨论中承认“替代变量的选择需要领域知识，且其有效性无法从数据中验证”。
敏感性分析：如果替代变量假设被违反，估计结果会如何变化？能否发展一种类似于“IV 敏感性分析”的方法？扎根：作者未提供任何敏感性分析。
半参数或非参数识别：本文的识别依赖于参数化的混合治愈模型。能否在更弱的半参数或非参数假设下实现识别？例如，不假设未治愈组的生存模型形式，而是利用替代变量构造非参数估计量？扎根：作者在引言中提到“当前方法主要关注估计模型参数”，暗示参数化是当前主流，但未讨论非参数可能性。
与 Proximal Causal Inference 的正式连接：本文的“替代变量”与 PCI 中的“负对照”或“代理变量”有何精确关系？能否将 PCI 的识别理论（如 Miao et al., 2018）直接应用于此，从而得到更一般的识别条件？扎根：作者引用了 Tchetgen Tchetgen (2014) 关于负对照的工作，但未深入讨论 PCI 框架。值得研究者去查：读 2-3 篇 PCI 的近期综述，确认本文的识别策略是否是 PCI 的一个特例。

Maintained by 陈星宇 · Homepage · Source on GitHub