Principal stratification analysis of noncompliance with time-to-event outcomes¶

作者: Bo Liu, Lisa Wruck, Fan Li
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Duke University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujad016

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是主分层分析（Principal Stratification, PS），由 Frangakis & Rubin (2002) 正式提出。它要解决的根本问题是：在随机对照试验（RCT）中，当存在“依从性”（compliance）等事后事件（intercurrent events）时，如何定义和识别因果效应。核心思想是：根据个体在潜在的、受处理分配影响的事后事件上的取值，将人群划分为若干“主层”（principal strata），然后在这些层上定义因果效应。例如，在非依从性设定下，主层包括“始终服药者”（always-taker）、“依从者”（complier）、“从不服药者”（never-taker）和“反服药者”（defier）。当前成熟度：在连续或二值结局上已有大量理论和方法，但在时间-事件（time-to-event）结局上，缺乏系统、通用且易于使用的方法。

发展脉络（history）¶

奠基工作：
- Frangakis & Rubin (2002)：正式提出主分层框架，将因果效应定义在由潜在事后事件变量划分的层上，并给出识别条件（如单调性假设、排除限制）。这是整个领域的基石。
- Imbens & Rubin (1997)：在非依从性设定下，将“依从者平均因果效应”（CACE）作为核心 estimand，并给出在连续结局下的识别与估计方法。这为后续工作提供了标准模板。
主要进展（连续/二值结局）：
- Jo (2002)：将主分层模型扩展到混合模型框架，使用正态混合模型估计 CACE。
- Hirano et al. (2000)：使用贝叶斯方法，通过潜变量混合模型对主分层进行推断，并处理了协变量。
- Imbens (2004)：系统总结了非依从性下的非参数识别，并讨论了工具变量（IV）与主分层的关系。
- Cheng & Small (2006)：提出了在二值结局下，利用单调性假设进行非参数边界估计的方法。
- Feller et al. (2017)：将主分层分析应用于更复杂的实验设计，并讨论了敏感性分析。
当前 frontier 与本文的位置：
- 时间-事件结局的挑战：将主分层扩展到时间-事件结局面临几个核心困难：① 结局是右删失的，需要处理删失机制；② 主层内的生存分布通常是混合分布（例如，complier 层中可能包含“永远不会发生事件”的个体，即“治愈”成分）；③ 识别和估计更复杂，需要更精细的模型假设。
- 已有尝试：作者在引言中引用了 Baker (2011)、Jiang et al. (2022) 和 Shepherd et al. (2006) 等早期工作。这些工作要么局限于特定的参数模型（如指数分布），要么没有提供通用的软件实现，限制了其应用。作者指出：“The existing literature on principal stratification lacks generally applicable and accessible methods for time-to-event outcomes.” 这是本文要填补的缺口。
- 本文的位置：本文是第一个系统性地将主分层分析（特别是潜变量混合模型）与灵活的、参数化的 Weibull-Cox 比例风险模型结合，并提供通用软件（R包 PStrata） 的工作。它不是一个理论突破，而是一个应用导向的方法论整合与实现。

子线索聚类¶

识别策略：关注在给定假设（单调性、排除限制）下，如何从观测数据中非参数地识别主层内的因果效应。代表工作：Frangakis & Rubin (2002), Imbens & Rubin (1997), Imbens (2004)。
参数/半参数估计：使用潜变量混合模型（如正态混合、Weibull混合）对主层内的结局分布进行建模，并通过 MLE 或贝叶斯方法进行估计。代表工作：Jo (2002), Hirano et al. (2000), 以及本文。
边界/部分识别：在识别假设较弱时，推导因果效应的非参数边界。代表工作：Cheng & Small (2006), Zhang & Rubin (2003)。
软件实现：将复杂的方法封装成易于使用的软件包，降低应用门槛。代表工作：本文的 R 包 PStrata。

这个方向在追问的核心问题¶

识别：在时间-事件结局下，需要哪些假设才能非参数地识别主层内的因果效应（如 complier survival causal effect）？这些假设在特定应用中是否合理？
估计：如何对主层内的生存分布进行灵活且可计算的建模？如何处理删失和治愈成分（cure fraction）？
敏感性分析：当关键识别假设（如排除限制）被违反时，结论有多稳健？
软件与可复现性：如何让非统计学家也能方便地应用这些复杂方法？

⚠️ 作者的 framing¶

作者的缺口 frame：作者将缺口 frame 为“缺乏通用且易用的时间-事件结局主分层方法”。因此，本文的贡献是提供一个通用的、基于贝叶斯潜变量混合模型的框架，并通过 Stan 和 R 包实现，使得研究者可以“开箱即用”。
被淡化/回避的竞争路线：
- 工具变量（IV）方法：在非依从性下，IV 方法（如两阶段最小二乘）是更简单、更常用的替代方案。作者在引言中承认了 IV 方法，但指出其局限性（如只能估计 complier 的平均效应，且对异质性处理效应敏感）。作者通过强调主分层能提供更丰富的因果信息（如 always-taker 和 never-taker 的效应）来淡化 IV 的吸引力。
- 半参数/非参数估计：作者选择了完全参数化的贝叶斯方法（Weibull-Cox）。这回避了半参数效率理论（如 efficient influence function）的复杂性，但代价是模型假设更强。作者没有讨论如何放松这些参数假设，例如使用样条或高斯过程来建模基线风险函数。
什么明显该被引/该存在、却没出现在 intro 里？
- 半参数效率理论：对于时间-事件结局的因果效应，已有大量关于半参数效率界和双稳健估计（如 Targeted Maximum Likelihood Estimation, TMLE）的文献。本文的贝叶斯方法没有讨论其效率性质，也没有与这些更现代的方法进行比较。这是一个值得研究者去查的潜在缺口：本文的贝叶斯估计量是否达到了半参数效率界？
- 时变依从性：本文只处理了单次、二值的非依从性（如是否按分配服药）。在更现实的纵向试验中，依从性会随时间变化。将主分层扩展到时变依从性是一个自然但困难的方向，相关文献（如 Robins & Hernán 的工作）未被引用。

张力¶

未见明显对立引用。所有被引工作都认可主分层框架的价值，只是在具体实现和扩展方向上有所不同。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( Z_i \in \{0, 1\} \)：个体 \( i \) 的随机处理分配（如 0=81mg 阿司匹林, 1=325mg 阿司匹林）。
- \( D_i(z) \in \{0, 1\} \)：个体 \( i \) 在分配 \( Z_i = z \) 下的潜在处理接受状态（0=未服药, 1=服药）。这是潜在变量，因为对于每个个体，我们只能观测到 \( D_i(Z_i) \)，而观测不到 \( D_i(1-Z_i) \)。
- \( T_i(z) \in [0, \infty) \)：个体 \( i \) 在分配 \( Z_i = z \) 下的潜在时间-事件结局（如发生主要不良心血管事件的时间）。这也是潜在变量。
- \( C_i(z) \in [0, \infty) \)：个体 \( i \) 在分配 \( Z_i = z \) 下的潜在删失时间。
- \( U_i \)：个体 \( i \) 的主层（principal stratum）。由 \( (D_i(0), D_i(1)) \) 的联合取值定义：
  - \( U_i = \text{NT} \) (Never-taker): \( D_i(0) = 0, D_i(1) = 0 \)
  - \( U_i = \text{CO} \) (Complier): \( D_i(0) = 0, D_i(1) = 1 \)
  - \( U_i = \text{AT} \) (Always-taker): \( D_i(0) = 1, D_i(1) = 1 \)
  - \( U_i = \text{DF} \) (Defier): \( D_i(0) = 1, D_i(1) = 0 \) （通常通过单调性假设排除）
- \( X_i \)：个体 \( i \) 的基线协变量向量。
模型：
- 数据生成机制：个体 \( i \) 被随机分配到 \( Z_i \)。根据其主层 \( U_i \) 和分配 \( Z_i \)，其潜在结局 \( T_i(z) \) 和 \( D_i(z) \) 被确定。我们观测到的数据是 \( (Z_i, D_i, T_i, C_i, X_i) \)，其中 \( D_i = D_i(Z_i) \)，\( T_i = \min(T_i(Z_i), C_i(Z_i)) \)，\( \Delta_i = I(T_i(Z_i) \le C_i(Z_i)) \) 是事件指示符。
- 关键假设：
  1. 单调性 (Monotonicity)：\( D_i(1) \ge D_i(0) \)。这排除了 defier，将主层简化为 NT, CO, AT。
  2. 排除限制 (Exclusion Restriction)：对于 NT 和 AT，处理分配 \( Z \) 对结局 \( T \) 没有直接影响，即 \( T_i(0) = T_i(1) \) 对于 \( U_i \in \{\text{NT}, \text{AT}\} \)。这意味着处理效应只通过改变依从状态来影响结局。
  3. 条件独立/无混杂：\( Z_i \) 是随机分配的，因此独立于所有潜在变量 \( (D_i(0), D_i(1), T_i(0), T_i(1)) \)。
  4. 非信息删失：删失时间 \( C_i(z) \) 独立于潜在结局 \( T_i(z) \)，给定协变量 \( X_i \) 和主层 \( U_i \)。
可观测数据：
- 研究者能观测到：\( (Z_i, D_i, T_i, \Delta_i, X_i) \)。
- 研究者不能直接观测到：主层 \( U_i \)，以及任何反事实的潜在变量（如 \( D_i(1-Z_i) \), \( T_i(1-Z_i) \)）。

第二步：讲最小内核¶

本文的核心思路是：通过潜变量混合模型，将观测到的、来自不同主层的个体的生存数据“分离”开来，从而估计每个主层内的生存分布。

最简特例：假设没有协变量 \( X \)，且结局时间 \( T \) 服从指数分布（即风险为常数 \( \lambda \)）。我们只关注 complier 的平均因果效应（CACE），定义为 complier 层内，处理组与对照组生存时间的期望差（或风险比）。

在这个特例下： 1. 观测数据：我们只知道每个个体的 \( (Z, D, T, \Delta) \)。 2. 主层混合：观测到的数据是来自三个主层（NT, CO, AT）的混合。例如，在 \( Z=1 \) 组中，所有 \( D=1 \) 的个体是 CO 和 AT 的混合；所有 \( D=0 \) 的个体是 NT。在 \( Z=0 \) 组中，所有 \( D=0 \) 的个体是 NT 和 CO 的混合；所有 \( D=1 \) 的个体是 AT。 3. 似然函数：我们可以写出整个观测数据的似然函数，它是每个主层内生存密度的加权和，权重是主层的概率（\( \pi_{\text{NT}}, \pi_{\text{CO}}, \pi_{\text{AT}} \)）。例如，一个在 \( Z=1 \) 组中 \( D=1 \) 且事件发生在 \( t \) 的个体，其似然贡献为：

\[\pi_{\text{CO}} \cdot f_{\text{CO},1}(t) + \pi_{\text{AT}} \cdot f_{\text{AT},1}(t)\]

其中 \( f_{\text{CO},1}(t) \) 是 complier 在 \( Z=1 \) 下的生存密度，\( f_{\text{AT},1}(t) \) 是 always-taker 在 \( Z=1 \) 下的生存密度。根据排除限制，\( f_{\text{AT},1}(t) = f_{\text{AT},0}(t) \)。 4. 核心困难：这个似然函数是不可识别的，因为参数太多。我们需要额外的假设来“锚定”某些分布。 5. 本文的关键想法：作者使用参数化模型（如 Weibull-Cox）来为每个主层内的生存分布指定一个低维参数形式。例如，假设 \( f_{\text{CO},z}(t) \) 服从 Weibull 分布，其形状参数 \( k_{\text{CO}} \) 和尺度参数 \( \lambda_{\text{CO},z} \) 依赖于 \( z \)。通过这种方式，模型参数的总数被大大减少，使得似然函数变得可识别。然后，通过贝叶斯方法（MCMC）从后验分布中采样这些参数，进而计算出任何感兴趣的因果 estimand（如 complier 的风险比 \( \lambda_{\text{CO},1} / \lambda_{\text{CO},0} \)）。

总结：本文的最小内核就是用一个参数化的潜变量混合模型来“解耦”观测到的混合生存数据，从而估计出每个主层内的因果效应。它没有引入新的识别策略，而是将已有的识别策略与灵活的生存分析模型和强大的贝叶斯计算工具结合起来。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在随机对照试验中，当存在非依从性且结局为时间-事件（time-to-event）时，如何定义、识别和估计主分层（principal stratification）框架下的因果效应。
核心工具/方法：采用潜变量混合模型（latent mixture modeling），使用贝叶斯参数化的 Weibull-Cox 比例风险模型对每个主层内的生存分布进行建模，并利用 Stan 编程语言实现后验采样。
主要结论：提出了两个具体的因果 estimand（complier 的生存因果效应和风险比），给出了非参数识别公式，并提供了一个完整的、可复现的贝叶斯估计流程和 R 包 PStrata，通过 ADAPTABLE 试验数据展示了其应用。

关键设定与假设¶

在第二节最小记号的基础上，本文的完整设定如下：

主层定义：基于潜在依从状态 \( (D_i(0), D_i(1)) \)，假设单调性，得到三个主层：NT, CO, AT。
因果 estimand：
1. Complier Survival Causal Effect (CSCE)：\( \text{CSCE}(t) = S_{\text{CO},1}(t) - S_{\text{CO},0}(t) \)，其中 \( S_{\text{CO},z}(t) = P(T(z) > t | U = \text{CO}) \) 是 complier 在分配 \( z \) 下的生存函数。
2. Complier Hazard Ratio (CHR)：\( \text{CHR} = \frac{h_{\text{CO},1}(t)}{h_{\text{CO},0}(t)} \)，其中 \( h_{\text{CO},z}(t) \) 是 complier 在分配 \( z \) 下的风险函数。在比例风险假设下，CHR 是常数。
关键假设（完整列表）：
1. SUTVA (Stable Unit Treatment Value Assumption)：个体间无干扰，且处理水平唯一。
2. 随机分配 (Randomization)：\( Z_i \perp (D_i(0), D_i(1), T_i(0), T_i(1), C_i(0), C_i(1)) \)。
3. 单调性 (Monotonicity)：\( D_i(1) \ge D_i(0) \)。
4. 排除限制 (Exclusion Restriction)：对于 NT 和 AT，\( T_i(0) = T_i(1) \)。
5. 条件独立删失 (Conditionally Independent Censoring)：给定协变量 \( X_i \) 和主层 \( U_i \)，删失时间 \( C_i(z) \) 独立于潜在结局 \( T_i(z) \)。
6. 参数模型假设：每个主层内的生存时间服从 Weibull 分布，且风险函数满足比例风险假设（即协变量效应是乘性的）。具体地，对于主层 \( u \in \{\text{NT}, \text{CO}, \text{AT}\} \)，风险函数为：
  \[h_u(t | X_i) = k_u \lambda_u t^{k_u - 1} \exp(\beta_u^T X_i + \gamma_u Z_i)\]
  其中 \( k_u \) 是 Weibull 形状参数，\( \lambda_u \) 是尺度参数，\( \beta_u \) 是协变量效应，\( \gamma_u \) 是处理效应。注意，根据排除限制，对于 NT 和 AT，\( \gamma_u = 0 \)。
相比已有文献的强化/放宽：
- 强化：本文使用了完全参数化的 Weibull-Cox 模型，这比许多半参数或非参数方法（如 Baker 2011 的指数模型）假设更强，但换来了计算上的便利和灵活性。
- 放宽：相比早期仅使用指数分布的工作，Weibull 分布允许风险函数随时间变化，更加灵活。同时，通过引入协变量，可以调整基线风险。

主要结果¶

本文的主要结果是一个完整的方法论框架，而非单个突破性的定理。核心结果包括：

非参数识别公式：作者给出了 complier 生存函数 \( S_{\text{CO},z}(t) \) 的非参数识别公式（公式 2），它依赖于可观测数据的分布和主层概率。这个公式是理论基石，但实际估计时需要参数模型。
贝叶斯估计流程：
- 先验设定：为所有模型参数（\( k_u, \lambda_u, \beta_u, \gamma_u \) 和主层概率 \( \pi_u \)）指定了弱信息先验（如半柯西先验、正态先验）。
- 后验采样：使用 Stan 的 HMC 算法从后验分布中采样。
- Estimand 计算：对于 CSCE(t)，可以直接从后验样本中计算 \( S_{\text{CO},z}(t) \) 的解析形式（基于 Weibull 分布）。对于 CHR，在比例风险假设下，它等于 \( \exp(\gamma_{\text{CO}}) \)，可以直接从后验样本中得到。
模拟实验：作者进行了模拟研究，评估了所提方法在不同样本量、删失比例和依从率下的表现。结果显示，该方法能够无偏地估计 CSCE 和 CHR，且后验区间覆盖率达到名义水平。这是对方法可行性的验证。
ADAPTABLE 试验应用：
- 数据：ADAPTABLE 试验比较了 81 mg 与 325 mg 阿司匹林对心血管事件的影响。非依从性较高（约 20-30% 的患者在随访期间改变了剂量）。
- 方法应用：将本文方法应用于该数据，估计了 complier 的 CSCE 和 CHR。
- 结果：分析发现，在 complier 中，325 mg 剂量相比 81 mg 剂量，并未显著降低主要不良心血管事件的风险（CHR 的后验均值接近 1，95% 可信区间包含 1）。这个结果与 ITT 分析一致，但提供了更精细的因果解释。
- 例子想说明什么：这个例子展示了本文方法在真实世界复杂试验中的应用价值，能够处理高非依从性，并提供比传统 ITT 或 PP（per-protocol）分析更合理的因果推断。

证明路线与技术技巧¶

本文是应用型论文，没有复杂的数学证明。其“证明”主要体现在模型的可识别性和贝叶斯推断的正确性上。

整体路线：
1. 模型构建：基于主分层框架和关键假设，构建潜变量混合模型。
2. 似然函数：写出观测数据的似然函数，它是主层内生存密度的混合。
3. 先验指定：为所有参数指定先验分布。
4. 后验推断：利用 Stan 进行 MCMC 采样，得到参数的后验分布。
5. Estimand 计算：从后验样本中计算因果 estimand。
关键跳跃点：
- 从不可识别到可识别：非参数模型是不可识别的。关键的跳跃是引入参数化的 Weibull-Cox 模型，将每个主层内的无限维生存分布压缩为几个参数，从而使得模型变得可识别。这是所有参数化潜变量模型的核心技巧。
- 处理删失：在似然函数中，右删失观测的贡献是生存函数 \( S(t) \)，而不是密度 \( f(t) \)。这需要仔细处理，但 Stan 可以自动处理。
技术技巧点名：
- 潜变量混合模型：核心建模框架。
- 贝叶斯推断 (MCMC via Stan)：用于参数估计和不确定性量化。
- Weibull-Cox 比例风险模型：灵活的生存分析模型。
- 弱信息先验：在数据量不足时稳定推断。

🔎 结论是否比证明窄¶

是。作者在引言和结论中声称本文提供了一个“generally applicable”的方法。然而，这个“一般性”是建立在强参数假设（Weibull-Cox）之上的。作者在讨论部分承认了这一点，并提到可以扩展到其他参数模型（如分段指数模型）。但严格来说，本文的结论（即所提方法有效）只在 Weibull-Cox 模型正确指定的情况下被“证明”（通过模拟）。对于模型误设定下的稳健性，作者没有提供理论保证，只在模拟中进行了初步探索。
具体语句：作者在结论中说：“The proposed framework is general and can be adapted to other parametric models...”。这里的“general”应理解为“框架的通用性”，而非“方法的无模型假设性”。读者需要警惕，不要将本文的方法视为一个无需模型诊断的“黑箱”。

四、开放问题¶

半参数效率界：本文的贝叶斯估计量是否达到了半参数效率界？对于 complier 的生存函数或风险比，其半参数效率界是什么？能否构造一个双稳健的估计量（如 TMLE）来替代本文的参数化贝叶斯方法？扎根点：本文没有讨论效率理论，这是一个明显的理论缺口。研究者可以查阅关于时间-事件结局因果效应的半参数效率文献（如 van der Laan & Robins 的工作），并与本文的贝叶斯方法进行比较。
时变依从性：本文只处理了单次、二值的非依从性。如何将主分层框架扩展到时变依从性（如患者在每个随访时间点都可能改变服药状态）？这需要定义更复杂的主层（如“始终依从者”、“部分依从者”），并处理时变混杂。扎根点：本文的引言和讨论均未提及时变依从性，这是一个自然的扩展方向。研究者可以阅读 Robins 关于结构嵌套模型（Structural Nested Models）和 G-estimation 的工作，这些方法专门处理时变暴露。
敏感性分析：本文的识别依赖于排除限制和单调性假设。当这些假设被违反时，结论有多稳健？如何发展一个系统性的敏感性分析方法？扎根点：作者在讨论中提到了敏感性分析的重要性，但未给出具体方法。研究者可以借鉴连续结局下主分层分析的敏感性分析方法（如 Small et al. 的工作），并将其扩展到时间-事件结局。
模型误设定诊断：本文的 Weibull-Cox 模型假设很强。如何诊断模型是否误设定？例如，如何检验比例风险假设在每个主层内是否成立？如果模型误设定，估计结果会有多大偏差？扎根点：作者在模拟中测试了模型正确指定下的表现，但没有系统研究模型误设定的影响。这是一个重要的实践问题。

Maintained by 陈星宇 · Homepage · Source on GitHub