Assessing the Impact of Intercurrent Events on Power and Sample Size for Estimands with Time-to-Event Endpoints¶

作者: Daniel J Bratton, Fiona Guillard, Sunita Rehal, Thomas Drury
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://arxiv.org/abs/2606.03863

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在临床试验的生存分析（time-to-event）中，当存在中间事件（如停药、使用急救药）时，如何根据 ICH E9(R1) 框架下不同的 estimand 策略（treatment policy, hypothetical, composite 等），在试验设计阶段精确计算检验效能与样本量。当前该方向的成熟度处于“从粗放模拟向解析公式过渡”的阶段：已有工作能处理部分策略，但往往依赖强简化假设（如假设 IE 全在随机化时发生）；本文则试图在保留 IE 发生时间信息的前提下，给出指数分布设定下的闭式公式。

发展脉络： - 奠基工作：ICH E9(R1) [1] 提出了 estimands 框架，要求明确处理 IE，这是整个方向的需求源头。它指出“对治疗效应的精确描述应指导样本量计算”，但未给出具体公式。 - 主要进展：Fang and Jin (2021) [4] 针对连续/二元终点提出了近似样本量计算；Fang et al. (2024) [5] 将其扩展到生存终点与单一 IE。但作者明确指出，[5] 的方法“没有显式纳入 IE 的发生时间，实质上假设所有 IE 都在随机化时发生”，这导致“过于保守的效能估计与膨胀的样本量”。 - 当前 frontier 与本文位置：本文 Bratton et al. (2026) 试图填补 [5] 留下的口子——通过显式建模 IE 发生时间（利用指数分布与马尔可夫多状态模型），推导闭式公式，并扩展到多个 IE 的组合策略。

子线索聚类：被引文献大致落在三条子线索上： 1. Estimand 框架与监管要求：[1] ICH E9(R1) 提出概念；[2] Ratitch et al. (2020) 讨论实践落地；[3] ICH M11 要求协议中写明 IE 如何纳入样本量计算。这一簇在做“概念界定与合规推动”。 2. 解析/近似样本量计算：[4] Fang and Jin (2021) 与 [5] Fang et al. (2024) 代表早期解析尝试，但假设过强。本文属于这一簇的最新推进。 3. 生存分析中的多状态/因果结构：[10] Meller et al. (2019) 用时间齐次马尔可夫模型刻画 PFS 与 OS 的联合过程；[11] Schemper et al. (2009) 提出加权 Cox 回归计算平均 HR；[17] Fay and Li (2024) 与 [18] Hernán (2010) 指出 HR 的因果解释隐患。这一簇在做“复杂生存终点的统计建模与因果解释”。

这个方向在追问的核心问题： 1. 如何将 IE 的时序信息纳入效能计算？（当前瓶颈：简化假设导致保守估计） 2. IE 与终点存在依赖时，效能偏差有多大？（当前瓶颈：闭式公式几乎都要求独立，依赖下的理论极少） 3. 不同 estimand 策略（尤其是 treatment policy）下，post-IE 效应如何参数化并影响 HR？（当前瓶颈：缺乏灵活且可计算的参数化框架）

⚠️ 作者的 framing： - 作者把缺口 frame 成什么：作者将缺口定位为“现有解析公式忽略了 IE 发生时间，导致保守”，从而让“显式纳入时间的闭式公式”成为显然的下一步。 - 竞争路线被淡化：作者淡化了半参数/非参数方法的路线（如直接用稳健估计或 influence function 做效能计算，而非依赖指数分布闭式）；也回避了因果推断语言（如用 potential outcomes 定义 treatment policy estimand，见 [8] Bartlett and Daniel 2025 被引但仅用于“hypothetical 策略删失数据”的技术细节，未用于重新定义 estimand 本身）。 - 明显该被引却缺失的：因果推断中处理 post-treatment 变量的敏感性分析文献（如 marginal sensitivity models, Rosenbaum 的边界工作）完全缺席；半参数效能界理论（如 Robins 的 work）也未出现。这提示：作者完全在“参数-解析-监管”范式内工作，未与“因果-非参数-敏感性”范式对话。

张力：未见明显对立引用。但存在范式张力：[17] Fay and Li 与 [18] Hernán 明确警告 HR 的因果解释问题（因 treatment group imbalance over time），而本文的核心计算仍以 HR 为 summary measure，且用 Schemper 的“平均 HR”来处理非比例风险，这在因果推断视角下是有争议的（HR 本身可能不承载因果含义）。

二、这篇论文做了什么¶

类型：方法型（含解析推导与模拟验证）。

三句话： ① 研究了在固定随访时长、存在多个 IE 的生存终点试验中，如何为 treatment policy / hypothetical / composite 等策略的 estimand 计算检验效能与样本量。 ② 核心工具是指数分布假设下的时间齐次马尔可夫多状态模型，将 IE 发生时间显式纳入，推导出期望事件数与 HR 的闭式/半闭式公式。 ③ 主要结论是：在 IE 与终点独立的假设下，闭式公式与模拟高度一致；当存在正依赖时，composite 与 hypothetical 策略的效能可能偏高，treatment policy 策略的偏差随依赖强度增大。

关键设定与假设： - 固定随访时长 \(\tau\)：不适用于事件驱动型试验（如肿瘤试验等事件数达标才结束）。 - 指数分布：终点 \(T_Y \sim \text{Exp}(\lambda_j)\)，IE \(T_E \sim \text{Exp}(\kappa_j)\)。这是全文闭式公式的基石，相比已有文献未放宽。 - IE 与终点独立：\(T_Y \perp T_E\)（核心假设，作者在 3.3 节探讨偏离但无理论解）。 - Treatment policy 下的 post-IE 效应：IE 发生后，终点风险从 \(\lambda_j\) 跳变至 \(\lambda_j^*\)（常数 HR 假设）。这是强参数化假设，现实中 post-IE 效应可能是时变或未知的。 - Cox PH 模型与 HR 作为 summary measure：假设 log HR 服从正态分布，方差由期望事件数决定（公式 1）。

主要结果： 1. Composite 策略：\(T_C = \min(T_Y, T_E)\)，因独立指数分布最小值仍为指数，HR 为 \(\Delta_C = (\lambda_1+\kappa_1)/(\lambda_0+\kappa_0)\)，期望事件数 \(E(D_C) = n F(\tau; \lambda+\kappa)\)。直觉：IE 变成了终点的一部分，风险叠加。 2. Hypothetical 策略：IE 导致非信息性删失，HR 不变 \(\Delta_H = \lambda_1/\lambda_0\)，但期望事件数缩减为 \(E(D_H) = n \frac{\lambda}{\lambda+\kappa} F(\tau; \lambda+\kappa)\)。直觉：独立删失不改变 cause-specific hazard，只减少事件数。 3. Treatment policy 策略（最关键）：用马尔可夫多状态模型推导出终点累积分布 \(F_P(t)\)（公式 2），涉及 pre-IE 与 post-IE 风险的卷积；HR \(\Delta_P\) 需用 Schemper 的加权平均 HR 公式（公式 3）数值积分计算。直觉：IE 发生时间越早，post-IE 风险 \(\lambda^*\) 替代 \(\lambda\) 的时间越长，整体 HR 越偏离原始 \(\Delta\)。

方法/证明骨架： 1. 无 IE 基线：建立指数分布下 Cox log HR 的正态近似与效能公式（公式 1）。 2. 单一 IE：利用指数分布闭合性处理 composite/hypothetical；对 treatment policy，构建两状态马尔可夫过程（pre-IE state → post-IE state），用分段指数分布推导联合概率（Appendix B 的核心技巧：\(P(T_Y \le t | T_E = s)\) 的分段指数表达）。 3. 多 IE 组合：通过风险叠加（如 \(\nu = \lambda + \kappa_1\) 将 composite 终点视为新指数变量）与条件概率分解，将双 IE/三 IE 问题降维回单 IE 的马尔可夫结构（Appendix C）。 4. 模拟验证：独立设定下 324/144 个场景，计算与模拟差异在 MC 误差内；依赖设定下用 Gaussian copula 量化偏差方向。

🔎 结论是否比证明窄： - 窄结论 1：作者在 3.3 节与 Discussion 明确承认，“IE 与终点存在依赖时，偏差复杂且依赖具体场景”，但仅给出了模拟观察（如“正依赖下观察到的 IE 数少于预期”），无任何理论界或解析修正公式。这里有一个明显的 gap：能否在弱依赖下给出效能偏差的 Taylor 展开或一阶界？ - 窄结论 2：作者声称公式可处理“多个 IE”，但 Discussion 末尾承认“假设所有 treatment policy 策略的 IE 对其他风险修改方式相同”，这在现实中不成立（停药增加风险，急救药降低风险），但公式未覆盖这种异质性修改。 - 泛泛 claim：Discussion 提到“可扩展至 RMST 或加权 HR”，但无任何推导或可行性论证，属于 conjecture。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料： - 社区真在乎的问题：从被引文献 [1-3]（监管机构 ICH 文档）与 [4,5]（近年方法论文）反复点名可见，“如何在样本量计算中显式纳入 IE”是监管与工业界的共识 gap（真 gap）。但“闭式公式”本身可能只是工业界的需求，学术社区更可能在乎“依赖下的理论界”与“因果解释”。 - 作者一家之言：作者将“指数分布下的闭式公式”视为核心贡献，但从学术视角看，指数分布假设极强，结论的普适性受限；真正的理论推进应在“弱依赖下的效能界”或“非参数敏感性分析”上。 - 建议研究者自查：去读因果推断中处理 post-treatment 变量的近期工作（如 Proximal causal inference 在生存分析中的应用、或 sensitivity analysis for truncation by death 的文献），看它们是否已覆盖类似问题。

问题种子清单：

(A) 立即可做（用 very_familiar 工具即可动手）：

问题表述：为 treatment policy estimand 下的 IE-终点依赖偏离，构建非参数敏感性边界（给出 power 偏差的方向与最坏情形界），替代本文的 Gaussian copula 模拟。
扎根在本文哪里：Section 3.3 与 Discussion 第 2 段：“Future work is required to extend the proposed methods to scenarios where outcomes and IEs are dependent… For other handling strategies, similar straightforward workarounds for dependence are less apparent.”
攻它需要什么：因果推断的 identification theory + 敏感性分析框架（如 marginal sensitivity model 或 Rosenbaum 界）；数据可用模拟生成；算力要求极低。
谁已经在附近做：需自查拥挤度。因果推断中处理 truncation by death / post-treatment 的敏感性分析有大量工作，但专门针对“生存终点效能计算”的敏感性界可能较少。
武器库匹配 + 独特角度：用到 very_familiar: estimation theory in causal inference 与 moderately_familiar: identification theory in causal inference。研究者可将本文的“IE 独立”视为一个 ignorability 假设，用 marginal sensitivity model 刻画偏离程度 \(\Gamma\)，推导出期望事件数 \(E(D_j)\) 在 \(\Gamma\)-偏离下的极值，进而给出 power 的最坏/最好情形界。这是本文完全没触碰的视角。
问题表述：将本文 treatment policy 策略下的分段指数风险模型（\(\lambda\) 跳变至 \(\lambda^*\)），重写为潜在结果框架下的因果 estimand，并证明其与 HR \(\Delta_P\) 的对应条件。
扎根在本文哪里：Section 2.2.3 假设“occurrence of E modifies the future hazard by a fixed HR”，但未给出因果定义；[17,18] 被引警告 HR 的因果解释问题。
攻它需要什么：潜在结果框架下的生存分析因果语言（如 Hernán 的 AFT 或 cumulative hazard difference 定义）；无需新数据。
谁已经在附近做：Bartlett and Daniel [8] 已在本文被引，他们用因果语言定义 hypothetical estimand；但 treatment policy 的因果对应仍需澄清。
武器库匹配 + 独特角度：用到 moderately_familiar: identification theory in causal inference。研究者可指出：本文的 \(\lambda^*\) 实质上假设了 \(S\)-ignorability 或某种无延迟效应假设，一旦用潜在结果写清，就能显式看到哪些因果假设被 \(\Delta_P\) 的计算依赖。

(B) 中期可做（需补 moderately_familiar 的特定模块）：

问题表述：在 IE 与终点弱依赖下，推导期望事件数 \(E(D_j)\) 与 HR 的一阶解析修正公式（非纯模拟），给出 power 偏差的 Taylor 展开。
扎根在本文哪里：Section 3.3 仅给模拟观察：“fewer IEs are observed… effectively reducing the observed IE count”；Discussion：“deviations are directly influenced by the level of dependence”。
攻它需要什么：需补 HOIF 的高阶 bias 表达式（用于计算依赖引入的 bias 量级）+ 半参数理论下的风险估计渐近展开。补 1-2 篇：Robins et al. (2008) HOIF 原始论文 + Vaart (1998) 半参数渐近理论。补完后可接回：在指数分布邻域（用扰动参数 \(\epsilon\) 刻画依赖偏离），用 influence function 展开 \(E(D_j)\) 的偏差至 \(O(\epsilon)\)。
谁已经在附近做：需自查。高阶 U-统计量 / HOIF 在生存分析中的 bias 修正有工作，但针对“IE 依赖导致的事件数偏差”可能空白。
武器库匹配 + 独特角度：用到 very_familiar: computation of higher-order U-statistics 与 moderately_familiar: HOIF / theory of higher-order U-statistics。研究者可将“期望事件数”视为一个 U-统计量泛函，依赖偏离视为 nuisance 参数偏离，用 HOIF 计算一阶/二阶 bias——这直接命中研究者的独特技能。

(C) 暂不建议：

问题表述：放弃指数分布假设，在非参数风险函数下推导多 IE 组合策略的效能界。
核心机器缺什么：缺非参数生存函数的精细泛函分析工具（如特定函数空间上的 minimax 界推导），且多状态马尔可夫过程的非参数效能界本身是开放问题。
为何不易绕过：本文所有闭式公式均依赖指数分布的闭合性（最小值仍为指数、分段指数的卷积有解析解）；一旦放开，事件数期望需用积分方程表达，无闭式，minimax 界的推导需处理高维泛函空间，从武器库内不易绕过。

迁移视角（多样性来源）： - 方法 T：本文的“多状态马尔可夫模型 + 分段风险参数化”用于计算效能。 - 目标领域：流行病学/因果推断中的 longitudinal treatment switching / treatment discontinuation。 - 为什么可行：在肿瘤试验的生存分析中，treatment switching（从对照组转至实验组）是典型 IE，已有大量因果工作（如 IPCW、g-formula）处理效应估计，但几乎无人用此马尔可夫参数化框架做效能计算。研究者可将此参数化框架迁移至 switching 场景，用 very_familiar: estimation theory in causal inference 将其与 IPCW 估计的效能需求对接，给出 switching 场景下的样本量闭式公式——这在工业界有直接需求，且学术上新颖。

四、延伸与下一步¶

沿引用链的阅读路线： 1. 地基：先读 [1] ICH E9(R1)（理解监管需求与 estimand 定义）→ [18] Hernán (2010) "The hazards of hazard ratios"（理解 HR 的因果隐患，建立批判视角）。 2. Frontier：再读 [5] Fang et al. (2024)（理解本文要超越的基准方法）→ [10] Meller et al. (2019)（理解多状态马尔可夫模型在生存分析中的用法）→ [8] Bartlett and Daniel (2025)（理解 hypothetical estimand 的因果语言重写）→ 最后精读本文。

假设扰动： - 改动假设：放开“固定随访时长 \(\tau\)”，改为“事件驱动型试验”（随访至预定事件数 \(D\) 达标）。 - 结论如何变化：效能公式（1）中的方差 \(\sigma^2\) 不再仅依赖 \(\tau\) 时刻的期望事件数，而需纳入入组模式与总试验时长；HR 估计的分布可能不再近似正态（因早期停药导致的风险集缩减更严重）。 - 需要什么新工具：需引入入组时间分布的积分，以及序贯检验的 group sequential methodology（预期信息比计算）。 - 落入哪一档：B 档。需补入组模式下的生存分析理论（moderately_familiar 之外的新模块），但核心仍是期望事件数计算，补完后可用 very_familiar 的 minimax 思路评估效能界。

理解检测题：在本文的 treatment policy 策略下，假设 IE（停药）在对照组的发生率 \(\kappa_0 = 0\)，实验组 \(\kappa_1 > 0\)，且 post-IE 风险 \(\lambda_1^* = \lambda_0\)（停药后风险立刻降至对照组水平）。请用公式 (2) 推导：当 \(\kappa_1\) 趋近于 0 时，\(F_P(t)\) 是否退化为无 IE 时的 \(F(t; \lambda_1)\)？当 \(\kappa_1\) 趋近于无穷大（所有人立刻停药）时，\(F_P(t)\) 是否退化为 \(F(t; \lambda_0)\)？请给出这两个极限的直觉解释，并说明这验证了公式的逻辑一致性。

Maintained by 陈星宇 · Homepage · Source on GitHub

Assessing the Impact of Intercurrent Events on Power and Sample Size for Estimands with Time-to-Event Endpoints¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论