Assessing the Impact of Intercurrent Events on Power and Sample Size for Estimands with Time-to-Event Endpoints¶
作者: Daniel J Bratton, Fiona Guillard, Sunita Rehal, Thomas Drury
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://arxiv.org/abs/2606.03863
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在临床试验的生存分析(time-to-event)中,当存在中间事件(如停药、使用急救药)时,如何根据 ICH E9(R1) 框架下不同的 estimand 策略(treatment policy, hypothetical, composite 等),在试验设计阶段精确计算检验效能与样本量。当前该方向的成熟度处于“从粗放模拟向解析公式过渡”的阶段:已有工作能处理部分策略,但往往依赖强简化假设(如假设 IE 全在随机化时发生);本文则试图在保留 IE 发生时间信息的前提下,给出指数分布设定下的闭式公式。
发展脉络: - 奠基工作:ICH E9(R1) [1] 提出了 estimands 框架,要求明确处理 IE,这是整个方向的需求源头。它指出“对治疗效应的精确描述应指导样本量计算”,但未给出具体公式。 - 主要进展:Fang and Jin (2021) [4] 针对连续/二元终点提出了近似样本量计算;Fang et al. (2024) [5] 将其扩展到生存终点与单一 IE。但作者明确指出,[5] 的方法“没有显式纳入 IE 的发生时间,实质上假设所有 IE 都在随机化时发生”,这导致“过于保守的效能估计与膨胀的样本量”。 - 当前 frontier 与本文位置:本文 Bratton et al. (2026) 试图填补 [5] 留下的口子——通过显式建模 IE 发生时间(利用指数分布与马尔可夫多状态模型),推导闭式公式,并扩展到多个 IE 的组合策略。
子线索聚类: 被引文献大致落在三条子线索上: 1. Estimand 框架与监管要求:[1] ICH E9(R1) 提出概念;[2] Ratitch et al. (2020) 讨论实践落地;[3] ICH M11 要求协议中写明 IE 如何纳入样本量计算。这一簇在做“概念界定与合规推动”。 2. 解析/近似样本量计算:[4] Fang and Jin (2021) 与 [5] Fang et al. (2024) 代表早期解析尝试,但假设过强。本文属于这一簇的最新推进。 3. 生存分析中的多状态/因果结构:[10] Meller et al. (2019) 用时间齐次马尔可夫模型刻画 PFS 与 OS 的联合过程;[11] Schemper et al. (2009) 提出加权 Cox 回归计算平均 HR;[17] Fay and Li (2024) 与 [18] Hernán (2010) 指出 HR 的因果解释隐患。这一簇在做“复杂生存终点的统计建模与因果解释”。
这个方向在追问的核心问题: 1. 如何将 IE 的时序信息纳入效能计算?(当前瓶颈:简化假设导致保守估计) 2. IE 与终点存在依赖时,效能偏差有多大?(当前瓶颈:闭式公式几乎都要求独立,依赖下的理论极少) 3. 不同 estimand 策略(尤其是 treatment policy)下,post-IE 效应如何参数化并影响 HR?(当前瓶颈:缺乏灵活且可计算的参数化框架)
⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将缺口定位为“现有解析公式忽略了 IE 发生时间,导致保守”,从而让“显式纳入时间的闭式公式”成为显然的下一步。 - 竞争路线被淡化:作者淡化了半参数/非参数方法的路线(如直接用稳健估计或 influence function 做效能计算,而非依赖指数分布闭式);也回避了因果推断语言(如用 potential outcomes 定义 treatment policy estimand,见 [8] Bartlett and Daniel 2025 被引但仅用于“hypothetical 策略删失数据”的技术细节,未用于重新定义 estimand 本身)。 - 明显该被引却缺失的:因果推断中处理 post-treatment 变量的敏感性分析文献(如 marginal sensitivity models, Rosenbaum 的边界工作)完全缺席;半参数效能界理论(如 Robins 的 work)也未出现。这提示:作者完全在“参数-解析-监管”范式内工作,未与“因果-非参数-敏感性”范式对话。
张力: 未见明显对立引用。但存在范式张力:[17] Fay and Li 与 [18] Hernán 明确警告 HR 的因果解释问题(因 treatment group imbalance over time),而本文的核心计算仍以 HR 为 summary measure,且用 Schemper 的“平均 HR”来处理非比例风险,这在因果推断视角下是有争议的(HR 本身可能不承载因果含义)。
二、这篇论文做了什么¶
类型:方法型(含解析推导与模拟验证)。
三句话: ① 研究了在固定随访时长、存在多个 IE 的生存终点试验中,如何为 treatment policy / hypothetical / composite 等策略的 estimand 计算检验效能与样本量。 ② 核心工具是指数分布假设下的时间齐次马尔可夫多状态模型,将 IE 发生时间显式纳入,推导出期望事件数与 HR 的闭式/半闭式公式。 ③ 主要结论是:在 IE 与终点独立的假设下,闭式公式与模拟高度一致;当存在正依赖时,composite 与 hypothetical 策略的效能可能偏高,treatment policy 策略的偏差随依赖强度增大。
关键设定与假设: - 固定随访时长 \(\tau\):不适用于事件驱动型试验(如肿瘤试验等事件数达标才结束)。 - 指数分布:终点 \(T_Y \sim \text{Exp}(\lambda_j)\),IE \(T_E \sim \text{Exp}(\kappa_j)\)。这是全文闭式公式的基石,相比已有文献未放宽。 - IE 与终点独立:\(T_Y \perp T_E\)(核心假设,作者在 3.3 节探讨偏离但无理论解)。 - Treatment policy 下的 post-IE 效应:IE 发生后,终点风险从 \(\lambda_j\) 跳变至 \(\lambda_j^*\)(常数 HR 假设)。这是强参数化假设,现实中 post-IE 效应可能是时变或未知的。 - Cox PH 模型与 HR 作为 summary measure:假设 log HR 服从正态分布,方差由期望事件数决定(公式 1)。
主要结果: 1. Composite 策略:\(T_C = \min(T_Y, T_E)\),因独立指数分布最小值仍为指数,HR 为 \(\Delta_C = (\lambda_1+\kappa_1)/(\lambda_0+\kappa_0)\),期望事件数 \(E(D_C) = n F(\tau; \lambda+\kappa)\)。直觉:IE 变成了终点的一部分,风险叠加。 2. Hypothetical 策略:IE 导致非信息性删失,HR 不变 \(\Delta_H = \lambda_1/\lambda_0\),但期望事件数缩减为 \(E(D_H) = n \frac{\lambda}{\lambda+\kappa} F(\tau; \lambda+\kappa)\)。直觉:独立删失不改变 cause-specific hazard,只减少事件数。 3. Treatment policy 策略(最关键):用马尔可夫多状态模型推导出终点累积分布 \(F_P(t)\)(公式 2),涉及 pre-IE 与 post-IE 风险的卷积;HR \(\Delta_P\) 需用 Schemper 的加权平均 HR 公式(公式 3)数值积分计算。直觉:IE 发生时间越早,post-IE 风险 \(\lambda^*\) 替代 \(\lambda\) 的时间越长,整体 HR 越偏离原始 \(\Delta\)。
方法/证明骨架: 1. 无 IE 基线:建立指数分布下 Cox log HR 的正态近似与效能公式(公式 1)。 2. 单一 IE:利用指数分布闭合性处理 composite/hypothetical;对 treatment policy,构建两状态马尔可夫过程(pre-IE state → post-IE state),用分段指数分布推导联合概率(Appendix B 的核心技巧:\(P(T_Y \le t | T_E = s)\) 的分段指数表达)。 3. 多 IE 组合:通过风险叠加(如 \(\nu = \lambda + \kappa_1\) 将 composite 终点视为新指数变量)与条件概率分解,将双 IE/三 IE 问题降维回单 IE 的马尔可夫结构(Appendix C)。 4. 模拟验证:独立设定下 324/144 个场景,计算与模拟差异在 MC 误差内;依赖设定下用 Gaussian copula 量化偏差方向。
🔎 结论是否比证明窄: - 窄结论 1:作者在 3.3 节与 Discussion 明确承认,“IE 与终点存在依赖时,偏差复杂且依赖具体场景”,但仅给出了模拟观察(如“正依赖下观察到的 IE 数少于预期”),无任何理论界或解析修正公式。这里有一个明显的 gap:能否在弱依赖下给出效能偏差的 Taylor 展开或一阶界? - 窄结论 2:作者声称公式可处理“多个 IE”,但 Discussion 末尾承认“假设所有 treatment policy 策略的 IE 对其他风险修改方式相同”,这在现实中不成立(停药增加风险,急救药降低风险),但公式未覆盖这种异质性修改。 - 泛泛 claim:Discussion 提到“可扩展至 RMST 或加权 HR”,但无任何推导或可行性论证,属于 conjecture。
三、值不值得做 / 研究者能做什么¶
领域层面的判断材料: - 社区真在乎的问题:从被引文献 [1-3](监管机构 ICH 文档)与 [4,5](近年方法论文)反复点名可见,“如何在样本量计算中显式纳入 IE”是监管与工业界的共识 gap(真 gap)。但“闭式公式”本身可能只是工业界的需求,学术社区更可能在乎“依赖下的理论界”与“因果解释”。 - 作者一家之言:作者将“指数分布下的闭式公式”视为核心贡献,但从学术视角看,指数分布假设极强,结论的普适性受限;真正的理论推进应在“弱依赖下的效能界”或“非参数敏感性分析”上。 - 建议研究者自查:去读因果推断中处理 post-treatment 变量的近期工作(如 Proximal causal inference 在生存分析中的应用、或 sensitivity analysis for truncation by death 的文献),看它们是否已覆盖类似问题。
问题种子清单:
(A) 立即可做(用 very_familiar 工具即可动手):
- 问题表述:为 treatment policy estimand 下的 IE-终点依赖偏离,构建非参数敏感性边界(给出 power 偏差的方向与最坏情形界),替代本文的 Gaussian copula 模拟。
- 扎根在本文哪里:Section 3.3 与 Discussion 第 2 段:“Future work is required to extend the proposed methods to scenarios where outcomes and IEs are dependent… For other handling strategies, similar straightforward workarounds for dependence are less apparent.”
- 攻它需要什么:因果推断的 identification theory + 敏感性分析框架(如 marginal sensitivity model 或 Rosenbaum 界);数据可用模拟生成;算力要求极低。
- 谁已经在附近做:需自查拥挤度。因果推断中处理 truncation by death / post-treatment 的敏感性分析有大量工作,但专门针对“生存终点效能计算”的敏感性界可能较少。
-
武器库匹配 + 独特角度:用到
very_familiar: estimation theory in causal inference与moderately_familiar: identification theory in causal inference。研究者可将本文的“IE 独立”视为一个 ignorability 假设,用 marginal sensitivity model 刻画偏离程度 \(\Gamma\),推导出期望事件数 \(E(D_j)\) 在 \(\Gamma\)-偏离下的极值,进而给出 power 的最坏/最好情形界。这是本文完全没触碰的视角。 -
问题表述:将本文 treatment policy 策略下的分段指数风险模型(\(\lambda\) 跳变至 \(\lambda^*\)),重写为潜在结果框架下的因果 estimand,并证明其与 HR \(\Delta_P\) 的对应条件。
- 扎根在本文哪里:Section 2.2.3 假设“occurrence of E modifies the future hazard by a fixed HR”,但未给出因果定义;[17,18] 被引警告 HR 的因果解释问题。
- 攻它需要什么:潜在结果框架下的生存分析因果语言(如 Hernán 的 AFT 或 cumulative hazard difference 定义);无需新数据。
- 谁已经在附近做:Bartlett and Daniel [8] 已在本文被引,他们用因果语言定义 hypothetical estimand;但 treatment policy 的因果对应仍需澄清。
- 武器库匹配 + 独特角度:用到
moderately_familiar: identification theory in causal inference。研究者可指出:本文的 \(\lambda^*\) 实质上假设了 \(S\)-ignorability 或某种无延迟效应假设,一旦用潜在结果写清,就能显式看到哪些因果假设被 \(\Delta_P\) 的计算依赖。
(B) 中期可做(需补 moderately_familiar 的特定模块):
- 问题表述:在 IE 与终点弱依赖下,推导期望事件数 \(E(D_j)\) 与 HR 的一阶解析修正公式(非纯模拟),给出 power 偏差的 Taylor 展开。
- 扎根在本文哪里:Section 3.3 仅给模拟观察:“fewer IEs are observed… effectively reducing the observed IE count”;Discussion:“deviations are directly influenced by the level of dependence”。
- 攻它需要什么:需补 HOIF 的高阶 bias 表达式(用于计算依赖引入的 bias 量级)+ 半参数理论下的风险估计渐近展开。补 1-2 篇:Robins et al. (2008) HOIF 原始论文 + Vaart (1998) 半参数渐近理论。补完后可接回:在指数分布邻域(用扰动参数 \(\epsilon\) 刻画依赖偏离),用 influence function 展开 \(E(D_j)\) 的偏差至 \(O(\epsilon)\)。
- 谁已经在附近做:需自查。高阶 U-统计量 / HOIF 在生存分析中的 bias 修正有工作,但针对“IE 依赖导致的事件数偏差”可能空白。
- 武器库匹配 + 独特角度:用到
very_familiar: computation of higher-order U-statistics与moderately_familiar: HOIF / theory of higher-order U-statistics。研究者可将“期望事件数”视为一个 U-统计量泛函,依赖偏离视为 nuisance 参数偏离,用 HOIF 计算一阶/二阶 bias——这直接命中研究者的独特技能。
(C) 暂不建议:
- 问题表述:放弃指数分布假设,在非参数风险函数下推导多 IE 组合策略的效能界。
- 核心机器缺什么:缺非参数生存函数的精细泛函分析工具(如特定函数空间上的 minimax 界推导),且多状态马尔可夫过程的非参数效能界本身是开放问题。
- 为何不易绕过:本文所有闭式公式均依赖指数分布的闭合性(最小值仍为指数、分段指数的卷积有解析解);一旦放开,事件数期望需用积分方程表达,无闭式,minimax 界的推导需处理高维泛函空间,从武器库内不易绕过。
迁移视角(多样性来源):
- 方法 T:本文的“多状态马尔可夫模型 + 分段风险参数化”用于计算效能。
- 目标领域:流行病学/因果推断中的 longitudinal treatment switching / treatment discontinuation。
- 为什么可行:在肿瘤试验的生存分析中,treatment switching(从对照组转至实验组)是典型 IE,已有大量因果工作(如 IPCW、g-formula)处理效应估计,但几乎无人用此马尔可夫参数化框架做效能计算。研究者可将此参数化框架迁移至 switching 场景,用 very_familiar: estimation theory in causal inference 将其与 IPCW 估计的效能需求对接,给出 switching 场景下的样本量闭式公式——这在工业界有直接需求,且学术上新颖。
四、延伸与下一步¶
沿引用链的阅读路线: 1. 地基:先读 [1] ICH E9(R1)(理解监管需求与 estimand 定义)→ [18] Hernán (2010) "The hazards of hazard ratios"(理解 HR 的因果隐患,建立批判视角)。 2. Frontier:再读 [5] Fang et al. (2024)(理解本文要超越的基准方法)→ [10] Meller et al. (2019)(理解多状态马尔可夫模型在生存分析中的用法)→ [8] Bartlett and Daniel (2025)(理解 hypothetical estimand 的因果语言重写)→ 最后精读本文。
假设扰动: - 改动假设:放开“固定随访时长 \(\tau\)”,改为“事件驱动型试验”(随访至预定事件数 \(D\) 达标)。 - 结论如何变化:效能公式(1)中的方差 \(\sigma^2\) 不再仅依赖 \(\tau\) 时刻的期望事件数,而需纳入入组模式与总试验时长;HR 估计的分布可能不再近似正态(因早期停药导致的风险集缩减更严重)。 - 需要什么新工具:需引入入组时间分布的积分,以及序贯检验的 group sequential methodology(预期信息比计算)。 - 落入哪一档:B 档。需补入组模式下的生存分析理论(moderately_familiar 之外的新模块),但核心仍是期望事件数计算,补完后可用 very_familiar 的 minimax 思路评估效能界。
理解检测题: 在本文的 treatment policy 策略下,假设 IE(停药)在对照组的发生率 \(\kappa_0 = 0\),实验组 \(\kappa_1 > 0\),且 post-IE 风险 \(\lambda_1^* = \lambda_0\)(停药后风险立刻降至对照组水平)。请用公式 (2) 推导:当 \(\kappa_1\) 趋近于 0 时,\(F_P(t)\) 是否退化为无 IE 时的 \(F(t; \lambda_1)\)?当 \(\kappa_1\) 趋近于无穷大(所有人立刻停药)时,\(F_P(t)\) 是否退化为 \(F(t; \lambda_0)\)?请给出这两个极限的直觉解释,并说明这验证了公式的逻辑一致性。
Maintained by 陈星宇 · Homepage · Source on GitHub