Inference procedures in sequential trial emulation with survival outcomes: Comparing confidence intervals based on the sandwich variance estimator, bootstrap and jackknife¶

作者: Juliette M Limozin, Shaun R Seaman, Li Su
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：在观察性研究中，如何利用「目标试验模拟」(target trial emulation, TTE) 的框架来估计时间依赖性处理的因果效应，并为其推断（特别是置信区间构造）提供可靠的方法。TTE 的核心思想是，用观察数据模拟一个理想随机试验的设计与分析，通过指定试验纳入/排除标准、处理分配规则、随访起始时间、结局定义，以及分析策略（意向治疗 vs. 符合方案），来避免传统的观察性研究中常见的自选偏倚（如不朽时间偏倚、时变混杂）。当前该方向成熟度较高，TTE 框架本身已由 Hernán 等人系统建立，但在推断程序上——尤其是生存结局下、小样本/低事件率/低处理暴露率的典型 STE 场景——尚缺乏系统比较与指导。

发展脉络¶

用引言中的引用链串成一条线：

奠基工作 (2008–2011)：Hernán, Alonso et al. (2008, Ann Intern Med) 用护士健康研究数据模拟了激素疗法与冠心病风险的随机试验，首次展示了 TTE 的操作流程与效果。Danaei, García Rodríguez et al. (2011, Stat Methods Med Res) 进一步系统化该方法，将其用于评估他汀类药物对 CHD 的一级预防，并阐述了如何利用逆概率删失权重处理时变混杂。这两篇是 TTE 实证的奠基，建立了 "specify target trial → emulate in observational data" 的标准范式。
主要进展 (2015–2022)：Keogh, Gran, Seaman et al. (2021, Stat Methods Med Res) 系统比较了 sequential trials approach 与 MSM-IPTW 两种方法，阐明了它们在估计同一个边际风险差时的等价性与差异，并给出了模拟数据生成方法（见其引用 Young & Tchetgen Tchetgen 2013 与 Seaman & Keogh 2023）。Matthews, Danaei, Islam et al. (2022, BMJ) 撰写了 TTE 应用的实践指南。Hernán, Wang & Leaf (2022, JAMA) 出版了系统性专著式的框架文。同时，方差估计的专门研究开始积累：Austin (2016, Stat Med) 对 IPTW + Cox 模型下的 sandwich 与 bootstrap 进行了模拟；Austin (2022, Stat Med) 在连续/二元结局下系统比较了 sandwich 与 bootstrap；Shu, Young et al. (2020, Biometrics) 证明了 sandwich 方差估计器的保守性并提出了新的估计方程组合方法。Mao, Li, Yang & Shen (2018, Scand Stat 等) 给出了生存结局下 IPW 的 estimand 与推断的统一框架。
当前 frontier：在 TTE + 生存结局 + IPW 的场景下，小样本、低事件率、低治疗暴露率是典型但常被忽略的情境（见 Murray, Caniglia & Petito 2021 的实践观察）。已有的方差估计方法（sandwich 保守但快，bootstrap 计算昂贵且可能小样本下不可靠，jackknife 在 TTE 中已被使用但欠系统评估）尚缺系统性比较，特别是 LEF bootstrap（linearised estimating function bootstrap）尚未被适配到 TTE 框架。
本文位置：本文恰好填补这个 gap——在 TTE + 生存结局 + 边际风险差 (MRD) 的设定下，比较 sandwich、nonparametric bootstrap、LEF bootstrap、jackknife 四种 CI 构造方法的有限样本表现。

子线索聚类¶

这些被引文献大致落在四条子线索上：

TTE 框架设计与实质：Hernán et al. (2008, 2022), Danaei et al. (2011), Matthews et al. (2022), Maringe et al. (2020) — 定义目标试验、克隆、定义删失、构造权重。
TTE + 生存结局的估计方法：Keogh et al. (2021), Murray et al. (2021), Hernán (2010, Epidemiology 论 HR 问题) — 估计算法（pooled logistic / MSM-IPTW / sequential trials），以及 HR 的局限性（选择 MRD 作为 estimand 的原因）。
方差估计方法：Austin (2016, 2022), Shu et al. (2020), Cai & van der Laan (2020, bootstrap for HAL-TMLE), Ertefaie, Hejazi & van der Laan (2020, 高效 IPW 与 sandwich 的渐近线性), Zheng, Petersen & van der Laan (2016, 生存 MSM 的双稳健与高效估计) — 包含了 sandwich、bootstrap、jackknife、以及基于高效影响函数的估计。
模拟研究设计与数据生成：Morris, White & Crowther (2017, Stat Med 经典模拟设计指南), Young & Tchetgen Tchetgen (2013), Seaman & Keogh (2023) — 如何产生已知 MSM 的生存数据。

这个方向在追问的核心问题¶

CI 覆盖率的可靠性：在 TTE 场景下，IPW 估计的 MRD 的 CI 覆盖率是否达标？尤其当样本量、事件率、治疗暴露率偏低时。
方差估计的保守性：sandwich 方差估计不纳入权重估计的不确定性，其覆盖是否过剩？过保守会牺牲效力。
计算可行性：nonparametric bootstrap 计算花销大而 jackknife 假说了「leave-one-out」顺序；是否有中间路线？
LEF bootstrap 的迁移性：LEF bootstrap 已在其他因果推断场景（连续/二元结局）有良好表现，但尚未在 STE + 生存结局中得到验证。

⚠️ 作者的 framing¶

作者把缺口 frame 成：「在 STE + 生存结局 + MRD 的设定下，四种方差估计方法（sandwich, nonparametric bootstrap, LEF bootstrap, jackknife）尚无人系统比较；特别是 LEF bootstrap 未被适配到生存 STE。」他们声称动机来自实践：在 TTE 中治疗组人数可能很小（见 Murray et al. 2021 的引述），故比较必须覆盖小样本、低事件率、低暴露率。他们在引言中淡化的是现有高效因果推断方法（如 TMLE / DML）——例如 Zheng et al. (2016) 的生存 MSM 的高效双稳健估计与 Cai & van der Laan (2020) 的 HAL-TMLE 的 bootstrap。本文不讨论交替估计器（如基于高效影响函数的估计），只专注于 IPW 估计 + 四种方差方法。被引文献中明显该被引却存在的不多——但值得研究者去查 if：是否有类似比较但使用 MSM-IPTW 而非 sequential trials 的若新出文献？例如，Shu et al. (2020) 的 stacked estimating equations 方法在生存 MSM 下已有扩展，但本文未提及它是否适用于 sequential trials 的 MLR。

张力¶

在已检索的被引文献中，未见明显的对立引用。Austin (2022) 与 Shu et al. (2020) 对小样本下 sandwich 保守性的判断高度一致（都认为 sandwich 保守，且 bootstrap 可在小到中等样本下更好），但 Shu 还提出了新的非保守性方差估计。本文的结论也与之一致。因此，该子领域内关于方差方法在小样本下的优劣势的结论大致收敛，主要贡献在于覆盖 STE + 生存结局这个特定设定。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：

时间指标：t = 0, 1, ..., K 离散时间（K 是最大随访时间，通常按月或按季度划分）。
处理变量：A(t) 表示在时间 t 开始时或当前是否接受或正在接受处理（0/1）。A̅(t) = (A(0), ..., A(t)) 为历史处理序列。
时变协变量：L(t) 为时间 t 的协变量向量（可能包含基线协变量与时间依赖混杂）。
结局：T 为失效时间（生存时间，连续或离散）。Y(t) = I(T ≤ t) 为在时间 t 是否已经发生事件的指示变量。
删失：C(t) 为在时间 t 是否被删失（如失访、停止治疗）。观察到的指标：Δ = I(T ≤ C) 观察到的失效时间 T̃ = min(T, C)。
可观测数据：对每个病人 i，我们观测到 (L_i(0), A_i(0), L_i(1), A_i(1), ..., L_i(K), A_i(K), T̃_i, Δ_i)。这是研究实际能观测到的。
潜在结局：T^{a̅} 表示如果病人用处理序列 a̅ = (a(0), ..., a(K)) 全过程治疗时的潜在失效时间。这是想要但观测不到的——我们只能观测到 T^{A̅}。
目标 estimand：边际风险差 (MRD)，定义在两个动态/静态处理策略 a̅ 与 0̅（从不治疗）之间： MRD(t) = P(T^{a̅} ≤ t) − P(T^{0̅} ≤ t)，通常聚焦在某个固定时间点 t*（如 12 个月）或整个曲线下的差异。
权重：SIPTCW_i(t) = stabilized inverse probability of treatment and censoring weight，由 time t 之前的处理模型与删失模型的预测概率乘积求得。

模型（本文采用的统计模型）：

处理模型：P(A_i(t) = 1 | A̅_i(t−1), L̅_i(t), C̅_i(t) = 0, V_i)，用 logistic 回归拟合，其中 V_i 为基线协变量。这个模型在数据中是可估算的（因为处理是观测到的）。
删失模型：P(C_i(t+1) = 1 | A̅_i(t), L̅_i(t), C̅_i(t) = 0, V_i)，也用 logistic 回归拟合。同样可估算。
结局模型（用于形成 MSM）：pooled logistic model for discrete-time hazard：
logit( h_i(t | a̅) ) = α_0 + α_1 f(a̅, t) + α_2^T V_i，其中 h_i(t | a̅) 为给定处理策略 a̅ 下在时间 t 的条件死亡概率。当治疗策略 a̅ 固定（如 always treat vs never treat），f(a̅, t) 是 a̅ 与时间 t 的函数（比如一个指示变量 I(always treat)）。
估计器：用加权的 pooled logistic 模型拟合加权数据（权重为 SIPTCW），估计出 α_0, α_1, α_2，然后通过边际化（对所有 V_i 平均后处理 a̅ 与 0̅ 的预测概率）算出 P̂(T^{a̅} ≤ t) 与 P̂(T^{0̅} ≤ t)，取差得到 MRD̂(t)。

可观测 vs. 不可观测：

可观测：(A_i(t), L_i(t), C_i(t), T̃_i, Δ_i)。
不可观测：T^{a̅} — 需要用上述模型与假设（无未测量的混杂、Positivity、一致性、顺序可交换性）来识别。

第二步：最小内核¶

把原文的许多假设剥掉，找出那个支撑整篇论文的核心。本文并不是"特殊例子推广"型，而是四种 CI 构造方法在同一个估计问题上的比较。它的最小内核是：

在只有一个治疗时间点（固定 T=1）、没有时变协变量、没有删失的简化假设下，问题退化成传统的 IPTW 估计两个处理组的生存概率之差。这时四种 CI 构造方法（sandwich, bootstrap, LEF bootstrap, jackknife）各自的行为就能被直接理解。在这个特例下：

MRD 估计器 θ̂ = P̂(T ≤ t | A=1) − P̂(T ≤ t | A=0)，其中 P̂(T ≤ t | A=1) = (1/n₁) Σ_{i: A_i=1} I(T_i ≤ t)，但如果是用小样本下的 IPW，它更好地近似为：θ̂ = (1/n) Σ_i [ (W_i * I(A_i=1) * I(T_i ≤ t)) / ( (1/n) Σ_i W_i * I(A_i=1) ) ] − (1/n) Σ_i [ (W_i * I(A_i=0) * I(T_i ≤ t)) / ( (1/n) Σ_i W_i * I(A_i=0) ) ]，其中 W_i = 1 / P(A_i | baseline) 是权重。
问题：θ̂ 的方差估计，需要哪种方法在小样本（n ≤ 250）且处理组很小（p₁ ≤ 0.1）时给出最准确的 CI？
为什么难：θ̂ 的分母（权重的和）与分子（加权的事件数）都是随机变量。sandwich 低估了这个不确定性，因为它在计算信息矩阵时假定了权重已知。bootstrap 理论上能捕获所有不确定性，但样本量小时，处理组可能过小导致 bootstrap 样本中处理组完全不存在。LEF bootstrap 通过线性化 θ̂（在估计的权重与真值之间的一阶展开）来近似非线性 bootstrap，比 sandwich 更精确但比 nonparametric bootstrap 计算代价低得多。jackknife 借鉴 leave-one-out 思路，但在 TTE 中可能因删除一个观测而产生的权重变化而被认为不那么自然。

核心思路：题目就是要检验，在 STE 的特定小样本/稀疏条件下，LEF bootstrap 是否比 sandwich 与 nonparametric bootstrap 取得更好的 CI 覆盖率。这就是这篇论文最内核的问题。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在 sequential trial emulation 框架下，估计生存结局的边际风险差时，四种 CI 构造方法（sandwich 方差估计器、nonparametric bootstrap、LEF bootstrap、jackknife）的有限样本覆盖率、长度与计算时间。
核心工具/方法：基于加权 pooled logistic 模型的 MRD 估计器；每种 CI 构造方法的具体算法（sandwich 用 Huber-White 稳健协方差矩阵；nonparametric bootstrap 用重新抽样的观测单元聚类重建 trial 数据；LEF bootstrap 用一阶影响函数展开来近似估计量的抽样分布后再 bootstrap；jackknife 基于 leave-one-out 估计量的方差公式）。
主要结论：在 STE 的典型小样本（n=500）、低事件率（5%/年）、低处理暴露率（10%）下，LEF bootstrap CI 的覆盖率优于 nonparametric bootstrap 与 sandwich；在大样本/中高事件率下，sandwich 最优且最快。

关键设定与假设¶

在第二节最小记号基础上补充：

STE 流程：对每个时间起点 s = 0, ..., S（通常为每月一次或每季度一次），创建一个"trial"。每个 trial 的纳入标准：在时间 s 存活且未接受治疗；比较 initiators (在 s 开始治疗) 与 non-initiators (在 s 未治疗)；后对每个起始时间 s 的 cohort 进行随访到时间 t*（如 12 个月），用 SIPTCW 处理时变混杂与删失。使用 pooled logistic 模型（含 baseline 协变量与控制时间的指示变量）来估计每个 trial 的边际风险，然后用非参边际化得到统一的估计。最终关注的 estimand 是从所有 trial 数据合并估计的 MRD。
模型假设（用于 IPW 估计的一致性）：无未测量的混杂（sequential exchangeability），对给定历史测得的混杂，处理分配独立于潜在结局；Positivity；一致性；删失机制可忽略 (censoring at random)。
与已有文献相比的放宽/强化：本文不提出新假设——它是在已有假设下比较不同 CI 方法。相对于 Shu et al. (2020) 的 stacked estimating equation 方法，本文更关注 TTE 特有的 "cloned trial" 结构与小样本表现。

主要结果¶

本文是方法型（并非理论证明型——无定理，全是模拟结果）。核心量化结论（来自 Table 2 与 Table 3 的描述）：

最佳表现：在全 64 个模拟场景（样本量 250/500/1000/2000 × 年事件率 5%/10%/20% × 治疗暴露率 10%/25%/50% × 无/有组间治疗不平衡的场景，共 4×3×3×2=72，其中 64 个能收敛）中：
LEF bootstrap 在 小样本 (250, 500)、低事件率 (5%)、低治疗暴露率 (10%) 的场景中覆盖率最接近 95%（通常在 90–95% 之间，而 sandwich 常低于 90%）。
Sandwich 在 大样本 (2000)、中高事件率 (10%, 20%) 下覆盖率最佳（约 93–96%），且计算时间最短。
Nonparametric bootstrap 按单元再抽样（重新运行 STE 全部分析），是次优选择——在小样本下覆盖率优于 sandwich 但低于 LEF，且计算昂贵（比 LEF 慢 2–5 倍）。
Jackknife 在所有场景下表现最差——覆盖率通常低于 85%，尤其在小样本时大幅低估标准误，因此最终结论是不推荐 jackknife。
额外发现：LEF bootstrap 对处理组不平衡（即治疗组与对照组基线协变量分布差异更大）的稳健性高于 sandwich（sandwich 在低暴露/不平衡场景中覆盖面最低），且 LEF bootstrap 的计算时间比 nonparametric bootstrap 大幅缩短（模拟中约是 1/3）。

证明路线与技术技巧（方法型，聚焦设计）¶

因本文为方法型模拟研究，无严格理论证明，但其方法设计与分析流程有技术价值：

LRD 估计的细化：作者初用 MRD（marginal risk difference）定义，然后用 pooling across trials 的估计流程。每个 trial 用 weighted pooled logistic model 估计累积风险，再用标准化（标准化的 Kaplan–Meier 在 5 年内的差值）。这段话奠定了模拟评价的目标估计量可追踪 sampling distribution 的可评估性。
LEF bootstrap 的 STE 适配：这是方法论贡献——没有自己发明 LEF bootstrap，而是把它第一次适配到 STE。LEF bootstrap 的原始想法（在 GEE 框架中从影响函数通项重新抽样）被修改用于 sequential trial 的设定：先计算每个 trial 下 MRD 的 linearised estimating function 值（其对每个观测的一阶展开），然后在这些分值上做 bootstrap（而非原始数据）。这样做保留了原始数据间的相关性（因为同一个患者出现在多个 trial 中），且无需重新拟合处理与删失模型。
模拟设计（技术核心）：
数据生成算法：采用 Young & Tchetgen Tchetgen (2013) 与 Seaman & Keogh (2023) 的方法，从已知多重 Cox MSM 模拟生存时间，从而知道真值 MRD。
模拟目标：对每种场景（样本量 × 事件率 × 暴露率 × 不平衡程度），生成 2000 个数据集，在每个数据集上评估四种 CI 方法，记录覆盖率、CI 宽度与计算时间。Morris et al. (2017) 的 ADEMP 框架被用来结构化报告。
真实例子：本文应用一个真实的 HIV 队列（HERS 研究）作为演示性分析——并非模拟评价要验证理论，而是展示这些方法在真实数据分析中的变异性。
数据：HIV 女性感染者（HERS 队列），约 1000 名患者，随访 5 年。
实现：STE 设定：起始时间每月。评价 HAART（高活性抗逆转录病毒治疗）对全因死亡率的影响。处理组（HAART）的暴露率约 11%，事件率（死亡率）约 14%。
结果：MRD 95% CI：sandwich (−0.054, 0.003)；LEF bootstrap (−0.050, 0.007)；nonparametric bootstrap (−0.052, 0.007)；jackknife (−0.051, 0.001)。结论：差异细微，但 all CI 都在边界附近（HAART effect 的估计为负但 CI 涉及 0），正确强调了小样本下各自的变化差异会被掩盖。
🔎 结论是否比证明窄：是的，关键一句——"sandwich variance estimator led to undercoverage with small/moderate sample sizes, low event rates, and low treatment prevalence"——是对模拟中有限样本的观察结论，不是理论证明。该文无任何定理对 sandwich 的保守性给出严格的有限样本上界，也未推导 LEF bootstrap 在该设定下的理论方差 vs. sandwich 的理论优势。但作者在摘要与结论中善意地使用了"demonstrated"而非"proved"来保持谦逊。显著的一条窄结论是："jackknife is not recommended"——这个结论是基于已见的最坏表现，但从理论角度，jackknife 有时可捕获权重的不确定性，本文并未排除在高暴露场景它可能work（实际上作者在模拟中发现 jackknife 全面失败，因此也就未补这个判断）。

四、开放问题（点到为止，扎根具体语句）¶

LEF bootstrap 的理论有效性证明：本文为模拟研究，未提供 LEF bootstrap 在 STE 场景下的渐近有效性的理论证明。能否证明 LEF bootstrap 对生存结局的 MSE 估计确实优于 sandwich，并给出有限样本收敛率？（扎根：文中仅称"我们适配了 LEF bootstrap"，且结论只基于模拟——应该是下一步的理论工作。）
Sandwich 方差估计器在低事件率下为何严重覆盖不足：模拟显示在小样本/低事件率下，sandwich 覆盖 < 90%。理论是否可解释这是权重估计与加权结构在信息矩阵中低估标准差导致的，并给出显式上界？（扎根：相关引用在 Shu et al. [2020] 的证明——证明了 sandwich 保守性，但这并未自动解释它在低事件下反而欠保守。）
多时间点、动态处理策略的推广：当前只评估了固定静态策略（always treat vs never treat）。如果换成动态策略（如 treatment only when CD4 < 500），CI 方法的表现是否相似？这不是 trivial 的扩展，因为权重模型更复杂、方差结构也更纠缠。（扎根：文中表示"our findings may be generalizable to other settings... but future work should confirm"——即他们知缺口。）
对 non-binary/non-countinuous 权重的适用性：本文使用 logistic 模型估计权重。如果权重改用更灵活的机器学习方法（如 BART，NN），sandwich 与 LEF 在稳健性上的哪个环节会变化？（扎根：文中无 ML 权重的场景——创新点本身有限。）

谨记：①是否真 gap 请自己去读同一子领域近期约 5 篇引文（特别是 Austin 2022, Keogh 2021, Shu 2020）；②判断与分数的分配留给你自己——我仅产出结构化的发现。

Maintained by 陈星宇 · Homepage · Source on GitHub