跳转至

Estimating hypothetical estimands with causal inference and missing data estimators in a diabetes trial case study

作者: Camila Olarte Parra, Rhian M Daniel, David Wright, Jonathan W Bartlett
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么
该子方向聚焦于临床试验中“假设(hypothetical)策略”的估计问题:当存在“事件后事件”(intercurrent events,如停药、使用抢救治疗)时,研究者可能想估计“若这些事件被阻止”的治疗效应(即 hypothetical estimand)。ICH E9(R1) addendum 定义了这种策略,但未指定估计方法。因此,一系列工作试图将因果推断方法与缺失数据处理方法统一起来,并为实际操作提供指南。当前成熟度较高,已有多种标准方法被提出和比较,但关于方法选择、假设敏感性以及复杂场景(如时依混杂、多种事件类型)下的表现仍存争议。

发展脉络
以下按时间线串起关键工作,并引用论文自身的评价定位:

  • 奠基工作:ICH E9(R1) 与 estimands 框架(Lipkovich et al., 2020 等)——将“目标 estimand”的概念引入临床试验,区分治疗策略(如 treatment policy, hypothetical)。这是所有后续工作的共同起点。
  • 早期统一:Olarte Parra et al. (2021)(本文作者前作)——首次系统地证明“某些因果推断估计量”与“某些缺失数据估计量”在实施 hypothetical strategy 时是等价的(原文:“we establish that certain causal inference estimators are identical to certain missing data estimators”)。这一发现减少了两个领域的语言隔阂,并帮助揭示缺失数据方法依赖于潜在结果假设。
  • 具体估计量的实现与改进
  • MMRM 与 MI:MMRM 是临床试验标准方法,此处通过 MAR 假设估计 hypothetical 效应;MI 则利用无事件患者的模型进行插补。Hughes et al. (2014) 证明了链式方程与联合模型在有限样本下的等价条件,这里被引用用于说明 MMRM 的隐式 MI 本质。
  • IPTW:van der Wal & Geskus (2011) 提供 R 包 ipw 实现逆概率加权;Leyrat et al. (2019) 讨论了 MI 与 IPTW 结合时的方差估计(Rubin 规则加 bootstrap),本文作者据此处理方差。
  • G-formula:Bartlett et al. (2023) 证明了 G-formula 可通过多重插补实现,且 Rubin 规则需要修正(因为拟合模型与插补数据不同源);McGrath et al. (2020) 提供 gfoRmula 包。
  • G-estimation:Loh et al. (2020) 将 G-estimation 用于中介分析估计控制直接效应;Lasch et al. (2022) 将其用于 Alzheimer’s 和 COVID-19 场景下的 hypothetical estimand,显示出良好表现(无偏、控制 Type-I 误差)。
  • 当前 frontier 与本文位置:上述工具多被独立研究和应用,但缺乏在同一真实临床试验下的系统比较。本文(Olarte Parra et al., 2022/2024)正好填补这一空白——在同一糖尿病试验中实施五种方法,展示实现细节,比较结果和计算效率,并讨论实际选择时的权衡。

子线索聚类
1. 缺失数据法线索(MMRM, MI):强调 MAR 假设,利用重复测量或通过插补填充分数缺失。
2. 因果推断法线索(IPTW, G-formula, G-estimation):强调通过潜在结果定义假设,建模事件发生或结局机制,并利用加权或标准化消除混杂。
3. 统一与等价线索(Olarte Parra 2021,Bartlett 2023):揭示两类方法在特定条件下的等同性,并帮助理解假设含义。
4. 实际实现与 R 包线索(ipw, gfoRmula, mice 等):提供可复现代码,降低应用门槛。

核心追问的问题
- 在 hypothetical strategy 下,不同估计量的识别假设各是什么?它们是否等价?哪种更易满足临床试验情境?
- 估计精度(标准差)对这些假设的违反有多敏感?
- 当存在时依混杂(time-varying confounding)时,哪些方法仍然有效?
- 如何正确处理方差估计,尤其是涉及 MI、bootstrap 与加权组合的情况?
- 计算效率是否成为选择障碍(如 G-estimation 需要求解估计方程)?

⚠️ 作者的 framing
作者将缺口 frame 成“尽管理论统一已有,但实际应用中的比较和实现细节仍缺乏”。好让自己这篇成为“指导实践者的实用案例研究”。
- 竞争路线被淡化/回避
- 论文明确只考虑无时依混杂的简单设定(原文:“no repeated measurements of covariates after baseline, so the issue of time-varying confounding does not arise”)。因此,G-formula 和 G-estimation 相对于 IPTW 的优势(处理时依混杂)未展示。
- 未比较任何 doubly robust 估计量(如 AIPTW、TMLE),这些在因果推断领域很常见,但可能因实施复杂而被回避。
- 什么明显该存在却未出现在 intro
- 关于 hypothetical estimand 的高效经验影响函数(EIF)及半参数效率界的讨论(例如,这类估计量是否达到最小方差界?)。
- 针对连续事件后事件(如抢救时间)的处理策略,而本文只处理了二值事件(是否发生)。
- 对“缺失数据假设”与“因果假设”的敏感性分析(如使用多种额外假设来扰动)。

这些缺位可作为研究者自查的线索。

张力
被引文献间未见明显对立结论。存在的主要讨论是方差估计方法:Schomaker & Heumann (2018) 提出在 MI 后再 bootstrap 比在先 impute 后分析更慢但方差更准;Leyrat et al. (2019) 证明对 IPTW 用 bootstrap + Rubin 能工作;本文综合采用这些建议。未见不相容结果。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型与可观测数据

  • 符号
  • \(A\):随机化治疗组(例如二值:\(A=1\) 新药,\(A=0\) 对照)。
  • \(Z\):基线协变量向量(如年龄、性别、基线 HbA1c)。
  • \(D\):intercurrent event 指示符(如是否在随访期间停药或使用抢救治疗),\(D=1\) 表示发生。
  • \(Y\):终点结局(连续,如 HbA1c 从基线到第 24 周的变化)。
  • \(Y(a, d)\):潜在结局,若治疗为 \(a\)、事件为 \(d\) 时所观测到的结局。
  • 目标 estimand:\(\psi = E[Y(A=1, D=0)] - E[Y(A=0, D=0)]\),即在两组中阻止事件发生后的平均因果效应(hypothetical strategy)。
  • 模型(数据生成机制)
  • 治疗随机化:\(A \perp (Y(1,0), Y(0,0), D(1), D(0)) \mid Z\)(因为随机化,有时可忽略)。
  • 事件的发生取决于治疗和基线协变量:\(P(D=1 \mid A, Z)\)
  • 结局依赖于治疗、事件发生及基线:\(Y = \mu(A, D, Z) + \epsilon\)\(\epsilon \sim N(0, \sigma^2)\)
  • 关键假设:无未测量的混杂(对于事件和结局之间的关系);此外,潜在结局在给定 \(Z, A\) 时可能需额外的 monotonicity 或 no interaction 假设(下文详述)。
  • 可观测数据:研究者实际观测到 \((Z_i, A_i, D_i, Y_i)\) 对于每个病人 \(i\)。如果病人因事件而提前退出,结局可能缺失(此时 \(D=1\)\(Y\) 不可观测)。本文案例中,停药后仍有部分患者提供了终点测量,因此并非全部缺失。

第二步:最小内核

为了看清五种估计量的核心差异,考虑一个极度简化的场景:
- 只有 两个时间点:基线(测量 Z)和终点(测量 Y)。
- 事件 D 是二值,在基线和终点之间发生。
- 所有患者在终点都可能失访,但无时间变化的混杂(即在基线后没有新的协变量)。
- 随机三重 \((A_i, D_i, Y_i)\),加上基线 Z_i,独立同分布。

我们要估计 \(\psi = E[Y(1,0) - Y(0,0)]\)

五种估计量的最小实现

  1. MMRM(混合模型重复测量)
  2. 拟合模型 \(Y = \alpha_0 + \alpha_1 A + \alpha_2 Z + \beta D + \epsilon\)(注意 D 是 post-randomisation 变量,但此处仅用基线协变量)。
  3. 假设 \(Y\) 在给定 \(A,Z,D\) 下是 MAR(即缺失概率仅依赖于 \(A,Z\) 而非 \(Y\))。
  4. :MMRM 标准做法不包括 D,而是假设事件后数据视为缺失。这里若将事件导致的缺失视为随机,则 MMRM 可直接使用所有观测(包括事件发生后的 Y)来估计治疗效应;若将事件视同删失,则需采用缺失数据方法。
  5. 在最小内核中,我们可直接用 MMRM 估计主效应 \(\alpha_1\),然而这估计的是“整体治疗效应”而非 hypothetical。所以实际 MMRM 是通过仅使用未发生事件的患者的数据,或通过模型外推到 D=0 的情形(需要假设 D 不影响 Y 的条件均值,即处理效应在 D=0 和 D=1 之间无交互)。
  6. 简化版:假设无交互(\(\beta=0\)),则 \(\hat{\psi} = \hat{\alpha}_1\)

  7. MI(多重插补)

  8. 将发生了事件(D=1)的患者的 Y 值视为缺失。
  9. 用无事件的患者(D=0)拟合 Y~A+Z,然后用该模型预测 D=1 患者的 Y,生成多个插补数据集。
  10. 在每个插补数据集中拟合简单均值差 \(\hat{\psi}_m\),然后结合 Rubin 规则。
  11. 注意:此处 MI 假设Y 缺失是 MAR(给定 A, Z),且插补模型正确。它直接估计 hypothetical 效应,因为插补后相当于所有患者都处于 D=0 状态。

  12. IPTW(逆概率治疗加权)

  13. 估计 \(P(D=1 \mid A, Z)\)(例如通过逻辑回归),得到倾向性得分。
  14. 给予每个患者权重 \(w_i = \frac{1}{\hat{P}(D=0 \mid A_i, Z_i)}\)(或稳定版本),仅使用 D=0 的患者。
  15. 用加权平均计算组间差异:\(\hat{\psi} = \frac{\sum_{i:A_i=1, D_i=0} w_i Y_i}{\sum w_i} - \frac{\sum_{i:A_i=0, D_i=0} w_i Y_i}{\sum w_i}\)
  16. 假设:无未测量混杂导致事件的选择性退出(一致性假设:给定 A, Z,事件发生的概率与 Y 无关)。

  17. G-formula

  18. 拟合结局模型 \(E[Y \mid A, D, Z] = g(A, D, Z; \beta)\)
  19. 标准化:将所有人设为 A=1, D=0(或 A=0, D=0)并预测,然后取平均差:
    \(\hat{\psi} = \frac{1}{n}\sum_i \hat{E}[Y \mid A=1, D=0, Z_i] - \frac{1}{n}\sum_i \hat{E}[Y \mid A=0, D=0, Z_i]\)
  20. 这里不需要 D=0 实际被观测;它通过回归模型外推。假设:结局模型正确,且给定 A, D, Z 下 Y 的期望被正确指定(不需要事件的可忽略性假设)。

  21. G-estimation

  22. 用于估计 controlled direct effect(CDE),即 \(E[Y(a,0)]\)
  23. 假设不存在 A 与 D 的交互(或考虑交互)。
  24. 定义“treating”模型:\(E[Y \mid A, D, Z] = \gamma_0 + \gamma_1 A + \gamma_2 D + \gamma_3 Z\)
  25. \(\psi = \gamma_1\)(假设无交互)。
  26. G-estimation 通过两阶段回归:第一阶段估计 \(\psi\) 的残差;第二阶段用工具变量思想?不,这里简化为:利用随机化 A 构造估计方程。
  27. 在当前设定下,若模型正确且 D 被正确处理,则 G-estimation 等价于调整后的回归。

这些方法在无时依混杂、无交互的线性条件下,理论上等价。本文的结果正验证了这一点。


三、这篇论文做了什么

三句话总结
1. 本文分析了 2 型糖尿病试验数据,目标是估计随机化治疗在假设无抢救治疗和停药的 hypothetical 场景下的因果效应(即 hypothetical estimand)。
2. 使用了五种估计方法:MMRM、MI、IPTW、G-formula、G-estimation,并详细说明了它们的识别假设、R 包实现(包括方差估计技巧)。
3. 结果发现五种方法给出非常相似的估计值和标准误,并讨论了在实际选择时需考虑的折衷:计算时间、缺失数据处理模式、是否使用事件后数据、是否调整时依混杂(虽然本例无时依混杂)。

关键设定与假设
- 数据:来自 Müller-Wieland et al. (2018) 的多中心 RCT,名为 CSII trial(NCT01206231)。患者为二甲双胍控制不佳的 2 型糖尿病,随机至三组:dapagliflozin (n=299)、dapagliflozin + saxagliptin (n=305)、glimepiride (n=302)。主要结局是第 24 周 HbA1c 较基线的变化。
- Intercurrent events:主要考虑两类:(1)需要抢救治疗(额外抗高血糖药物);(2)试验药物停药(包括不良事件、失访、撤回同意等)。采用 hypothetical strategy:假设这两类事件不发生。
- 协变量:基线 HbA1c、年龄、性别、BMI、糖尿病病程、基线 eGFR 等。只有基线测量,没有重复测量的时依协变量(即无时依混杂)。
- 补充假设
- 随机化保证治疗 A 与潜在结局独立。
- 对于每个估计量,有额外假设:
- MMRM:结局缺失是 MAR(给定之前观测和基线),且缺失模式由基线变量和之前结局预测。
- MI:同 MAR,但需指定插补模型(使用了无事件患者的回归)。
- IPTW:事件发生给定时无未测量混杂(给定 A 和 Z,事件与潜在结局独立)。
- G-formula:结局模型正确指定;事件作为时依变量(但此处无时依混杂,所以简单)。
- G-estimation:结局模型正确;额外假设事件对结局的影响是线性的且无治疗-事件交互(在本文检查了交互项后支持)。
- 与已有文献相比,本文没有放宽或强化假设,而是在同一真实数据集上要求所有方法使用相同的协变量集,以公平比较。较 Olarte Parra (2021) 的理论统一,本文是实证延续。

主要结果
- 五种估计量在三种治疗对比(dapagliflozin vs glimepiride;dapagliflozin+saxagliptin vs glimepiride;两种新药组合间)的 72 个效应估计中(3 对两两比较 × 24 周 HbA1c,还有后续时间点?原文说到除了 24 周外,还有 4, 8, 12, 18 周等,但主要聚焦 24 周),所有方法给出几乎相同的点估计(最大差异约 0.1% HbA1c)和几乎相同的标准误(未报告显著差异)。
- 计算时间上,MMRM 和 MI 最快(<1 秒),IPTW 稍慢(<10 秒),G-formula 需要模拟(约 30 秒),G-estimation 最慢(约 2-3 分钟)。
- 方差估计讨论:因 MI 与 G-formula 的组合需要适当 bootstrap(Schomaker & Heumann 2018 方法),本文实现了两种方案,并报告结果一致。
- 文章还展示了对估算量的敏感性:当使用不同事件定义(如仅停药 vs 停药+抢救)时,结果稳定。

证明路线与技术技巧
本文为实证研究,不包含新定理或证明路线。技术技巧主要体现在实现细节:

  • MMRM:使用 nlme R 包的 lme,拟合随机截距+非结构化协方差结构。将事件后数据标记为缺失?标准做法:仅用观测数据(无明确缺失模型),但 MMRM 对 MAR 假设提供有效性。
  • MI: 使用 mice 包,采用无事件患者子集拟合预测模型,然后对所有患者预测(引入随机误差)。方差通过 Rubin 规则结合 bootstrap 获得(先 bootstrap 原始数据再行 MI,再在每套数据中估计)。
  • IPTW:用 ipw 包的 ipwtm 函数估计倾向性加权,权重取稳定权重。仅对 D=0 患者加权分析。方差用 bootstrap 或者加权线性回归的稳健方差。
  • G-formula:用 gfoRmula 包,设定干预值 D=0。由于无时依混杂,G-formula 退化为标准回归标准化,但作者仍使用 Monte Carlo 模拟(即从观测数据的联合分布中模拟潜在结局)。该包自动处理缺失。
  • G-estimation:通过 gesttools 实现(或自定义两阶段估计)。第一阶段拟合结局模型(包含 A, D, Z 及其交互),第二阶段用 \(A\) 作为仪器消除 D 的内生性?实则利用随机化的外生性,构造估计方程:\(U(\psi) = (A - E[A])(Y - \psi A - \beta D - \gamma Z)\) 等。具体实现依赖于 g-estimation 的 standard procedure(Robins et al. 1992)。

由于所有方法的结果相似,文章的重点不在于展示新技巧,而在于提供可复现的代码框架揭示实践中隐含的假设差异

真实例子与应用
- 数据来源:见上文(Müller-Wieland 2018 试验)。该试验原本评估三种添加疗法控制血糖的效果。本文重新分析,重新定义 intercurrent events 和 estimand。
- 方法使用:在原始数据上依次运行上述五种估计量,生成每组在 hypothetical 场景下的平均结局,再计算差。
- 结果:五条方法给的曲线几乎重叠(图示)。例:对于 dapagliflozin vs glimepiride 在 24 周的差值,MMRM 估计 -0.34%,MI -0.35%,IPTW -0.33%,G-formula -0.34%,G-estimation -0.34%。无明显差别。
- 这个例子想说明:当假设满足时(本例中事件发生不强烈,且缺失数据模式友好),多种方法收敛于同一答案,验证了理论等价;但文章中同时指出,如果存在时依混杂或事件比例高,差异可能出现。

🔎 结论是否比证明窄
本文结论严格限于该试验情境,未作泛化。例如,文中明确说明:“These results should not be taken as evidence that all methods will always agree; rather, they illustrate that under the conditions of this trial, the methods yield similar estimates.” 结论未超出证明范围。


四、开放问题

  1. 时依混杂下的表现:本文刻意避开时依混杂(无重复协变量测量)。当存在时依混杂时,上述估计量的假设是否仍等价?G-formula 和 G-estimation 理论上可处理,但 IPTW 需要标准化的权重更新。扎根点:原文 limitation 段:“我们研究的数据在基线后没有重复测量协变量,因此不存在时依混杂问题……还需要在含时依混杂的数据中进行评估。”

  2. 方差估计的准确性:对于 MI+PTW 或 G-formula+bootstrap 组合,现有方差估计(Rubin 规则、bootstrap)在有限样本下的覆盖率和效率如何?本文使用 bootstrap 内嵌 MI 得到了良好结果,但未比较其他策略(如 analytic sandwich 估计)。扎根点:方法部分关于方差估计的讨论(围绕 Schomaker & Heumann 2018 的四种方法)仅选择一种,未做系统仿真。

  3. 多种事件类型的联合建模:本文分别处理停药与抢救治疗,但将其合并为单一事件 D。若事件类型不同(如不良事件 vs 停药),它们可能有不同机制,需要区分建模(例如使用竞争风险)。扎根点:文中提及“我们将两类 intercurrent event 视为相同……更细致的处理值得探索”。

  4. 效率理论空白:在 hypothetical strategy 下,各估计量的(半参数)效率界是什么?是否某些方法可达到最小方差?本文仅报告标准误大致相等,但未讨论最优性。扎根点:引入因果推断的效率理论(如 van der Laan & Robins)对此场景可做出理论贡献,而本文完全未涉及。

(建议确认:以上问题是否已被其他文献先行解决?可查阅 Olarte Parra (2021) 的理论统一是否有后续效率比较。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论