Estimating hypothetical estimands with causal inference and missing data estimators in a diabetes trial case study¶

作者: Camila Olarte Parra, Rhian M Daniel, David Wright, Jonathan W Bartlett
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么
该子方向聚焦于临床试验中“假设（hypothetical）策略”的估计问题：当存在“事件后事件”（intercurrent events，如停药、使用抢救治疗）时，研究者可能想估计“若这些事件被阻止”的治疗效应（即 hypothetical estimand）。ICH E9(R1) addendum 定义了这种策略，但未指定估计方法。因此，一系列工作试图将因果推断方法与缺失数据处理方法统一起来，并为实际操作提供指南。当前成熟度较高，已有多种标准方法被提出和比较，但关于方法选择、假设敏感性以及复杂场景（如时依混杂、多种事件类型）下的表现仍存争议。

发展脉络
以下按时间线串起关键工作，并引用论文自身的评价定位：

奠基工作：ICH E9(R1) 与 estimands 框架（Lipkovich et al., 2020 等）——将“目标 estimand”的概念引入临床试验，区分治疗策略（如 treatment policy, hypothetical）。这是所有后续工作的共同起点。
早期统一：Olarte Parra et al. (2021)（本文作者前作）——首次系统地证明“某些因果推断估计量”与“某些缺失数据估计量”在实施 hypothetical strategy 时是等价的（原文：“we establish that certain causal inference estimators are identical to certain missing data estimators”）。这一发现减少了两个领域的语言隔阂，并帮助揭示缺失数据方法依赖于潜在结果假设。
具体估计量的实现与改进：
MMRM 与 MI：MMRM 是临床试验标准方法，此处通过 MAR 假设估计 hypothetical 效应；MI 则利用无事件患者的模型进行插补。Hughes et al. (2014) 证明了链式方程与联合模型在有限样本下的等价条件，这里被引用用于说明 MMRM 的隐式 MI 本质。
IPTW：van der Wal & Geskus (2011) 提供 R 包 ipw 实现逆概率加权；Leyrat et al. (2019) 讨论了 MI 与 IPTW 结合时的方差估计（Rubin 规则加 bootstrap），本文作者据此处理方差。
G-formula：Bartlett et al. (2023) 证明了 G-formula 可通过多重插补实现，且 Rubin 规则需要修正（因为拟合模型与插补数据不同源）；McGrath et al. (2020) 提供 gfoRmula 包。
G-estimation：Loh et al. (2020) 将 G-estimation 用于中介分析估计控制直接效应；Lasch et al. (2022) 将其用于 Alzheimer’s 和 COVID-19 场景下的 hypothetical estimand，显示出良好表现（无偏、控制 Type-I 误差）。
当前 frontier 与本文位置：上述工具多被独立研究和应用，但缺乏在同一真实临床试验下的系统比较。本文（Olarte Parra et al., 2022/2024）正好填补这一空白——在同一糖尿病试验中实施五种方法，展示实现细节，比较结果和计算效率，并讨论实际选择时的权衡。

子线索聚类
1. 缺失数据法线索（MMRM, MI）：强调 MAR 假设，利用重复测量或通过插补填充分数缺失。
2. 因果推断法线索（IPTW, G-formula, G-estimation）：强调通过潜在结果定义假设，建模事件发生或结局机制，并利用加权或标准化消除混杂。
3. 统一与等价线索（Olarte Parra 2021，Bartlett 2023）：揭示两类方法在特定条件下的等同性，并帮助理解假设含义。
4. 实际实现与 R 包线索（ipw, gfoRmula, mice 等）：提供可复现代码，降低应用门槛。

核心追问的问题
- 在 hypothetical strategy 下，不同估计量的识别假设各是什么？它们是否等价？哪种更易满足临床试验情境？
- 估计精度（标准差）对这些假设的违反有多敏感？
- 当存在时依混杂（time-varying confounding）时，哪些方法仍然有效？
- 如何正确处理方差估计，尤其是涉及 MI、bootstrap 与加权组合的情况？
- 计算效率是否成为选择障碍（如 G-estimation 需要求解估计方程）？

⚠️ 作者的 framing
作者将缺口 frame 成“尽管理论统一已有，但实际应用中的比较和实现细节仍缺乏”。好让自己这篇成为“指导实践者的实用案例研究”。
- 竞争路线被淡化/回避：
- 论文明确只考虑无时依混杂的简单设定（原文：“no repeated measurements of covariates after baseline, so the issue of time-varying confounding does not arise”）。因此，G-formula 和 G-estimation 相对于 IPTW 的优势（处理时依混杂）未展示。
- 未比较任何 doubly robust 估计量（如 AIPTW、TMLE），这些在因果推断领域很常见，但可能因实施复杂而被回避。
- 什么明显该存在却未出现在 intro：
- 关于 hypothetical estimand 的高效经验影响函数（EIF）及半参数效率界的讨论（例如，这类估计量是否达到最小方差界？）。
- 针对连续事件后事件（如抢救时间）的处理策略，而本文只处理了二值事件（是否发生）。
- 对“缺失数据假设”与“因果假设”的敏感性分析（如使用多种额外假设来扰动）。

这些缺位可作为研究者自查的线索。

张力
被引文献间未见明显对立结论。存在的主要讨论是方差估计方法：Schomaker & Heumann (2018) 提出在 MI 后再 bootstrap 比在先 impute 后分析更慢但方差更准；Leyrat et al. (2019) 证明对 IPTW 用 bootstrap + Rubin 能工作；本文综合采用这些建议。未见不相容结果。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

符号：
\(A\)：随机化治疗组（例如二值：\(A=1\) 新药，\(A=0\) 对照）。
\(Z\)：基线协变量向量（如年龄、性别、基线 HbA1c）。
\(D\)：intercurrent event 指示符（如是否在随访期间停药或使用抢救治疗），\(D=1\) 表示发生。
\(Y\)：终点结局（连续，如 HbA1c 从基线到第 24 周的变化）。
\(Y(a, d)\)：潜在结局，若治疗为 \(a\)、事件为 \(d\) 时所观测到的结局。
目标 estimand：\(\psi = E[Y(A=1, D=0)] - E[Y(A=0, D=0)]\)，即在两组中阻止事件发生后的平均因果效应（hypothetical strategy）。
模型（数据生成机制）：
治疗随机化：\(A \perp (Y(1,0), Y(0,0), D(1), D(0)) \mid Z\)（因为随机化，有时可忽略）。
事件的发生取决于治疗和基线协变量：\(P(D=1 \mid A, Z)\)。
结局依赖于治疗、事件发生及基线：\(Y = \mu(A, D, Z) + \epsilon\)，\(\epsilon \sim N(0, \sigma^2)\)。
关键假设：无未测量的混杂（对于事件和结局之间的关系）；此外，潜在结局在给定 \(Z, A\) 时可能需额外的 monotonicity 或 no interaction 假设（下文详述）。
可观测数据：研究者实际观测到 \((Z_i, A_i, D_i, Y_i)\) 对于每个病人 \(i\)。如果病人因事件而提前退出，结局可能缺失（此时 \(D=1\) 且 \(Y\) 不可观测）。本文案例中，停药后仍有部分患者提供了终点测量，因此并非全部缺失。

第二步：最小内核¶

为了看清五种估计量的核心差异，考虑一个极度简化的场景：
- 只有 两个时间点：基线（测量 Z）和终点（测量 Y）。
- 事件 D 是二值，在基线和终点之间发生。
- 所有患者在终点都可能失访，但无时间变化的混杂（即在基线后没有新的协变量）。
- 随机三重 \((A_i, D_i, Y_i)\)，加上基线 Z_i，独立同分布。

我们要估计 \(\psi = E[Y(1,0) - Y(0,0)]\)。

五种估计量的最小实现：

MMRM（混合模型重复测量）：
拟合模型 \(Y = \alpha_0 + \alpha_1 A + \alpha_2 Z + \beta D + \epsilon\)（注意 D 是 post-randomisation 变量，但此处仅用基线协变量）。
假设 \(Y\) 在给定 \(A,Z,D\) 下是 MAR（即缺失概率仅依赖于 \(A,Z\) 而非 \(Y\)）。
但：MMRM 标准做法不包括 D，而是假设事件后数据视为缺失。这里若将事件导致的缺失视为随机，则 MMRM 可直接使用所有观测（包括事件发生后的 Y）来估计治疗效应；若将事件视同删失，则需采用缺失数据方法。
在最小内核中，我们可直接用 MMRM 估计主效应 \(\alpha_1\)，然而这估计的是“整体治疗效应”而非 hypothetical。所以实际 MMRM 是通过仅使用未发生事件的患者的数据，或通过模型外推到 D=0 的情形（需要假设 D 不影响 Y 的条件均值，即处理效应在 D=0 和 D=1 之间无交互）。
简化版：假设无交互（\(\beta=0\)），则 \(\hat{\psi} = \hat{\alpha}_1\)。
MI（多重插补）：
将发生了事件（D=1）的患者的 Y 值视为缺失。
用无事件的患者（D=0）拟合 Y~A+Z，然后用该模型预测 D=1 患者的 Y，生成多个插补数据集。
在每个插补数据集中拟合简单均值差 \(\hat{\psi}_m\)，然后结合 Rubin 规则。
注意：此处 MI 假设Y 缺失是 MAR（给定 A, Z），且插补模型正确。它直接估计 hypothetical 效应，因为插补后相当于所有患者都处于 D=0 状态。
IPTW（逆概率治疗加权）：
估计 \(P(D=1 \mid A, Z)\)（例如通过逻辑回归），得到倾向性得分。
给予每个患者权重 \(w_i = \frac{1}{\hat{P}(D=0 \mid A_i, Z_i)}\)（或稳定版本），仅使用 D=0 的患者。
用加权平均计算组间差异：\(\hat{\psi} = \frac{\sum_{i:A_i=1, D_i=0} w_i Y_i}{\sum w_i} - \frac{\sum_{i:A_i=0, D_i=0} w_i Y_i}{\sum w_i}\)。
假设：无未测量混杂导致事件的选择性退出（一致性假设：给定 A, Z，事件发生的概率与 Y 无关）。
G-formula：
拟合结局模型 \(E[Y \mid A, D, Z] = g(A, D, Z; \beta)\)。
标准化：将所有人设为 A=1, D=0（或 A=0, D=0）并预测，然后取平均差：
\(\hat{\psi} = \frac{1}{n}\sum_i \hat{E}[Y \mid A=1, D=0, Z_i] - \frac{1}{n}\sum_i \hat{E}[Y \mid A=0, D=0, Z_i]\)。
这里不需要 D=0 实际被观测；它通过回归模型外推。假设：结局模型正确，且给定 A, D, Z 下 Y 的期望被正确指定（不需要事件的可忽略性假设）。
G-estimation：
用于估计 controlled direct effect（CDE），即 \(E[Y(a,0)]\)。
假设不存在 A 与 D 的交互（或考虑交互）。
定义“treating”模型：\(E[Y \mid A, D, Z] = \gamma_0 + \gamma_1 A + \gamma_2 D + \gamma_3 Z\)。
则 \(\psi = \gamma_1\)（假设无交互）。
G-estimation 通过两阶段回归：第一阶段估计 \(\psi\) 的残差；第二阶段用工具变量思想？不，这里简化为：利用随机化 A 构造估计方程。
在当前设定下，若模型正确且 D 被正确处理，则 G-estimation 等价于调整后的回归。

这些方法在无时依混杂、无交互的线性条件下，理论上等价。本文的结果正验证了这一点。

三、这篇论文做了什么¶

三句话总结
1. 本文分析了 2 型糖尿病试验数据，目标是估计随机化治疗在假设无抢救治疗和停药的 hypothetical 场景下的因果效应（即 hypothetical estimand）。
2. 使用了五种估计方法：MMRM、MI、IPTW、G-formula、G-estimation，并详细说明了它们的识别假设、R 包实现（包括方差估计技巧）。
3. 结果发现五种方法给出非常相似的估计值和标准误，并讨论了在实际选择时需考虑的折衷：计算时间、缺失数据处理模式、是否使用事件后数据、是否调整时依混杂（虽然本例无时依混杂）。

关键设定与假设
- 数据：来自 Müller-Wieland et al. (2018) 的多中心 RCT，名为 CSII trial（NCT01206231）。患者为二甲双胍控制不佳的 2 型糖尿病，随机至三组：dapagliflozin (n=299)、dapagliflozin + saxagliptin (n=305)、glimepiride (n=302)。主要结局是第 24 周 HbA1c 较基线的变化。
- Intercurrent events：主要考虑两类：（1）需要抢救治疗（额外抗高血糖药物）；（2）试验药物停药（包括不良事件、失访、撤回同意等）。采用 hypothetical strategy：假设这两类事件不发生。
- 协变量：基线 HbA1c、年龄、性别、BMI、糖尿病病程、基线 eGFR 等。只有基线测量，没有重复测量的时依协变量（即无时依混杂）。
- 补充假设：
- 随机化保证治疗 A 与潜在结局独立。
- 对于每个估计量，有额外假设：
- MMRM：结局缺失是 MAR（给定之前观测和基线），且缺失模式由基线变量和之前结局预测。
- MI：同 MAR，但需指定插补模型（使用了无事件患者的回归）。
- IPTW：事件发生给定时无未测量混杂（给定 A 和 Z，事件与潜在结局独立）。
- G-formula：结局模型正确指定；事件作为时依变量（但此处无时依混杂，所以简单）。
- G-estimation：结局模型正确；额外假设事件对结局的影响是线性的且无治疗-事件交互（在本文检查了交互项后支持）。
- 与已有文献相比，本文没有放宽或强化假设，而是在同一真实数据集上要求所有方法使用相同的协变量集，以公平比较。较 Olarte Parra (2021) 的理论统一，本文是实证延续。

主要结果
- 五种估计量在三种治疗对比（dapagliflozin vs glimepiride；dapagliflozin+saxagliptin vs glimepiride；两种新药组合间）的 72 个效应估计中（3 对两两比较 × 24 周 HbA1c，还有后续时间点？原文说到除了 24 周外，还有 4, 8, 12, 18 周等，但主要聚焦 24 周），所有方法给出几乎相同的点估计（最大差异约 0.1% HbA1c）和几乎相同的标准误（未报告显著差异）。
- 计算时间上，MMRM 和 MI 最快（<1 秒），IPTW 稍慢（<10 秒），G-formula 需要模拟（约 30 秒），G-estimation 最慢（约 2-3 分钟）。
- 方差估计讨论：因 MI 与 G-formula 的组合需要适当 bootstrap（Schomaker & Heumann 2018 方法），本文实现了两种方案，并报告结果一致。
- 文章还展示了对估算量的敏感性：当使用不同事件定义（如仅停药 vs 停药+抢救）时，结果稳定。

证明路线与技术技巧
本文为实证研究，不包含新定理或证明路线。技术技巧主要体现在实现细节：

MMRM：使用 nlme R 包的 lme，拟合随机截距+非结构化协方差结构。将事件后数据标记为缺失？标准做法：仅用观测数据（无明确缺失模型），但 MMRM 对 MAR 假设提供有效性。
MI: 使用 mice 包，采用无事件患者子集拟合预测模型，然后对所有患者预测（引入随机误差）。方差通过 Rubin 规则结合 bootstrap 获得（先 bootstrap 原始数据再行 MI，再在每套数据中估计）。
IPTW：用 ipw 包的 ipwtm 函数估计倾向性加权，权重取稳定权重。仅对 D=0 患者加权分析。方差用 bootstrap 或者加权线性回归的稳健方差。
G-formula：用 gfoRmula 包，设定干预值 D=0。由于无时依混杂，G-formula 退化为标准回归标准化，但作者仍使用 Monte Carlo 模拟（即从观测数据的联合分布中模拟潜在结局）。该包自动处理缺失。
G-estimation：通过 gesttools 实现（或自定义两阶段估计）。第一阶段拟合结局模型（包含 A, D, Z 及其交互），第二阶段用 \(A\) 作为仪器消除 D 的内生性？实则利用随机化的外生性，构造估计方程：\(U(\psi) = (A - E[A])(Y - \psi A - \beta D - \gamma Z)\) 等。具体实现依赖于 g-estimation 的 standard procedure（Robins et al. 1992）。

由于所有方法的结果相似，文章的重点不在于展示新技巧，而在于提供可复现的代码框架和揭示实践中隐含的假设差异。

真实例子与应用
- 数据来源：见上文（Müller-Wieland 2018 试验）。该试验原本评估三种添加疗法控制血糖的效果。本文重新分析，重新定义 intercurrent events 和 estimand。
- 方法使用：在原始数据上依次运行上述五种估计量，生成每组在 hypothetical 场景下的平均结局，再计算差。
- 结果：五条方法给的曲线几乎重叠（图示）。例：对于 dapagliflozin vs glimepiride 在 24 周的差值，MMRM 估计 -0.34%，MI -0.35%，IPTW -0.33%，G-formula -0.34%，G-estimation -0.34%。无明显差别。
- 这个例子想说明：当假设满足时（本例中事件发生不强烈，且缺失数据模式友好），多种方法收敛于同一答案，验证了理论等价；但文章中同时指出，如果存在时依混杂或事件比例高，差异可能出现。

🔎 结论是否比证明窄
本文结论严格限于该试验情境，未作泛化。例如，文中明确说明：“These results should not be taken as evidence that all methods will always agree; rather, they illustrate that under the conditions of this trial, the methods yield similar estimates.” 结论未超出证明范围。

四、开放问题¶

时依混杂下的表现：本文刻意避开时依混杂（无重复协变量测量）。当存在时依混杂时，上述估计量的假设是否仍等价？G-formula 和 G-estimation 理论上可处理，但 IPTW 需要标准化的权重更新。扎根点：原文 limitation 段：“我们研究的数据在基线后没有重复测量协变量，因此不存在时依混杂问题……还需要在含时依混杂的数据中进行评估。”
方差估计的准确性：对于 MI+PTW 或 G-formula+bootstrap 组合，现有方差估计（Rubin 规则、bootstrap）在有限样本下的覆盖率和效率如何？本文使用 bootstrap 内嵌 MI 得到了良好结果，但未比较其他策略（如 analytic sandwich 估计）。扎根点：方法部分关于方差估计的讨论（围绕 Schomaker & Heumann 2018 的四种方法）仅选择一种，未做系统仿真。
多种事件类型的联合建模：本文分别处理停药与抢救治疗，但将其合并为单一事件 D。若事件类型不同（如不良事件 vs 停药），它们可能有不同机制，需要区分建模（例如使用竞争风险）。扎根点：文中提及“我们将两类 intercurrent event 视为相同……更细致的处理值得探索”。
效率理论空白：在 hypothetical strategy 下，各估计量的（半参数）效率界是什么？是否某些方法可达到最小方差？本文仅报告标准误大致相等，但未讨论最优性。扎根点：引入因果推断的效率理论（如 van der Laan & Robins）对此场景可做出理论贡献，而本文完全未涉及。

（建议确认：以上问题是否已被其他文献先行解决？可查阅 Olarte Parra (2021) 的理论统一是否有后续效率比较。）

Maintained by 陈星宇 · Homepage · Source on GitHub