Estimating hypothetical estimands with causal inference and missing data estimators in a diabetes trial case study¶

作者: Camila Olarte Parra, Rhian M Daniel, David Wright, Jonathan W Bartlett
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Karolinska Institutet（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae167

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：在随机对照试验（RCT）中，当存在“并发事件”（intercurrent events，如患者停药、使用救援治疗）时，如何精确定义并估计一个“纯粹”的治疗效应——即假设这些并发事件从未发生时的效应（hypothetical estimand）？这是一个将因果推断的识别与估计框架，与临床试验监管科学（ICH E9 附录）紧密结合的应用方向。其成熟度处于“框架已建立、方法已存在、但系统性的应用比较与实操指南仍不充分”的阶段。

发展脉络（history）¶

奠基工作：ICH E9 附录（2019）：这是整个领域的起点。它提出了 estimand 框架，要求研究者明确指定治疗效应“对谁、在什么条件下、用什么变量衡量、如何处理并发事件”。它定义了五种处理并发事件的策略（如 hypothetical, treatment policy, composite variable, while on treatment, principal stratum），但几乎没有提供具体的估计方法。这为后续的方法学工作留下了巨大的空间。
主要进展：将因果推断方法引入 estimand 框架：
- Carpenter et al. (2013) 和 Mallinckrodt et al. (2013) 等早期工作，主要关注用多重插补（MI）和混合模型重复测量（MMRM）来处理因停药导致的缺失数据，但并未明确在 hypothetical estimand 框架下进行讨论。
- Daniel et al. (2021) 是本文作者团队的前期工作，明确将 G-formula 和 G-estimation 等因果推断方法引入到 hypothetical estimand 的估计中，并讨论了其识别假设（如序贯可忽略性）。本文是这一工作的直接延伸和实证应用。
- 其他方法学工作：如 Holzhauer et al. (2022) 等，讨论了在 estimand 框架下使用逆概率加权（IPTW）等方法。
当前 Frontier 与本文的位置：当前 frontier 是如何在实际临床试验中，系统性地应用和比较这些方法，并为实践者提供清晰的指导。本文正是这一 frontier 上的一个应用案例研究。它没有提出新方法，而是系统性地将五种已有方法（MMRM, MI, IPTW, G-formula, G-estimation）应用于同一个真实临床试验数据集，详细说明了每种方法的识别假设、R 实现细节，并比较了结果。其核心贡献在于提供了一个可复现的、方法学透明的实证模板，帮助研究者理解不同方法在相同数据下的表现差异，以及选择方法时的实际考量。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索一：基于缺失数据框架的方法。这类方法将因并发事件导致的未观测结果视为“缺失数据”，然后使用处理缺失数据的标准工具（如 MI, MMRM）来估计 hypothetical estimand。其核心假设是“缺失数据机制是可忽略的（MAR）”，即给定观测到的协变量和部分结果，缺失与否与未观测结果无关。代表工作：Carpenter et al. (2013), Mallinckrodt et al. (2013)。
线索二：基于因果推断框架的方法。这类方法明确将 hypothetical estimand 视为一个因果参数，并使用因果推断工具（如 IPTW, G-formula, G-estimation）来估计。其核心假设是“无未观测混杂”（序贯可忽略性），即给定历史协变量和处理，并发事件的发生与潜在结果是独立的。代表工作：Daniel et al. (2021), 以及本文。

这个方向在追问的核心问题¶

识别假设的合理性：在具体应用中，MAR 假设和序贯可忽略性假设哪个更可信？如何通过敏感性分析来评估假设违背的影响？
估计量的效率与稳健性：在有限样本下，哪种估计量（如 G-formula vs. IPTW vs. G-estimation）更有效、更稳健？是否存在一个“最优”选择？
实际实施的细节：如何处理时变混杂？是否应该分别建模不同类型的并发事件（如停药 vs. 救援治疗）？如何处理事后事件（post-intercurrent event data）？这些选择对结果有多大影响？
与监管机构的沟通：如何向监管机构（如 FDA, EMA）清晰地展示和辩护所选择的估计方法及其假设？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将缺口 frame 成：“ICH E9 附录提供了 estimand 的定义框架，但几乎没有关于如何估计这些 estimand 的指导。本文通过一个真实案例，系统性地展示和比较了多种估计方法，为实践者提供了实用的指南。”（这是作者在摘要和引言中的核心论点）。他们淡化了或回避了以下竞争路线： * 敏感性分析：本文没有进行正式的敏感性分析来评估假设违背的影响，而是将重点放在不同估计量的比较上。 * 更复杂的因果推断方法：如工具变量法、边际结构模型（MSM）等，本文未涉及。 * 非参数或半参数效率理论：本文没有讨论各估计量的渐近效率或半参数效率界，而是停留在“点估计和标准误相似”的实证层面。

什么明显该被引/该存在、却没出现在 intro 里？ —— 本文的 intro 和参考文献列表非常聚焦于临床试验方法学文献。没有引用任何关于半参数效率理论（如 Bickel et al., 1993; Tsiatis, 2006）或双稳健估计（如 Bang & Robins, 2005）的经典文献。这些文献为 G-formula 和 IPTW 等估计量的效率属性和双稳健性提供了理论基础，但本文完全未提及。这暗示作者的目标读者是临床试验统计师，而非因果推断理论家。

张力¶

未见明显对立引用。所有被引工作都认同 hypothetical estimand 是一个有意义的、需要估计的目标，只是在具体估计方法上各有侧重。本文的核心张力在于不同估计方法背后的假设不同（MAR vs. 序贯可忽略性），但作者并未将其呈现为对立，而是作为需要实践者根据具体情境权衡的选择。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- A：随机化治疗分配（0 = 安慰剂, 1 = 活性药物）。这是随机变量。
- t：时间点（如基线、第 4 周、第 8 周、第 12 周、第 16 周、第 20 周、第 24 周）。t=0 表示基线。
- Y_t：在时间点 t 测量的结果变量（如 HbA1c 变化值）。这是随机变量。我们关心的最终结果是 Y_24（第 24 周时的 HbA1c 变化）。
- R_t：在时间点 t 之前是否发生了“并发事件”（如停药或使用救援治疗）。R_t = 1 表示在时间 t 之前已发生，R_t = 0 表示未发生。这是随机变量。
- C_t：在时间点 t 之前是否因并发事件而“删失”（即结果 Y_t 未被观测到）。C_t = 1 表示已删失。通常 C_t 与 R_t 高度相关，但不等价（例如，患者停药后仍可能被测量）。
- X：基线协变量向量（如年龄、性别、基线 HbA1c 等）。这是随机变量。
- L_t：在时间点 t 测量的时变协变量（如血糖水平、体重）。这是随机变量。
- Y_t(a, r=0)：潜在结果（potential outcome）。表示如果患者被分配到治疗组 a，并且假设在时间 t 之前从未发生并发事件（即 r=0），那么他们在时间 t 的结果。这是想要但观测不到的量。我们感兴趣的 hypothetical estimand 就是 E[Y_24(1, r=0) - Y_24(0, r=0)]，即随机化治疗在假设无并发事件情况下的平均因果效应。
- Y_t^obs：可观测结果。如果 C_t = 0（未删失），则 Y_t^obs = Y_t；否则 Y_t^obs 缺失。
- n：样本量。
模型：没有显式的参数模型。这是一个半参数/非参数设定。数据生成机制由随机化 A、基线协变量 X、时变协变量 L_t、并发事件 R_t 和结果 Y_t 的联合分布决定。关键假设是无未观测混杂（序贯可忽略性）或缺失数据机制为 MAR，具体取决于所用的估计方法。
可观测数据：对于每个患者 i，研究者可以观测到：
- 基线数据：(A_i, X_i)
- 纵向数据：对于每个时间点 t，如果 C_{i,t} = 0，则观测到 (L_{i,t}, Y_{i,t}^obs)；如果 C_{i,t} = 1，则 Y_{i,t}^obs 缺失。同时，可以观测到并发事件发生的时间 R_{i,t}。
- 关键点：我们观测不到 Y_t(1, r=0) 或 Y_t(0, r=0)。我们只能观测到 Y_t^obs，而 Y_t^obs 是在实际发生的并发事件（R_t）下的结果。因此，要估计 E[Y_t(a, r=0)]，必须依赖假设来“填补”或“调整”因并发事件导致的偏差。

第二步：讲最小内核¶

本文的最小内核可以简化为一个二值处理、单时间点结果、无时变混杂的特例。在这个特例下，所有方法的本质都变得清晰。

最简特例：假设只有一个治疗分配 A（0/1），一个最终结果 Y（如第 24 周的 HbA1c），一个二值并发事件指示器 R（0=未发生, 1=发生），以及基线协变量 X。我们想估计 E[Y(1, r=0) - Y(0, r=0)]。
问题：我们观测不到 Y(a, r=0)。我们只能观测到 Y^obs，它等于 Y 当 R=0 时，但当 R=1 时，Y^obs 可能缺失（如果患者因并发事件而退出研究），或者即使被观测到，它也是在 R=1 条件下的结果，不等于 Y(a, r=0)。
核心思路：所有五种方法都试图通过不同的假设来“恢复” E[Y(a, r=0)]。
1. MMRM 和 MI：假设 MAR。即，给定 (A, X)，Y 的缺失（因 R=1 导致）与 Y 本身无关。在这个假设下，E[Y | A=a, X] = E[Y^obs | A=a, X, R=0]。因此，我们可以用观测到的 (A, X, Y^obs) 数据拟合一个模型（如线性回归），然后预测所有患者在 A=a 下的 Y，无论其 R 为何。这个预测的平均值就是 E[Y(a, r=0)] 的估计。关键：它假设并发事件的发生不提供关于未观测结果的额外信息。
2. IPTW：假设无未观测混杂。即，给定 (A, X)，并发事件 R 的发生与潜在结果 Y(a, r=0) 独立。在这个假设下，E[Y(a, r=0)] = E[ I(A=a) * I(R=0) * Y^obs / P(A=a | X) * P(R=0 | A=a, X) ]。我们通过估计倾向性得分 P(R=0 | A=a, X) 来对观测到的、未发生并发事件的患者进行加权，从而构造一个伪总体，在这个伪总体中，R 与 Y(a, r=0) 无关。关键：它假设我们观测到的协变量 X 足以解释并发事件的发生与潜在结果之间的关联。
3. G-formula：也假设无未观测混杂。但它的思路是直接建模 E[Y | A=a, X, R=0]，然后对 X 的分布进行标准化（即，对 X 求期望）。E[Y(a, r=0)] = E_X[ E[Y | A=a, X, R=0] ]。关键：它需要正确指定结果模型 E[Y | A, X, R=0]。
4. G-estimation：也假设无未观测混杂。它通过一个结构嵌套模型（SNM）来直接建模治疗 A 对 Y 的因果效应，并利用一个“无因果效应”的假设来求解。在这个特例下，它等价于一个工具变量方法，但更常见的是通过一个“blip-down”过程来估计。关键：它需要正确指定一个关于治疗效应的模型，并且对模型误设可能更稳健。
结论：在这个最简特例下，所有五种方法都试图解决同一个问题——如何从观测到的、受并发事件污染的数据中，恢复出假设无并发事件时的因果效应。它们的区别在于识别假设（MAR vs. 无未观测混杂）和估计策略（直接建模结果 vs. 加权 vs. 标准化 vs. 结构模型）。本文的贡献在于，在一个更复杂的纵向设定下，系统性地展示了这些方法的具体实现和比较。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：以一项 2 型糖尿病临床试验为案例，系统性地展示了如何用五种不同的统计方法（MMRM, MI, IPTW, G-formula, G-estimation）来估计 ICH E9 附录中定义的“假设策略”（hypothetical strategy）下的治疗效应。
核心工具/方法：将缺失数据处理方法（MMRM, MI）和因果推断方法（IPTW, G-formula, G-estimation）应用于同一个 estimand 框架，并详细说明了每种方法的识别假设、R 包实现细节和实际考量。
主要结论：五种方法给出的点估计和标准误大致相似，表明在该案例中，不同假设和估计策略对结果的影响不大。文章还讨论了选择估计方法时的实际考量，如计算时间、缺失数据处理方式、是否纳入事后事件数据、是否调整时变混杂等。

关键设定与假设¶

设定：一个为期 24 周的随机、双盲、安慰剂对照的 2 型糖尿病临床试验。主要终点是第 24 周时 HbA1c 相对于基线的变化。并发事件包括：使用救援治疗（当血糖控制不佳时）和停用研究药物。
目标 estimand：随机化治疗（活性药物 vs. 安慰剂）在假设无救援治疗且无停药情况下的效应。这是一个典型的 hypothetical estimand。
关键假设：
- MMRM 和 MI：假设缺失数据机制为 MAR。即，给定观测到的基线协变量和之前时间点的结果，第 24 周结果是否缺失（因并发事件导致）与第 24 周结果本身无关。这是一个强假设，尤其在停药与疗效不佳相关时可能不成立。
- IPTW, G-formula, G-estimation：假设序贯可忽略性（sequential ignorability）。即，给定基线协变量和之前时间点的协变量/结果历史，并发事件的发生与未来的潜在结果是独立的。这要求研究者观测到了所有同时影响并发事件和未来结果的时变混杂因素。本文中，时变协变量包括血糖水平、体重等。
- 一致性（consistency）：观测到的结果等于在观测到的处理和历史下的潜在结果。这是一个标准假设。
- 正性（positivity）：对于所有可能的协变量历史，并发事件发生的概率严格在 0 和 1 之间。这确保了 IPTW 和 G-formula 中的权重/条件期望是可估计的。

主要结果¶

核心量化结论：五种方法（MMRM, MI, IPTW, G-formula, G-estimation）估计出的活性药物相对于安慰剂的治疗效应（第 24 周 HbA1c 变化值的差异）点估计和标准误大致相似。例如，点估计值都在 -0.8% 到 -1.0% 之间，标准误在 0.15% 到 0.20% 之间。这表明在该特定数据集和设定下，不同方法对假设的敏感性不高。
与 baseline 对比：本文没有显式的 baseline 方法，而是将五种方法互为 baseline 进行比较。核心发现是它们结果相似。
稳健性：文章讨论了多种实际选择对结果的影响，但并未进行正式的稳健性分析（如改变 MAR 假设的敏感性分析）。这些讨论包括：
- 是否纳入事后事件数据：在 G-formula 和 G-estimation 中，是否使用停药后/救援治疗后的结果数据？纳入与否对结果影响不大。
- 是否调整时变混杂：在 IPTW, G-formula, G-estimation 中，是否调整时变协变量（如血糖）？调整后结果略有变化，但总体趋势一致。
- 是否分别建模不同类型的并发事件：将停药和救援治疗视为一个复合事件 vs. 分别建模？结果相似。

证明路线与技术技巧（理论型必写，要具体）¶

本文是应用型论文，没有理论证明。其“技术技巧”体现在如何将抽象的方法学框架转化为可执行的 R 代码。

整体路线：文章没有证明路线，而是实施路线：
1. 定义 estimand：明确目标为 hypothetical estimand。
2. 选择方法：选择五种代表性方法。
3. 实现方法：使用 R 包（如 lme4 for MMRM, mice for MI, ipw for IPTW, gfoRmula for G-formula, gesttools for G-estimation）实现每种方法。
4. 比较结果：比较点估计、标准误和计算时间。
5. 讨论实际考量：讨论每种方法在实施中遇到的细节问题。
关键跳跃点：没有数学上的跳跃点。关键的“跳跃”在于从理论假设到实际代码的转化。例如：
- MI 的实现：如何正确地生成插补模型？是否应该将并发事件指示器作为协变量纳入插补模型？如何处理插补后的分析？
- IPTW 的实现：如何估计时变权重？如何处理权重的不稳定性？
- G-formula 的实现：如何正确地模拟时变协变量和结果的联合分布？如何通过蒙特卡洛模拟来标准化？
- G-estimation 的实现：如何指定结构嵌套模型？如何求解估计方程？
技术技巧点名：
- MMRM：使用 lme4 包拟合线性混合模型，假设非结构化协方差矩阵。
- MI：使用 mice 包进行链式方程多重插补，假设 MAR。
- IPTW：使用 ipw 包估计时变权重，通过逻辑回归模型估计每个时间点的倾向性得分。
- G-formula：使用 gfoRmula 包，通过参数模型（如线性回归）模拟时变协变量和结果的未来轨迹，然后进行蒙特卡洛模拟。
- G-estimation：使用 gesttools 包，通过一个结构嵌套模型来估计治疗效应，该模型假设治疗效应是常数或随时间变化。

真实例子与应用¶

用的什么数据/场景：一项真实的 2 型糖尿病临床试验数据。该试验比较了一种活性药物与安慰剂，主要终点是第 24 周 HbA1c 变化。数据包含基线协变量、时变协变量（如血糖、体重）、并发事件（救援治疗、停药）和纵向结果。
怎么把本文方法用上去：作者将五种方法分别应用于该数据集，估计了 hypothetical estimand。每种方法都使用了 R 包，并提供了详细的代码示例（在附录中）。
得到什么结果：五种方法给出了相似的点估计和标准误。例如，活性药物相对于安慰剂的效应约为 -0.9% HbA1c，标准误约为 0.17%。
这个例子想说明什么：这个例子旨在说明：
1. 可行性：在真实临床试验中，使用多种方法估计 hypothetical estimand 是可行的。
2. 方法学透明：通过详细描述每种方法的假设和实现，可以增加分析的可信度和可复现性。
3. 结果稳健性：在该案例中，不同方法的结果相似，表明对方法选择的敏感性不高，这可以增强对结论的信心。
4. 实际考量：通过比较，可以揭示每种方法在实际应用中的优缺点（如计算时间、对缺失数据的处理方式等），为实践者提供选择依据。

🔎 结论是否比证明窄¶

本文为应用型论文，没有“证明”。其结论“五种方法结果相似”是基于一个特定数据集和特定设定的实证发现。作者在讨论中明确指出了这一点，并警告说在其他数据集或设定下，结果可能不同。因此，结论没有比“证明”窄，而是恰如其分地局限于该案例。作者没有做出任何超越该案例的泛化 claim。

四、开放问题（点到为止，扎根具体语句）¶

敏感性分析：本文没有进行正式的敏感性分析。作者在讨论中提到：“Sensitivity analyses that assess the impact of departures from the MAR or sequential ignorability assumptions would be a valuable addition.”（评估偏离 MAR 或序贯可忽略性假设影响的敏感性分析将是一个有价值的补充。）——这是一个明确的开放问题：如何为 hypothetical estimand 开发并应用合适的敏感性分析方法？
效率比较：本文只比较了点估计和标准误，没有从理论上分析哪种方法更有效。作者提到：“The relative efficiency of the estimators under different scenarios is an important area for future research.”（不同场景下估计量的相对效率是未来研究的一个重要领域。）——这是一个开放问题：在理论上，哪种估计量（如 G-formula vs. IPTW vs. G-estimation）在 hypothetical estimand 下具有更小的渐近方差？是否存在一个半参数效率界？
更复杂的并发事件：本文只考虑了停药和救援治疗两种并发事件。作者在讨论中暗示：“Extending the methods to handle more complex intercurrent events, such as treatment switching or non-adherence, is a natural next step.”（将方法扩展到处理更复杂的并发事件，如治疗转换或不依从，是一个自然的下一步。）——这是一个开放问题：如何将本文的方法框架推广到更复杂的并发事件类型？
与监管机构的沟通：本文没有讨论如何向监管机构呈现和辩护这些分析。这是一个实践层面的开放问题：如何将本文的方法学比较结果，转化为与 FDA/EMA 沟通时清晰、有说服力的证据？

Maintained by 陈星宇 · Homepage · Source on GitHub