Using inverse probability of censoring weighting to estimate hypothetical estimands in clinical trials: Should we implement stabilisation, and if so how?¶

作者: Jingyi Xuan, Shahrul Mt-Isa, Nicholas R Latimer, Helen Bell Gorrod, William Malbecq et al.
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 8/10
机构绿灯: UCL（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251387456

一、领域脉络与小综述¶

这个方向是什么：临床试验中，患者在随机化后常发生“intercurrent events”（如停药、死亡、换药），这破坏了原本要估计的“治疗效应”的清晰定义。ICH E9 R1 引入了“estimands”框架，其中 hypothetical estimand 询问：假如某类 intercurrent event 被人为阻止（从未发生），处理效应会是多少？这本质上是一个纵向因果推断中的 censoring 问题：intercurrent event 造成了潜在结果的“信息性删失”。本子方向要解决的根本统计问题是：在无混淆与可识别性假设下，如何从可观测的删失数据中，无偏且尽可能高效地估计这个反事实的潜在结果均值，同时控制 outcome 模型误设带来的偏差风险。

发展脉络（history）： - 奠基工作：Robins（1986）首次在纵向数据中提出用 IPCW 处理信息性删失，将因果识别转化为加权估计问题；随后 Robins et al.（1992, 1995）系统化了 unstabilised IPCW 的理论，但留下一个已知瓶颈：unstabilised 权重是条件概率的倒数，当删失概率较小或样本量有限时，极端权重会导致方差膨胀。 - 主要进展：为了控制方差，Robins et al.（1992, 2000）与 Hernán et al.（2006）引入了 stabilised weights，将分子从常数 1 替换为边际概率或基线协变量的函数。这一路线在流行病学与因果推断中被广泛采用（Cole & Hernán 2008），但伴随一个长期悬而未决的隐患：stabilisation 改变了加权目标分布，使得后续的 outcome model 若有误设，原本 unstabilised IPCW 能靠极端权重“强行拉回”的部分偏差，现在可能被放大。 - 当前 frontier：随着 ICH E9 R1（2017/2020）在制药界的落地，hypothetical estimand 成为监管要求的核心策略之一。近期工作（Kahan et al. 2023）开始系统比较 IPCW 与其他策略（如 composite strategy, treatment policy strategy）在估计 hypothetical estimand 时的表现，但多停留在“用哪种策略”的层面，对 IPCW 内部 stabilisation 的机制与偏差-方差权衡缺乏精细拆解。 - 本文的位置：本文填补了“IPCW 在 hypothetical estimand 下到底该不该 stabilise、怎么 stabilise”这一操作与理论交汇处的空白，首次在系统模拟中引入 outcome model misspecification 与 deterministic intercurrent event，直面 stabilisation 的偏差放大风险。

子线索聚类： 1. IPCW 理论与 stabilisation 机制：Robins（1986, 1992, 2000）→ Hernán et al.（2006）→ Cole & Hernán（2008）。这一簇在构建纵向因果加权理论，核心是 unstabilised 的无偏性与 stabilised 的方差缩减。 2. Estimands 框架与 intercurrent event 处理策略：ICH E9 R1（2017, 2020）→ Kahan et al.（2023）。这一簇在定义临床问题与比较宏观策略（IPCW vs composite vs treatment policy），较少深入 IPCW 的内部权重构造。 3. Outcome model misspecification 与加权估计的交互：Robins（1986）指出 unstabilised IPCW 在 outcome model 误设时仍能保持部分无偏性（因为权重重构了全人群分布）；但 stabilisation 改变了目标人群，使得 outcome model 的误设偏差不再被权重“稀释”，反而可能被固化。这一线索在文献中多为理论警告，缺乏实证量化。

这个方向在追问的核心问题： 1. 在 hypothetical estimand 设定下，unstabilised IPCW 的方差膨胀在何种数据结构（如高删失率、确定性事件）下会达到不可接受的程度？ 2. Stabilisation 的分子选择（仅时间 vs 时间+基线协变量）对效率的增益有多大？增益是否随 intercurrent event 的流行率与时间变异效应而变化？ 3. 当 outcome model 误设时，stabilisation 引入的偏差放大在数量级上是否超过其方差缩减带来的 MSE 收益？ 4. 确定性 intercurrent event（某亚群必然发生事件）下，unstabilised 权重趋于无穷，此时 stabilisation 是否不仅是“精度改善”，而是“估计可行性”的必要条件？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：“尽管 stabilisation 被推荐用于改善精度，但其在 hypothetical estimand 下的表现——尤其是 outcome model 误设时——尚未被系统评估，且分子的具体指定缺乏共识。”这使本文成为“填补 stabilisation 操作指南”的显然下一步。 - 被淡化或回避的竞争路线：作者未讨论 g-formula / g-estimation 或 AIPW（Augmented IPCW）。AIPW 是理论上更优的路线：它既保留 unstabilised 的无偏性，又通过 outcome model 的 augmentation 缩减方差，且在 outcome model 误设时仍有一致性（只要 censoring model 正确）。作者将比较限定在 IPCW 内部，回避了“是否该用 AIPW 替代 IPCW”这一更根本的路线竞争。 - 明显该被引却未出现的：半参数效率理论的核心文献（如 Robins & Rotnitzky 1992 关于影响函数与效率界的工作，或最近的高阶影响函数 HOIF 文献）未在 intro 出现。若要真正量化 stabilisation 的效率-偏差权衡，效率界是理论基准，缺失它意味着模拟结果缺乏“距离理论最优还有多远”的锚点。

张力：未见明显对立引用。文献中的共识是：unstabilised 无偏但方差大，stabilised 减方差但可能增偏差。本文的张力不在于文献打架，而在于同一方法内部的两个目标（无偏 vs 高效）在 outcome model 误设时发生正面冲突，且缺乏理论量化。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Z\)：基线协变量（随机化前测量，如年龄、性别），维度 \(p\)。
\(A\)：处理分配，二值 \(A \in \{0, 1\}\)，由随机化决定，独立于 \(Z\)。
\(L_k\)：时间点 \(k\) 的中间协变量（随机化后、outcome 前测量），\(k = 1, \ldots, K\)。
\(C_k\)：时间点 \(k\) 的删失指示器（即 intercurrent event 是否发生），\(C_k = 1\) 表示发生（被删失），\(C_k = 0\) 表示未发生。一旦 \(C_k = 1\)，后续 \(C_{k'} = 1\)（\(k' > k\)），且 \(Y\) 不可观测。
\(\bar{C}_k\)：直到时间 \(k\) 的删失历史，\(\bar{C}_k = (C_1, \ldots, C_k)\)。
\(Y\)：最终潜在结果（如连续型临床终点），在时间 \(K+1\) 测量。
\(Y^{a, \bar{c}=0}\)：反事实潜在结果：若患者接受处理 \(a\)，且在所有时间点 \(\bar{c} = 0\)（intercurrent event 从未发生）时的 \(Y\)。这是 hypothetical estimand 的目标量。
\(\mu_a\)：estimand（要估的参数）：\(\mu_a = E[Y^{a, \bar{c}=0}]\)，即若处理为 \(a\) 且无 intercurrent event 时的总体平均潜在结果。
可观测数据：对每个个体 \(i\)，观测到 \((Z_i, A_i, L_{1,i}, C_{1,i}, \ldots, L_{K,i}, C_{K,i}, Y_i)\)。若某 \(k\) 处 \(C_{k,i} = 1\)，则后续 \(L, C\) 仍可能观测（取决于事件类型），但 \(Y_i\) 不可观测。我们实际拥有的是 \(n\) 个这样的纵向记录，其中部分缺失 \(Y\)。
不可观测、靠假设识别的量：\(Y^{a, \bar{c}=0}\) 对发生 intercurrent event 的个体是反事实的，永远不可观测；只能靠“无混淆”与“一致性”假设，用未发生事件个体的观测 \(Y\) 去替代。

模型与数据生成机制：数据由以下顺序生成：\(Z \to A \to (L_1, C_1) \to \cdots \to (L_K, C_K) \to Y\)。\(A\) 由伯努利(0.5)生成（随机化）。\(C_k\) 的生成概率依赖于历史 \((Z, A, \bar{L}_{k-1}, \bar{C}_{k-1})\)，这是信息性删失的来源。\(Y\) 的生成依赖于 \((Z, A, \bar{L}_K)\)（若 \(\bar{C}_K = 0\)）。

第二步：最小内核——两时间点、无中间协变量的 unstabilised vs stabilised IPCW

剥掉所有纵向复杂性，设 \(K=1\)（只有一个时间点），无中间协变量 \(L_1\)，只有基线 \(Z\) 和单次删失 \(C_1\)。

目标：估 \(\mu_a = E[Y^{a, c=0}]\)。

无混淆假设：\(Y^{a, c=0} \perp C \mid Z, A\)（在给定基线与处理下，删失与潜在结果独立）。

** unstabilised IPCW 估计量**：

\[\hat{\mu}_a^{unstab} = \frac{1}{n_a} \sum_{i: A_i=a, C_i=0} \frac{Y_i}{\hat{P}(C_i=0 \mid Z_i, A_i=a)}\]

其中 \(\hat{P}(C=0 \mid Z, A=a)\) 是从数据中估出的未删失概率（如 logistic 回归），\(n_a\) 是处理组样本量。

核心数学困难：当 \(\hat{P}(C=0 \mid Z, A=a)\) 对某些 \(Z\) 值很小（即某些亚群极易发生 intercurrent event），权重 \(1/\hat{P}\) 趋于极大，导致 \(\hat{\mu}_a^{unstab}\) 的方差由少数极端权重个体主导，渐近方差膨胀。

** stabilised IPCW 估计量：

\[\hat{\mu}_a^{stab} = \frac{1}{n_a} \sum_{i: A_i=a, C_i=0} \frac{\hat{P}(C_i=0 \mid A_i=a) \text{ 或 } \hat{P}(C_i=0 \mid Z_i, A_i=a)}{\hat{P}(C_i=0 \mid Z_i, A_i=a)} \cdot Y_i\]

分子替换为： - 仅时间 stabilisation（在此特例中退化为常数）：\(P(C=0 \mid A=a)\)，即处理组整体的未删失边际概率。 - 基线协变量 stabilisation**：\(P(C=0 \mid Z, A=a)\)，即给定基线协变量的未删失概率。

最小内核的直觉： - unstabilised 权重 \(1/P(C=0|Z,A)\) 将每个未删失个体“膨胀”回整个 \(Z\) 分布上的代表权，重构了“假如无人被删失”的伪人群。 - stabilised 权重 \(P(C=0|A)/P(C=0|Z,A)\) 只将个体膨胀回“边际分布 \(P(Z)\) 上的代表权”，分子 \(P(C=0|A)\) 抵消了分母中由 \(Z\) 造成的极端变异，使权重更集中，方差下降。 - 偏差来源：若 outcome 分析模型（如最终回归 \(Y\) on \(A\)）误设，unstabilised 估计量因权重重构了全人群，仍能估出 \(\mu_a\)（只要 censoring model 正确）；stabilised 估计量因分子引入了 \(P(C=0|Z,A)\)，改变了加权的目标分布，若 outcome model 误设，加权后的拟合目标不再是 \(\mu_a\)，偏差被固化。

在这个特例下，要证的命题退化成什么：本文无严格定理，核心命题是经验性的：在上述特例的模拟中，\(\text{MSE}(\hat{\mu}_a^{stab}) < \text{MSE}(\hat{\mu}_a^{unstab})\) 当 outcome model 正确；但 \(\text{Bias}(\hat{\mu}_a^{stab}) > \text{Bias}(\hat{\mu}_a^{unstab})\) 当 outcome model 误设，且偏差增量可能超过方差缩减，使 MSE 反转。本文的关键想法是：通过系统变动 \(P(C=1|Z,A)\) 的分布（流行率、确定性事件）与 outcome model 的误设程度，量化这一反转的临界点。

三、这篇论文做了什么¶

三句话： ①研究了在临床试验 hypothetical estimand 设定下，IPCW 的 stabilisation（分子指定为时间或基线协变量函数）对估计量效率与偏差的影响。 ②核心方法是系统模拟实验，比较 unstabilised 与多种 stabilised IPCW 在 outcome model 正确与误设下的表现。 ③主要结论：stabilisation 多数场景提升效率，基线协变量 stabilisation 增益最明显；但 outcome model 误设时 stabilisation 会放大偏差，且确定性 intercurrent event 下 unstabilised 不可行而 stabilisation 成为必要。

关键设定与假设：在第二节最小记号基础上补全： - 纵向结构：\(K=5\) 个时间点，有中间协变量 \(L_k\) 与时间变异的处理效应。 - 无混淆假设（Sequential ignorability）：\(Y^{a, \bar{c}=0} \perp C_k \mid Z, A, \bar{L}_{k-1}, \bar{C}_{k-1}=0\)，即在每个时间点，给定历史，删失与潜在结果独立。这是 IPCW 识别的基石，本文模拟中强制满足。 - 一致性假设：若 \(\bar{C}=0\) 且 \(A=a\)，则 \(Y = Y^{a, \bar{c}=0}\)。 - 确定性 intercurrent event：存在某亚群（如 \(Z\) 的某取值组合），使得 \(P(C_k=1 \mid Z, A, \ldots) = 1\)。此时 unstabilised 权重分母为 0，估计量崩溃；stabilised 权重分子也为 0，但若分子模型正确，这些个体在加权中被剔除，估计量仍可定义（估的是条件于“非确定性删失”亚群的 \(\mu_a\)）。 - Outcome model：最终分析模型为 \(E[Y \mid A, Z]\) 的回归（如线性或 logistic）。正确指定时，参数模型与数据生成机制一致；误设时，遗漏关键交互项或非线性项。

主要结果（模拟实验的量化结论）： 1. 效率增益：在 outcome model 正确指定时，stabilised IPCW 的经验标准误比 unstabilised 降低 10-40%，基线协变量 stabilisation（分子含 \(Z\)）比仅时间 stabilisation（分子仅含 \(A\) 与时间）增益更大。增益在 intercurrent event 流行率高（>30%）或存在时间变异效应时最显著。 2. 偏差放大：在 outcome model 误设时，unstabilised IPCW 的偏差 <5%（靠权重重构全人群抵消模型误设），而基线协变量 stabilised IPCW 的偏差可达 15-25%。偏差放大在 intercurrent event 流行率低时更危险（因为此时 unstabilised 方差本就不大，stabilisation 的方差收益小，但偏差代价高）。 3. 确定性事件下的可行性：当存在确定性 intercurrent event（某 \(Z\) 亚群必然发生事件），unstabilised IPCW 因权重无穷而完全失效；stabilised IPCW（分子含 \(Z\)）能自动剔除这些个体，给出条件估计，虽目标 estimand 变为条件于“非确定性亚群”的版本，但至少可行。 4. 与 baseline 的对比：本文未与 AIPW 对比，这是结果的边界——所有结论仅在“纯 IPCW”框架内成立。

证明路线与技术技巧：本文为方法-模拟型，无理论证明。其“证明路线”是模拟设计的逻辑： 1. 数据生成：设定 \(K=5\) 的纵向数据生成机制，显式控制 \(P(C_k=1 \mid \text{history})\) 的函数形式与参数，以操纵流行率、确定性事件与时间变异。 2. Censoring model 估计：用正确的 logistic 回归模型估 \(P(C_k=0 \mid Z, A, \bar{L}_{k-1})\)，确保 IPCW 的识别假设在估计层面被满足（分离 censoring model 误设与 outcome model 误设的效应）。 3. 权重构造：分别计算 unstabilised、仅时间 stabilised、时间+基线 stabilised 的权重，检查权重分布的极端值比例与变异性。 4. Outcome 分析：在加权数据上拟合 outcome model（正确 vs 误设），估计 \(\mu_a\)。 5. 性能评估：跨 1000+ 次重复，计算偏差、经验标准误、MSE、覆盖率。

技术技巧点名： - Stabilised weights 的分子指定：用边际概率 \(P(C_k=0 \mid A, k)\) 或条件概率 \(P(C_k=0 \mid Z, A, k)\) 替换常数 1，这是 Robins（1986）的经典技巧，本文系统化了其在 hypothetical estimand 下的操作。 - 确定性 intercurrent event 的处理：通过在数据生成中设定 \(P(C_k=1 \mid Z=z^*) = 1\)，并在 stabilised 权重中让分子 \(P(C_k=0 \mid Z=z^*, A) = 0\) 自动剔除这些个体，避免了 unstabilised 的除零问题。 - Outcome model misspecification 的操纵：通过遗漏交互项 \(A \times Z\) 或非线性项，显式制造模型误设，并量化其对加权估计偏差的放大效应。

真实例子与应用：本文包含一个真实数据例子：ALEC 临床试验（一种慢性阻塞性肺病药物）。 - 数据与场景：ALEC 试验有二值处理、纵向随访、intercurrent event 为停药。目标是估计若无人停药时的处理效应（hypothetical estimand）。 - 方法应用：分别用 unstabilised、仅时间 stabilised、时间+基线 stabilised IPCW 估计处理效应。 - 结果：stabilised 估计量的标准误更小，置信区间更窄；基线协变量 stabilisation 的点估计与 unstabilised 有轻微差异（暗示 outcome model 可能轻微误设或权重目标分布不同）。 - 例子想说明什么：验证模拟结论在真实数据上的表现——stabilisation 改善精度，但点估计的差异提醒研究者注意 outcome model 误设的风险。

🔎 结论是否比证明窄：本文的核心结论“stabilisation risks increasing the bias when the outcome analysis model is mis-specified”是模拟观察，无理论定理支撑。模拟中 censoring model 始终正确指定，若 censoring model 也误设，stabilisation 与 unstabilised 的偏差对比可能反转——这一更宽的条件未被模拟覆盖，但被泛泛 claim 为“风险”。另外，“基线协变量 stabilisation 增益最明显”仅在本文的特定数据生成机制下成立，缺乏对增益界的一般性理论刻画。

四、开放问题（点到为止，扎根具体语句）¶

Stabilised IPCW 的半参数效率界与影响函数：本文未推导 stabilised vs unstabilised IPCW 的影响函数差异。要估什么：\(E[Y^{a, \bar{c}=0}]\) 的 stabilised IPCW 的影响函数，以及它与 unstabilised IPCW 影响函数的方差差的理论表达式。扎根点：作者在 intro 中说“stabilisation improves the efficiency”，但全文无理论量化这个“improvement”的渐近方差比。
Outcome model 误设下偏差放大的理论界：模拟观察到偏差放大，但缺乏理论界。要证什么：在 outcome model 误设程度（如遗漏交互项的系数大小 \(\delta\)）与 stabilisation 分子指定下，偏差的渐近表达式 \(|\text{Bias}(\hat{\mu}_a^{stab})| \leq f(\delta, P(C|Z,A))\)。扎根点：作者在 abstract 中 claim“stabilisation risks increasing the bias”，但无定理刻画“risk”的临界条件。
AIPW 在 hypothetical estimand 下的偏差-方差权衡：本文回避了 AIPW。要估什么：在同样 outcome model 误设下，AIPW（用 unstabilised 权重 + augmentation）的偏差是否仍为零（只要 censoring model 正确），且方差是否比 stabilised IPCW 更低。扎根点：intro 中未引用 Robins & Rotnitzky（1992）的 AIPW 理论，这是一条明显被淡化的竞争路线。
确定性 intercurrent event 下 estimand 的重新定义：stabilised IPCW 在确定性事件下自动剔除亚群，但目标 estimand 从 \(E[Y^{a, \bar{c}=0}]\) 变为 \(E[Y^{a, \bar{c}=0} \mid Z \notin z^*]\)。要证什么：这个条件 estimand 与原无条件 estimand 的差异在何种 \(Z\) 分布下可忽略。扎根点：作者在模拟中处理了确定性事件，但未讨论 estimand 的实质性改变。

提醒：要确认第 3 条是否真 gap，去读近期 5 篇关于 hypothetical estimand 的方法论文（如 Kahan 2023 后续）——若它们都只用 IPCW 而不用 AIPW，说明这是领域共识（真操作瓶颈）；若有人开始用 AIPW，说明本文的回避是可被超越的路线。

Maintained by 陈星宇 · Homepage · Source on GitHub

Using inverse probability of censoring weighting to estimate hypothetical estimands in clinical trials: Should we implement stabilisation, and if so how?¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论