One-step Outcome Imputation: An Alternative to Multiple Imputation¶

作者: Andreas Nordland, Klaus K. Holst, David Redek, Christian B. Pipper, Aske T. Iversen
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.07174

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是随机对照试验（RCT）中结局变量缺失时的因果效应估计与推断问题，特别聚焦于当缺失机制不满足 MAR（Missing At Random）时——例如因中间事件（Intercurrent Events, ICE，如停药、死亡）导致的结构性缺失——如何通过参考组（Reference-based / Control-based）等插补模型定义并估计所谓的“假设性估计目标”，并给出渐近有效的频率学派推断。当前该方向的成熟度表现为：工业界（ICH E9(R1) 指导原则）已统一了估计目标的框架，但相应的统计方法仍处于从多重插补（MI）+ Rubin 规则向半参数有效估计 / 稳健推断过渡的阶段，理论工具已齐备（influence function, one-step estimator），但与复杂 ICE 策略的结合及小样本修正仍在探索中。

发展脉络： - 奠基工作：Rubin (1987) 建立了多重插补（MI）与 Rubin 规则的框架，将其作为处理缺失数据的标准推断手段；但 Robins & Wang (2000) 严格证明了 Rubin 规则在非参数与半参数分析模型下存在渐近偏差，指出了 MI 推断的内在缺陷，为后续寻找替代方案打开了口子。 - 主要进展（Reference-based MI 与 Rubin 规则的失效）：Carpenter et al. (2013) 将 reference-based MI 引入临床试验以处理 ICE；随后 Tan et al. (2021) 的综述确认了这类 controlled MI 在 RCT 中的常规使用，但 Bartlett (2023) 明确指出 Rubin 方差估计量在 reference-based 设定下是偏的（通常是保守的，导致 power 损失），并争论应采用重复抽样方差，提议用 bootstrap 结合 MI 来修正；Wolbers et al. (2022) 则提议用条件均值插补 + jackknife/bootstrap 来绕过 Rubin 规则的随机性。Yang & Kim (2016) 从贝叶斯 MI 角度也指出了方法矩估计下 Rubin 规则的偏差。 - 当前 frontier（估计目标与半参数有效估计）：ICH E9(R1) (2019) 从监管层面确立了 ICE 策略与估计目标的定义；Parra et al. (2023) 将因果推断语言与缺失数据语言统一，指出假设性估计目标下可利用 ICE 后数据；Hines et al. (2022) 系统梳理了基于 efficient influence function 的 one-step 估计器，为绕过 MI 直接构造半参数有效估计提供了通用数学工具；Lancker et al. (2024) 及 Tsiatis et al. (2008) 提供了 RCT 中协变量调整的随机化增强理论。 - 本文的位置：本文站在 MI 替代路线的 frontier，将 Hines et al. 的 one-step/IF 工具直接嵌入 ICH E9(R1) 的 ICE 插补设定，证明通过显式靶向插补模型隐含的估计目标，可以一步获得渐近有效推断，彻底绕过 MI 的随机模拟与 Rubin 规则的失效问题。

子线索聚类： 1. MI 推断失效与修补路线：包含 Robins & Wang (2000), Bartlett (2023), Wolbers et al. (2022), Yang & Kim (2016)。这一簇在做同一件事：承认 MI（特别是 reference-based MI）作为插补手段，但修补 Rubin 规则的方差估计，修补手段均依赖重抽样。 2. 估计目标与因果语言统一路线：包含 ICH E9(R1) (2019), Parra et al. (2023), Carpenter et al. (2013)。这一簇在做：用潜在结果 / ICE 策略重新定义 RCT 的目标参数，明确结构性缺失的因果含义。 3. 半参数有效估计 / One-step 路线：包含 Hines et al. (2022), Tsiatis et al. (2008), Lancker et al. (2024), Kim & Rao (2009)。这一簇在做：用 influence function 与 von Mises 展开构造不依赖重抽样的有效估计器，Kim & Rao 在抽样调查语境下做了类似的线性化方差。

这个方向在追问的核心问题： 1. 当插补模型不满足 congeniality（如 reference-based 模型借用了对照组分布，而分析模型关注处理组效应）时，如何获得无偏的频率学派方差估计？ 2. 如何将 ICH E9(R1) 中关于 ICE 的不同策略（如 hypothetical strategy）转化为可识别的统计目标参数，并给出透明、可分离的假设？ 3. 能否在不引入 MI 随机性的前提下，既利用协变量调整提升精度，又正确计入插补模型参数估计带来的不确定性？

⚠️ 作者的 framing： - 作者把缺口 frame 成：MI + Rubin 规则推断失效（保守或偏自由），且近期修补方案（Bartlett 的 bootstrap MI, Wolbers 的 jackknife）计算代价高；因此“显然的下一步”是直接靶向插补模型隐含的 estimand，用 one-step IF 一步到位给出解析的渐近方差。 - 被淡化的竞争路线：作者在 Discussion 中提及了 MAR 下的 doubly robust 估计器，但将其与本文的 reference-based 设定严格切割，暗示 DR 估计器只适用于 MAR，而本文框架适用于 not-MAR 的 reference-based。这回避了这样一个问题：如果用 proximal causal inference 等阴性对照变量来处理 not-MAR，是否比强行指定 reference-based 模型更少依赖参数假设？ - 缺失的引用：Intro 中未出现近期关于 longitudinal missing data 的半参数有效估计文献（如 Robins 的 g-estimation / LMTP），也未出现 proximal causal inference 处理 not-MAR 的文献。对于一位关注 longitudinal 与 proximal CI 的研究者，这是值得去查的缺口：本文的 one-step 框架能否与 longitudinal g-formula 或阴性对照结合？

张力：被引工作之间未见明显对立结论。Bartlett (2023) 与 Wolbers et al. (2022) 均同意 Rubin 规则在 reference-based 下失效且需修正，只是修正手段不同（bootstrap MI vs conditional mean + jackknife）。本文则与这两者存在“路线张力”：本文认为根本不需要 MI 的随机抽样，直接用 IF 的解析展开即可，这实质上是对 MI 修补路线的降维替代，而非修补。

二、这篇论文做了什么¶

类型：理论型（定理 / 渐近 / 效率界 / influence function 推导），无模拟或真实数据实证结果。

三句话： ①研究了 RCT 中缺失结局在非 MAR 插补模型（如 reference-based）下 MI+Rubin 规则推断失效的问题； ②核心工具是针对插补模型隐含的 treatment effect estimand，通过其 efficient influence function 构造半参数 one-step estimator； ③主要结论是该 one-step 方法绕过 MI 的随机模拟与计算负担，通过 IF 的解析展开直接给出渐近有效推断，且可通过 RCT augmentation 提升精度。

关键设定与假设： - 记号与定义：\(A\)（二值随机化处理），\(Y\)（结局），\(\Delta\)（非缺失指示器），\(X\)（基线协变量），\(Z\)（随机化后变量，如 ICE 指示器 \(\xi\)）。有效非缺失指示器 \(\Delta(\xi) = \Delta \cdot (1-\xi)\)，将 ICE 导致的结构性缺失与普通缺失统一。 - 目标参数：\(\Psi_{\tilde{Y}} = E[\tilde{Y}(\theta^*)|A=1] - E[\tilde{Y}(\theta^*)|A=0]\)，其中 \(\tilde{Y}(\theta^*) = \Delta Y + (1-\Delta)U(X,A,Z;\theta^*)\)。\(U\) 是插补函数，依赖未知参数 \(\theta^*\)。 - 核心假设： 1. \(\hat{\theta}\) 是基于观测数据对 \(\theta^*\) 的 consistent, regular, asymptotically linear 估计，具有已知 IF \(\epsilon\)（如 MLE 的 score 函数）。统计含义：插补模型的参数必须能从观测数据（如对照组完整案例）中稳定估计。 2. \(g_0(a) > 0\)（随机化概率非零），\(S_0(a) > 0\)（非缺失概率非零）。统计含义：排除退化试验设计。 3. Donsker class 条件（针对经验过程余项）。统计含义：限制 nuisance 估计器（如 \(\hat{g}, \hat{S}, \hat{Q}\)）的复杂度，防止过拟合破坏余项的 \(o_P(n^{-1/2})\) 性质。 4. 局部 Lipschitz 条件与方差包络条件（Section C）。统计含义：保证 MI 估计量在 \(m \to \infty\) 时收敛到 one-step 目标参数，控制 Monte Carlo 误差与参数估计误差。 - 与已有文献的对比：相比 Bartlett (2023) 与 Wolbers et al. (2022) 依赖重抽样，本文假设了 Donsker 条件以获得解析方差；相比 Robins & Wang (2000) 指出的 MI 偏差，本文通过显式靶向 \(\Psi_{\tilde{Y}}\) 完全绕开了 congeniality 假设。

主要结果： 1. 目标参数的分解定理（Section 2.2）： \(\Psi_{\tilde{Y}} = \Psi_{\Delta Y} + \Psi_{\Delta} \cdot \Psi_U\)，即：观测结局的期望 + 缺失概率 × 缺失结局在插补模型下的期望。直觉：将插补带来的额外不确定性隔离到 \(\Psi_U\) 中，观测部分 \(\Psi_{\Delta Y}\) 可用标准 RCT 增强估计。 2. \(\Psi_U\) 的 Influence Function 与渐近方差（Supplementary A, Section 2.2）：通过 von Mises 展开与 delta method for IFs，推导出 \(\hat{\Psi}_U\) 的 IF 为： \(\frac{I(A=a)}{g_0(a)} \frac{1-\Delta}{1-S_0(A)} \{U(X,A,Z;\theta^*) - \Psi_U\} + P\left( \frac{I(A=a)}{g_0(a)} \frac{1-\Delta}{1-S_0(A)} \nabla_\theta U(X,A,Z;\theta^*) \right) \epsilon\)。直觉：第一项是插补值偏离其条件均值的变异；第二项是插补模型参数 \(\hat{\theta}\) 估计不确定性向插补值的传播（通过梯度 \(\nabla_\theta U\)）。解决的技术难点：精确分离了 nuisance 参数（\(\hat{g}, \hat{S}\)）的二阶余项（通过 Cauchy-Schwarz 证明为 \(o_P(n^{-1/2})\)），并将 \(\hat{\theta}\) 的不确定性线性化计入 IF。 3. RCT-augmented Efficient IF（Section B）：将 IF 投影到 RCT 的切空间 \((A-g_0(1))h(X)\) 上，得到包含 \(H_0(X,a;\theta^*) = E[U|X,A=a]\) 的增强项。直觉：利用随机化下 \(X \perp A\) 的性质，用基线协变量预测插补值，进一步缩减方差。

证明路线与技术技巧： - 整体路线： 1. 定义插补后的目标参数 \(\Psi_{\tilde{Y}}\)，并将其分解为三个 sub-target（\(\Psi_{\Delta Y}, \Psi_{\Delta}, \Psi_U\)）。 2. 对 \(\Psi_{\Delta Y}\) 构造标准的 RCT augmented one-step estimator（调整协变量 \(\hat{Q}\)）。 3. 对 \(\Psi_U\) 构造 plug-in 估计器，写出其 von Mises 展开。 4. 将 von Mises 展开的二阶余项拆分为 (6), (7), (8) 三项，分别处理 \(\hat{\theta}\) 的线性传播、交叉项的 \(L_2\) 收缩、以及 \(\hat{g}, \hat{S}\) 的线性修正。 5. 用 delta method 组合三个 sub-target 的 IF，得到最终方差；并在 Section C 证明 MI 估计量当 \(m \to \infty\) 时收敛到同一目标。 - 关键跳跃点： Supplementary A 中对 \(\hat{\Psi}_U - \Psi_U\) 的 von Mises 展开余项处理。难点在于：\(\hat{\Psi}_U\) 同时依赖三个 nuisance 估计器（\(\hat{g}, \hat{S}, \hat{\theta}\)），且 \(\hat{\theta}\) 出现在非线性函数 \(U\) 内。作者将余项拆为三项： - (6): \(U(\hat{\theta}) - U(\theta^*)\) 的线性化（用 \(\nabla_\theta U \cdot \epsilon\) 解决）。 - (7): \((\hat{g}, \hat{S}\) 的误差) \(\times (U(\hat{\theta}) - U(\theta^*))\) 的交叉项。用 Cauchy-Schwarz 不等式，利用 \(\|\hat{g}-g_0\|_{2,P_0} = O_P(n^{-1/2})\) 与 \(\|U(\hat{\theta})-U(\theta^*)\|_{2,P_0} = o_P(1)\)，证明交叉项是 \(o_P(n^{-1/2})\)。 - (8): \((\hat{g}, \hat{S}\) 的误差) \(\times U(\theta^*)\) 的项。通过代数化简，将其转化为一个线性 IF 项。这一步是全文最吃功夫的，它保证了 plug-in 估计器的渐近线性性。 - 技术技巧点名： - von Mises expansion / nonparametric delta method：用在 Supplementary A 展开 \(\hat{\Psi}_U\) 的误差，是构造 one-step estimator 的标准起手式。 - Delta method for influence functions：用在从 \(\hat{\theta}\) 的 IF \(\epsilon\) 推导 \(U(\hat{\theta})\) 的 IF（公式 1），通过梯度 \(\nabla_\theta U\) 传递不确定性。 - Cauchy-Schwarz inequality for empirical process remainders：用在证明交叉项 (7) 是 \(o_P(n^{-1/2})\)，要求 nuisance 估计器的 \(L_2\) 收敛速率。 - Projection onto RCT tangent space：用在 Section B，将初始 IF 投影到由 \((A-g_0(1))h(X)\) 张成的空间，得到协变量调整后的 efficient IF。 - Local Lipschitz & Variance envelope：用在 Section C 证明 MI 估计量的收敛性，控制 Monte Carlo 误差与参数估计误差。

真实例子与应用：本文为纯理论 / 无实证例子。文中 Section 3 给出了“Imputation Model Examples”，但这些是数学推导的具体化（如推导 logistic 模型下 subset M-estimator 的 IF，以及 ICE 组合下 IF 的拼接），而非基于真实数据或模拟的实证结果。作者未提供任何模拟比较（如 one-step vs MI+Rubin 的方差覆盖率）或真实 RCT 数据分析。

🔎 结论是否比证明窄： - 作者在 Abstract 与 Intro 中 claim “ensures asymptotically valid inference” 和 “increased precision compared to MI”，但严格证明仅覆盖“在 Donsker 条件与 \(L_2\) 收敛速率下，one-step 估计器渐近线性且方差可由 IF 解析给出”。对“increased precision”的 claim（即 one-step 方差 \(\leq\) MI+Rubin 方差）并未给出一般性定理证明，仅依赖 Bartlett (2023) 已指出的 Rubin 规则保守性作为直觉支撑。 - Discussion 中 claim “conceptually equivalent to performing infinite multiple imputations”，严格证明仅在 Section C 给出了 MI 估计量依概率收敛到 one-step 目标参数的证明（要求 \(nm \to \infty\) 及 Lipschitz 条件），并未证明两者的渐近方差等价（事实上 MI+Rubin 方差是偏的，不可能等价）。

三、开放问题¶

纵向 / 中介设定下的 ICE 与缺失处理：本文仅处理单个结局 \(Y\) 的缺失。对于 longitudinal 数据中不同时间点的 ICE 与缺失，如何将 one-step IF 框架与 g-formula / LMTP 结合？（扎根在 Discussion: "Future work will focus on combining conservative imputation strategies... with missing-at-random assumptions... This will help bring methods from the targeted learning... to clinical-trial applications."）
基线与随机化后变量本身的缺失：本文假设插补模型中的 \(X, Z\) 完全观测。若 \(X\) 或 \(Z\) 也有缺失，当前 IF 的推导与余项控制将失效，需引入新的 nuisance 估计器或 doubly robust 结构。（扎根在 Discussion: "A further direction for future work is the handling of more complicated missingness patterns in baseline and post-randomization variables used in the imputation model."）
小样本修正：Wald-type 渐近推断在小样本 RCT 中可能偏自由，one-step estimator 的小样本表现未验证。（扎根在 Discussion: "A second outstanding issue is that inference deduced from one-step imputation estimation, like all Wald-type estimators, is sensitive to small-sample issues."）

四、最核心、最简单的例子 / 数学问题¶

最简特例：Reference-based 线性插补下的 \(\Psi_U\) 估计

剥掉所有一般性设定（半参数模型、ICE 组合、RCT augmentation），本文的数学内核是：当插补函数 \(U\) 是参数模型 \(\theta^*\) 的条件均值，且 \(\theta^*\) 仅在对照组完整案例上估计时，如何把 \(\hat{\theta}\) 的不确定性计入处理组缺失结局的均值估计中。

设定： - 结局 \(Y\) 连续，缺失指示器 \(\Delta\)。 - 插补模型为线性回归：在对照组（\(A=0\)）完整案例（\(\Delta=1\)）上拟合 \(E[Y|X, A=0] = \theta_0^* + \theta_X^* X\)。 - 插补函数 \(U(X; \theta^*) = \theta_0^* + \theta_X^* X\)（reference-based：借用对照组的回归系数来预测处理组的缺失值）。 - 目标：估计处理组缺失者的插补均值 \(\Psi_U = E[U(X; \theta^*) | \Delta=0, A=1]\)。

在这个特例下，要证的命题退化成： \(\sqrt{n}(\hat{\Psi}_U - \Psi_U)\) 的渐近线性展开是什么？

证明怎么走： 1. \(\hat{\theta}\) 是在子集 \(\{A=0, \Delta=1\}\) 上的 OLS 估计，其 IF \(\epsilon\) 仅在该子集上非零，形式为 \(R \cdot \text{score}\)（\(R=I(A=0)\Delta\)）。 2. \(U\) 对 \(\theta\) 的梯度 \(\nabla_\theta U = (1, X)\)（线性模型的常数梯度）。 3. 根据 Supplementary A 的核心跳跃点（公式 6），\(\hat{\theta}\) 引起的变异项退化为： \(P\left( \frac{I(A=1)}{g_0(1)} \frac{1-\Delta}{1-S_0(1)} (1, X) \right) \cdot \frac{1}{\sqrt{n}} \sum_{i=1}^n \epsilon_i\)。这一项的直觉极其清晰：它是“处理组缺失者对 \((1, X)\) 的期望”乘以“对照组完整案例上 OLS 参数的估计误差”。这正是 Rubin 规则遗漏的变异来源——Rubin 规则只看到了 MI 抽样的随机性，没看到 \(\hat{\theta}\) 从对照组向处理组“跨臂借用”带来的参数不确定性传播。 4. 交叉项 (7) 在线性模型下自然消失（因为 \(\nabla_\theta U\) 是常数，\(U(\hat{\theta})-U(\theta^*)\) 的 \(L_2\) 误差直接被 \(\hat{\theta}\) 的 \(L_2\) 误差控制）。

为什么成立：因为线性模型的梯度 \(\nabla_\theta U\) 不依赖 \(\theta\)，使得 delta method 一步到位，没有任何高阶余项。本文的一般情形只是把 \((1, X)\) 换成了依赖 \(\theta\) 的梯度 \(\nabla_\theta U(X,A,Z;\theta^*)\)（如 logistic 模型下的 \(p(1-p)X\)），并用 Cauchy-Schwarz 硬压住了由此产生的交叉余项。读懂了这个线性特例，整篇论文的 IF 拼接逻辑就一览无余。

Maintained by 陈星宇 · Homepage · Source on GitHub

One-step Outcome Imputation: An Alternative to Multiple Imputation¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题¶

四、最核心、最简单的例子 / 数学问题¶

评论