One-step Outcome Imputation: An Alternative to Multiple Imputation¶
作者: Andreas Nordland, Klaus K. Holst, David Redek, Christian B. Pipper, Aske T. Iversen
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.07174
一、领域脉络与小综述¶
这个方向是什么: 这个子方向处理的是随机对照试验(RCT)中结局变量缺失时的因果效应估计与推断问题,特别聚焦于当缺失机制不满足 MAR(Missing At Random)时——例如因中间事件(Intercurrent Events, ICE,如停药、死亡)导致的结构性缺失——如何通过参考组(Reference-based / Control-based)等插补模型定义并估计所谓的“假设性估计目标”,并给出渐近有效的频率学派推断。当前该方向的成熟度表现为:工业界(ICH E9(R1) 指导原则)已统一了估计目标的框架,但相应的统计方法仍处于从多重插补(MI)+ Rubin 规则向半参数有效估计 / 稳健推断过渡的阶段,理论工具已齐备(influence function, one-step estimator),但与复杂 ICE 策略的结合及小样本修正仍在探索中。
发展脉络: - 奠基工作:Rubin (1987) 建立了多重插补(MI)与 Rubin 规则的框架,将其作为处理缺失数据的标准推断手段;但 Robins & Wang (2000) 严格证明了 Rubin 规则在非参数与半参数分析模型下存在渐近偏差,指出了 MI 推断的内在缺陷,为后续寻找替代方案打开了口子。 - 主要进展(Reference-based MI 与 Rubin 规则的失效):Carpenter et al. (2013) 将 reference-based MI 引入临床试验以处理 ICE;随后 Tan et al. (2021) 的综述确认了这类 controlled MI 在 RCT 中的常规使用,但 Bartlett (2023) 明确指出 Rubin 方差估计量在 reference-based 设定下是偏的(通常是保守的,导致 power 损失),并争论应采用重复抽样方差,提议用 bootstrap 结合 MI 来修正;Wolbers et al. (2022) 则提议用条件均值插补 + jackknife/bootstrap 来绕过 Rubin 规则的随机性。Yang & Kim (2016) 从贝叶斯 MI 角度也指出了方法矩估计下 Rubin 规则的偏差。 - 当前 frontier(估计目标与半参数有效估计):ICH E9(R1) (2019) 从监管层面确立了 ICE 策略与估计目标的定义;Parra et al. (2023) 将因果推断语言与缺失数据语言统一,指出假设性估计目标下可利用 ICE 后数据;Hines et al. (2022) 系统梳理了基于 efficient influence function 的 one-step 估计器,为绕过 MI 直接构造半参数有效估计提供了通用数学工具;Lancker et al. (2024) 及 Tsiatis et al. (2008) 提供了 RCT 中协变量调整的随机化增强理论。 - 本文的位置:本文站在 MI 替代路线的 frontier,将 Hines et al. 的 one-step/IF 工具直接嵌入 ICH E9(R1) 的 ICE 插补设定,证明通过显式靶向插补模型隐含的估计目标,可以一步获得渐近有效推断,彻底绕过 MI 的随机模拟与 Rubin 规则的失效问题。
子线索聚类: 1. MI 推断失效与修补路线:包含 Robins & Wang (2000), Bartlett (2023), Wolbers et al. (2022), Yang & Kim (2016)。这一簇在做同一件事:承认 MI(特别是 reference-based MI)作为插补手段,但修补 Rubin 规则的方差估计,修补手段均依赖重抽样。 2. 估计目标与因果语言统一路线:包含 ICH E9(R1) (2019), Parra et al. (2023), Carpenter et al. (2013)。这一簇在做:用潜在结果 / ICE 策略重新定义 RCT 的目标参数,明确结构性缺失的因果含义。 3. 半参数有效估计 / One-step 路线:包含 Hines et al. (2022), Tsiatis et al. (2008), Lancker et al. (2024), Kim & Rao (2009)。这一簇在做:用 influence function 与 von Mises 展开构造不依赖重抽样的有效估计器,Kim & Rao 在抽样调查语境下做了类似的线性化方差。
这个方向在追问的核心问题: 1. 当插补模型不满足 congeniality(如 reference-based 模型借用了对照组分布,而分析模型关注处理组效应)时,如何获得无偏的频率学派方差估计? 2. 如何将 ICH E9(R1) 中关于 ICE 的不同策略(如 hypothetical strategy)转化为可识别的统计目标参数,并给出透明、可分离的假设? 3. 能否在不引入 MI 随机性的前提下,既利用协变量调整提升精度,又正确计入插补模型参数估计带来的不确定性?
⚠️ 作者的 framing: - 作者把缺口 frame 成:MI + Rubin 规则推断失效(保守或偏自由),且近期修补方案(Bartlett 的 bootstrap MI, Wolbers 的 jackknife)计算代价高;因此“显然的下一步”是直接靶向插补模型隐含的 estimand,用 one-step IF 一步到位给出解析的渐近方差。 - 被淡化的竞争路线:作者在 Discussion 中提及了 MAR 下的 doubly robust 估计器,但将其与本文的 reference-based 设定严格切割,暗示 DR 估计器只适用于 MAR,而本文框架适用于 not-MAR 的 reference-based。这回避了这样一个问题:如果用 proximal causal inference 等阴性对照变量来处理 not-MAR,是否比强行指定 reference-based 模型更少依赖参数假设? - 缺失的引用:Intro 中未出现近期关于 longitudinal missing data 的半参数有效估计文献(如 Robins 的 g-estimation / LMTP),也未出现 proximal causal inference 处理 not-MAR 的文献。对于一位关注 longitudinal 与 proximal CI 的研究者,这是值得去查的缺口:本文的 one-step 框架能否与 longitudinal g-formula 或阴性对照结合?
张力: 被引工作之间未见明显对立结论。Bartlett (2023) 与 Wolbers et al. (2022) 均同意 Rubin 规则在 reference-based 下失效且需修正,只是修正手段不同(bootstrap MI vs conditional mean + jackknife)。本文则与这两者存在“路线张力”:本文认为根本不需要 MI 的随机抽样,直接用 IF 的解析展开即可,这实质上是对 MI 修补路线的降维替代,而非修补。
二、这篇论文做了什么¶
类型:理论型(定理 / 渐近 / 效率界 / influence function 推导),无模拟或真实数据实证结果。
三句话: ①研究了 RCT 中缺失结局在非 MAR 插补模型(如 reference-based)下 MI+Rubin 规则推断失效的问题; ②核心工具是针对插补模型隐含的 treatment effect estimand,通过其 efficient influence function 构造半参数 one-step estimator; ③主要结论是该 one-step 方法绕过 MI 的随机模拟与计算负担,通过 IF 的解析展开直接给出渐近有效推断,且可通过 RCT augmentation 提升精度。
关键设定与假设: - 记号与定义:\(A\)(二值随机化处理),\(Y\)(结局),\(\Delta\)(非缺失指示器),\(X\)(基线协变量),\(Z\)(随机化后变量,如 ICE 指示器 \(\xi\))。有效非缺失指示器 \(\Delta(\xi) = \Delta \cdot (1-\xi)\),将 ICE 导致的结构性缺失与普通缺失统一。 - 目标参数:\(\Psi_{\tilde{Y}} = E[\tilde{Y}(\theta^*)|A=1] - E[\tilde{Y}(\theta^*)|A=0]\),其中 \(\tilde{Y}(\theta^*) = \Delta Y + (1-\Delta)U(X,A,Z;\theta^*)\)。\(U\) 是插补函数,依赖未知参数 \(\theta^*\)。 - 核心假设: 1. \(\hat{\theta}\) 是基于观测数据对 \(\theta^*\) 的 consistent, regular, asymptotically linear 估计,具有已知 IF \(\epsilon\)(如 MLE 的 score 函数)。统计含义:插补模型的参数必须能从观测数据(如对照组完整案例)中稳定估计。 2. \(g_0(a) > 0\)(随机化概率非零),\(S_0(a) > 0\)(非缺失概率非零)。统计含义:排除退化试验设计。 3. Donsker class 条件(针对经验过程余项)。统计含义:限制 nuisance 估计器(如 \(\hat{g}, \hat{S}, \hat{Q}\))的复杂度,防止过拟合破坏余项的 \(o_P(n^{-1/2})\) 性质。 4. 局部 Lipschitz 条件与方差包络条件(Section C)。统计含义:保证 MI 估计量在 \(m \to \infty\) 时收敛到 one-step 目标参数,控制 Monte Carlo 误差与参数估计误差。 - 与已有文献的对比:相比 Bartlett (2023) 与 Wolbers et al. (2022) 依赖重抽样,本文假设了 Donsker 条件以获得解析方差;相比 Robins & Wang (2000) 指出的 MI 偏差,本文通过显式靶向 \(\Psi_{\tilde{Y}}\) 完全绕开了 congeniality 假设。
主要结果: 1. 目标参数的分解定理(Section 2.2): \(\Psi_{\tilde{Y}} = \Psi_{\Delta Y} + \Psi_{\Delta} \cdot \Psi_U\),即:观测结局的期望 + 缺失概率 × 缺失结局在插补模型下的期望。直觉:将插补带来的额外不确定性隔离到 \(\Psi_U\) 中,观测部分 \(\Psi_{\Delta Y}\) 可用标准 RCT 增强估计。 2. \(\Psi_U\) 的 Influence Function 与渐近方差(Supplementary A, Section 2.2): 通过 von Mises 展开与 delta method for IFs,推导出 \(\hat{\Psi}_U\) 的 IF 为: \(\frac{I(A=a)}{g_0(a)} \frac{1-\Delta}{1-S_0(A)} \{U(X,A,Z;\theta^*) - \Psi_U\} + P\left( \frac{I(A=a)}{g_0(a)} \frac{1-\Delta}{1-S_0(A)} \nabla_\theta U(X,A,Z;\theta^*) \right) \epsilon\)。 直觉:第一项是插补值偏离其条件均值的变异;第二项是插补模型参数 \(\hat{\theta}\) 估计不确定性向插补值的传播(通过梯度 \(\nabla_\theta U\))。解决的技术难点:精确分离了 nuisance 参数(\(\hat{g}, \hat{S}\))的二阶余项(通过 Cauchy-Schwarz 证明为 \(o_P(n^{-1/2})\)),并将 \(\hat{\theta}\) 的不确定性线性化计入 IF。 3. RCT-augmented Efficient IF(Section B): 将 IF 投影到 RCT 的切空间 \((A-g_0(1))h(X)\) 上,得到包含 \(H_0(X,a;\theta^*) = E[U|X,A=a]\) 的增强项。直觉:利用随机化下 \(X \perp A\) 的性质,用基线协变量预测插补值,进一步缩减方差。
证明路线与技术技巧: - 整体路线: 1. 定义插补后的目标参数 \(\Psi_{\tilde{Y}}\),并将其分解为三个 sub-target(\(\Psi_{\Delta Y}, \Psi_{\Delta}, \Psi_U\))。 2. 对 \(\Psi_{\Delta Y}\) 构造标准的 RCT augmented one-step estimator(调整协变量 \(\hat{Q}\))。 3. 对 \(\Psi_U\) 构造 plug-in 估计器,写出其 von Mises 展开。 4. 将 von Mises 展开的二阶余项拆分为 (6), (7), (8) 三项,分别处理 \(\hat{\theta}\) 的线性传播、交叉项的 \(L_2\) 收缩、以及 \(\hat{g}, \hat{S}\) 的线性修正。 5. 用 delta method 组合三个 sub-target 的 IF,得到最终方差;并在 Section C 证明 MI 估计量当 \(m \to \infty\) 时收敛到同一目标。 - 关键跳跃点: Supplementary A 中对 \(\hat{\Psi}_U - \Psi_U\) 的 von Mises 展开余项处理。难点在于:\(\hat{\Psi}_U\) 同时依赖三个 nuisance 估计器(\(\hat{g}, \hat{S}, \hat{\theta}\)),且 \(\hat{\theta}\) 出现在非线性函数 \(U\) 内。作者将余项拆为三项: - (6): \(U(\hat{\theta}) - U(\theta^*)\) 的线性化(用 \(\nabla_\theta U \cdot \epsilon\) 解决)。 - (7): \((\hat{g}, \hat{S}\) 的误差) \(\times (U(\hat{\theta}) - U(\theta^*))\) 的交叉项。用 Cauchy-Schwarz 不等式,利用 \(\|\hat{g}-g_0\|_{2,P_0} = O_P(n^{-1/2})\) 与 \(\|U(\hat{\theta})-U(\theta^*)\|_{2,P_0} = o_P(1)\),证明交叉项是 \(o_P(n^{-1/2})\)。 - (8): \((\hat{g}, \hat{S}\) 的误差) \(\times U(\theta^*)\) 的项。通过代数化简,将其转化为一个线性 IF 项。 这一步是全文最吃功夫的,它保证了 plug-in 估计器的渐近线性性。 - 技术技巧点名: - von Mises expansion / nonparametric delta method:用在 Supplementary A 展开 \(\hat{\Psi}_U\) 的误差,是构造 one-step estimator 的标准起手式。 - Delta method for influence functions:用在从 \(\hat{\theta}\) 的 IF \(\epsilon\) 推导 \(U(\hat{\theta})\) 的 IF(公式 1),通过梯度 \(\nabla_\theta U\) 传递不确定性。 - Cauchy-Schwarz inequality for empirical process remainders:用在证明交叉项 (7) 是 \(o_P(n^{-1/2})\),要求 nuisance 估计器的 \(L_2\) 收敛速率。 - Projection onto RCT tangent space:用在 Section B,将初始 IF 投影到由 \((A-g_0(1))h(X)\) 张成的空间,得到协变量调整后的 efficient IF。 - Local Lipschitz & Variance envelope:用在 Section C 证明 MI 估计量的收敛性,控制 Monte Carlo 误差与参数估计误差。
真实例子与应用: 本文为纯理论 / 无实证例子。文中 Section 3 给出了“Imputation Model Examples”,但这些是数学推导的具体化(如推导 logistic 模型下 subset M-estimator 的 IF,以及 ICE 组合下 IF 的拼接),而非基于真实数据或模拟的实证结果。作者未提供任何模拟比较(如 one-step vs MI+Rubin 的方差覆盖率)或真实 RCT 数据分析。
🔎 结论是否比证明窄: - 作者在 Abstract 与 Intro 中 claim “ensures asymptotically valid inference” 和 “increased precision compared to MI”,但严格证明仅覆盖“在 Donsker 条件与 \(L_2\) 收敛速率下,one-step 估计器渐近线性且方差可由 IF 解析给出”。对“increased precision”的 claim(即 one-step 方差 \(\leq\) MI+Rubin 方差)并未给出一般性定理证明,仅依赖 Bartlett (2023) 已指出的 Rubin 规则保守性作为直觉支撑。 - Discussion 中 claim “conceptually equivalent to performing infinite multiple imputations”,严格证明仅在 Section C 给出了 MI 估计量依概率收敛到 one-step 目标参数的证明(要求 \(nm \to \infty\) 及 Lipschitz 条件),并未证明两者的渐近方差等价(事实上 MI+Rubin 方差是偏的,不可能等价)。
三、开放问题¶
- 纵向 / 中介设定下的 ICE 与缺失处理:本文仅处理单个结局 \(Y\) 的缺失。对于 longitudinal 数据中不同时间点的 ICE 与缺失,如何将 one-step IF 框架与 g-formula / LMTP 结合?(扎根在 Discussion: "Future work will focus on combining conservative imputation strategies... with missing-at-random assumptions... This will help bring methods from the targeted learning... to clinical-trial applications.")
- 基线与随机化后变量本身的缺失:本文假设插补模型中的 \(X, Z\) 完全观测。若 \(X\) 或 \(Z\) 也有缺失,当前 IF 的推导与余项控制将失效,需引入新的 nuisance 估计器或 doubly robust 结构。(扎根在 Discussion: "A further direction for future work is the handling of more complicated missingness patterns in baseline and post-randomization variables used in the imputation model.")
- 小样本修正:Wald-type 渐近推断在小样本 RCT 中可能偏自由,one-step estimator 的小样本表现未验证。(扎根在 Discussion: "A second outstanding issue is that inference deduced from one-step imputation estimation, like all Wald-type estimators, is sensitive to small-sample issues.")
四、最核心、最简单的例子 / 数学问题¶
最简特例:Reference-based 线性插补下的 \(\Psi_U\) 估计
剥掉所有一般性设定(半参数模型、ICE 组合、RCT augmentation),本文的数学内核是:当插补函数 \(U\) 是参数模型 \(\theta^*\) 的条件均值,且 \(\theta^*\) 仅在对照组完整案例上估计时,如何把 \(\hat{\theta}\) 的不确定性计入处理组缺失结局的均值估计中。
设定: - 结局 \(Y\) 连续,缺失指示器 \(\Delta\)。 - 插补模型为线性回归:在对照组(\(A=0\))完整案例(\(\Delta=1\))上拟合 \(E[Y|X, A=0] = \theta_0^* + \theta_X^* X\)。 - 插补函数 \(U(X; \theta^*) = \theta_0^* + \theta_X^* X\)(reference-based:借用对照组的回归系数来预测处理组的缺失值)。 - 目标:估计处理组缺失者的插补均值 \(\Psi_U = E[U(X; \theta^*) | \Delta=0, A=1]\)。
在这个特例下,要证的命题退化成: \(\sqrt{n}(\hat{\Psi}_U - \Psi_U)\) 的渐近线性展开是什么?
证明怎么走: 1. \(\hat{\theta}\) 是在子集 \(\{A=0, \Delta=1\}\) 上的 OLS 估计,其 IF \(\epsilon\) 仅在该子集上非零,形式为 \(R \cdot \text{score}\)(\(R=I(A=0)\Delta\))。 2. \(U\) 对 \(\theta\) 的梯度 \(\nabla_\theta U = (1, X)\)(线性模型的常数梯度)。 3. 根据 Supplementary A 的核心跳跃点(公式 6),\(\hat{\theta}\) 引起的变异项退化为: \(P\left( \frac{I(A=1)}{g_0(1)} \frac{1-\Delta}{1-S_0(1)} (1, X) \right) \cdot \frac{1}{\sqrt{n}} \sum_{i=1}^n \epsilon_i\)。 这一项的直觉极其清晰:它是“处理组缺失者对 \((1, X)\) 的期望”乘以“对照组完整案例上 OLS 参数的估计误差”。这正是 Rubin 规则遗漏的变异来源——Rubin 规则只看到了 MI 抽样的随机性,没看到 \(\hat{\theta}\) 从对照组向处理组“跨臂借用”带来的参数不确定性传播。 4. 交叉项 (7) 在线性模型下自然消失(因为 \(\nabla_\theta U\) 是常数,\(U(\hat{\theta})-U(\theta^*)\) 的 \(L_2\) 误差直接被 \(\hat{\theta}\) 的 \(L_2\) 误差控制)。
为什么成立: 因为线性模型的梯度 \(\nabla_\theta U\) 不依赖 \(\theta\),使得 delta method 一步到位,没有任何高阶余项。本文的一般情形只是把 \((1, X)\) 换成了依赖 \(\theta\) 的梯度 \(\nabla_\theta U(X,A,Z;\theta^*)\)(如 logistic 模型下的 \(p(1-p)X\)),并用 Cauchy-Schwarz 硬压住了由此产生的交叉余项。读懂了这个线性特例,整篇论文的 IF 拼接逻辑就一览无余。
Maintained by 陈星宇 · Homepage · Source on GitHub