Adjusting for incomplete baseline covariates in randomized controlled trials: a cross-world imputation framework¶

作者: Yilin Song, James P Hughes, Ting Ye
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是随机对照试验（RCT）中基线协变量缺失时的处理效应估计与效率提升问题。核心统计问题是：在RCT中，研究者希望利用基线协变量（如年龄、性别、基线测量值）来提升平均处理效应（ATE）的估计精度，但协变量常常存在缺失值。此时，如何选择缺失数据处理策略，既能保证估计的一致性，又能最大化效率增益？当前成熟度：已有大量关于完全观测协变量调整的理论（如ANCOVA、ANHECOVA），但针对缺失协变量的系统性效率比较框架尚不完整，本文试图填补这一空白。

发展脉络（history）¶

奠基工作：协变量调整的现代理论 - Lin (2013) 和 Tsiatis et al. (2008) 奠定了RCT中协变量调整的半参数理论基础。Lin (2013) 证明，在ANHECOVA（包含处理-协变量交互项的回归）下，OLS调整不会损害渐近精度，且Huber-White标准误可构造有效置信区间。Tsiatis et al. (2008) 则从半参数理论出发，刻画了所有处理效应估计量的特征，并给出了实现效率增益的原则性方法。这些工作确立了“调整协变量通常有益”的共识，但前提是协变量完全观测。

关键进展：缺失协变量的处理策略 - Zhao and Ding (2022) 在随机化推断框架下系统比较了五种处理缺失协变量的策略，并推荐了缺失指示变量法（MIM）。他们证明，MIM与ANHECOVA结合使用时，不要求对缺失机制建模，只要缺失由随机化平衡，就具有完全稳健性。这是本文的直接前驱。 - White and Thompson (2005) 和 Sullivan et al. (2016) 讨论了单值插补法（如均值插补）在RCT中的表现，指出其可能产生有偏估计或效率损失。Sullivan et al. (2016) 特别指出，多重插补不应被视为处理RCT缺失数据的唯一可接受方法。

当前frontier：效率比较与统一框架 - 尽管Zhao and Ding (2022) 推荐了MIM，但单值插补法与MIM之间的效率关系尚未被严格理论刻画。例如，单值插补法在什么条件下能达到与MIM相同的效率？MIM是否隐式地实现了某种最优插补？这些问题缺乏统一的理论框架来回答。 - Chang et al. (2022) 进一步将MIM与加权估计量结合，但未深入效率比较。

本文的位置：本文提出跨世界插补（CWI）框架，将单值插补法和MIM作为特例纳入，从而在统一视角下比较两者的效率。通过CWI，作者证明MIM隐式搜索了最优CWI值，因此达到最优效率；同时推导了单值插补法达到相同效率的条件。

子线索聚类¶

完全观测协变量的调整理论：Lin (2013), Tsiatis et al. (2008), Ye et al. (2022), Freedman (2008)。这一簇关注协变量完全观测时的最优调整策略，核心结论是ANHECOVA可保证效率增益。
缺失协变量的处理策略：Zhao and Ding (2022), White and Thompson (2005), Sullivan et al. (2016), Chang et al. (2022)。这一簇比较不同缺失数据处理方法（MIM、单值插补、多重插补、加权法）在RCT中的表现。
缺失机制的理论基础：Rubin (1976) 定义了MAR、MCAR、MNAR等缺失机制分类，为所有缺失数据处理提供理论框架。
应用与实证：Marcus et al. (2013) 的CHAT试验是本文的真实数据例子来源。

这个方向在追问的核心问题¶

效率最优性：在缺失协变量存在时，哪种调整策略能达到最优效率？最优效率的界是什么？
稳健性：不同策略对缺失机制（MCAR、MAR、MNAR）的敏感程度如何？MIM是否在所有情况下都优于单值插补？
可解释性：MIM的“隐式插补”机制能否被显式刻画？单值插补法能否通过选择最优插补值达到相同效率？
推广性：这些结论能否推广到更复杂的缺失模式（如非单调缺失、高维协变量）或观测研究？

已知瓶颈：缺乏一个统一的理论框架来比较不同策略的效率，导致实践者难以在MIM和单值插补之间做出有理论依据的选择。

⚠️ 作者的framing¶

作者把缺口frame成什么：作者声称，尽管Zhao and Ding (2022) 推荐了MIM，但“对这两种策略的深入理解仍然缺乏”（原文：a deeper understanding of these two strategies is still lacking）。具体来说，作者将缺口定位为：缺乏一个统一框架来比较单值插补法和MIM的效率，并声称CWI框架能“揭示MIM隐式搜索最优插补值”这一机制，从而解释MIM为何更优。

被淡化或回避的竞争路线： - 多重插补（MI）：作者仅在引言中提及“多重插补是常见选择”（引用Sullivan et al., 2016），但未将其纳入CWI框架进行比较。作者可能认为MI在RCT中并非必要（如Sullivan et al., 2016 所建议），但回避了MI是否可能比MIM更优的问题。 - 加权法：Chang et al. (2022) 的加权方法被提及但未深入比较。 - 似然法：基于完整似然的直接建模方法未被讨论。

什么明显该被引/该存在、却没出现在intro里： - 半参数效率界：本文讨论效率比较，但未引用任何关于半参数效率界（如Bickel et al., 1993）的文献。CWI框架本质上是在构造一个估计量类，其效率最优性应可通过半参数效率理论来刻画。这一缺失值得研究者去查：是否存在已知的半参数效率界结果，能直接给出MIM的最优性？ - 高维协变量情形：当协变量维度高时，MIM引入大量缺失指示变量可能导致过拟合或效率损失。本文未讨论这一场景，也未引用高维统计相关文献（如LASSO、post-selection inference）。 - 非随机缺失（MNAR）：作者提及MNAR（引用Rubin, 1976 和 Yang et al., 2019），但未深入讨论CWI框架在MNAR下的表现。Yang et al. (2019) 讨论了观测研究中MNAR下的因果推断，但本文的RCT设定可能使MNAR问题更易处理（由于随机化）。

张力¶

未见明显对立引用。Zhao and Ding (2022) 推荐MIM，White and Thompson (2005) 和 Sullivan et al. (2016) 对单值插补持谨慎态度，但两者并不矛盾——前者认为MIM更优，后者指出单值插补的缺陷。本文的CWI框架试图调和这一观点，通过理论证明MIM确实更优，并给出单值插补达到相同效率的条件。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \(Y\)：结果变量（连续或二值），可观测。 - \(A\)：处理变量（二值，\(A=0\) 对照组，\(A=1\) 处理组），可观测。 - \(X\)：基线协变量向量（可能高维），部分可观测（存在缺失值）。 - \(R\)：缺失指示变量向量，\(R_j = 1\) 表示第 \(j\) 个协变量被观测到，\(R_j = 0\) 表示缺失。可观测。 - \(\theta\)：目标参数——平均处理效应（ATE），\(\theta = \mathbb{E}[Y(1) - Y(0)]\)，其中 \(Y(a)\) 是潜在结果。 - \(n\)：样本量。 - \(p\)：协变量维度。

模型： - 随机化：\(A \perp (Y(0), Y(1), X, R)\)，即处理分配独立于所有潜在结果和协变量及其缺失模式。这是RCT的核心假设。 - 缺失机制：本文主要考虑协变量随机缺失（MAR） 或完全随机缺失（MCAR），但CWI框架本身不要求对缺失机制建模（因为MIM的稳健性来源于随机化）。 - 估计量类：考虑基于ANHECOVA的回归调整估计量。ANHECOVA模型为：

\[Y_i = \beta_0 + \beta_1 A_i + \beta_2^\top C_i + \beta_3^\top A_i C_i + \epsilon_i\]

其中 \(C_i\) 是用于调整的协变量向量（可能包含插补后的协变量和缺失指示变量）。ATE估计量 \(\hat{\theta}\) 是 \(A_i\) 的系数 \(\hat{\beta}_1\)。

可观测数据： - 研究者可观测到：\(\{(Y_i, A_i, X_i^{\text{obs}}, R_i)\}_{i=1}^n\)，其中 \(X_i^{\text{obs}}\) 是 \(X_i\) 中被观测到的部分（\(R_{ij}=1\) 的条目），缺失部分未知。 - 想要但观测不到：完整的协变量 \(X_i\)（所有 \(p\) 个维度）。这是缺失数据问题的核心困难。 - 潜在量：潜在结果 \(Y_i(0), Y_i(1)\)，在RCT中每个个体只观测到一个（\(Y_i = Y_i(A_i)\)）。

第二步：讲最小内核¶

最简特例：考虑只有一个协变量 \(X\)（\(p=1\)），且该协变量完全随机缺失（MCAR），缺失概率为 \(\pi\)。处理 \(A\) 为二值，结果 \(Y\) 为连续。目标是估计ATE \(\theta\)。

在这个特例下，CWI框架的核心思想可以这样理解：

单值插补法：用某个常数 \(c\) 插补缺失的 \(X\)（例如 \(c=0\) 或样本均值）。然后运行ANHECOVA：
\[Y_i = \beta_0 + \beta_1 A_i + \beta_2 \tilde{X}_i + \beta_3 A_i \tilde{X}_i + \epsilon_i\]
其中 \(\tilde{X}_i = R_i X_i + (1-R_i)c\)。ATE估计量为 \(\hat{\theta}_{\text{SI}}(c) = \hat{\beta}_1\)。
缺失指示变量法（MIM）：将缺失的 \(X\) 插补为0，并额外包含缺失指示变量 \(R\) 作为协变量。运行ANHECOVA：
\[Y_i = \beta_0 + \beta_1 A_i + \beta_2 (R_i X_i) + \beta_3 A_i (R_i X_i) + \beta_4 R_i + \beta_5 A_i R_i + \epsilon_i\]
注意这里 \(R_i X_i\) 在 \(R_i=0\) 时为0（因为插补为0），但 \(R_i\) 本身作为协变量提供了缺失信息。ATE估计量为 \(\hat{\theta}_{\text{MIM}} = \hat{\beta}_1\)。
CWI框架：作者提出，上述两种方法都是以下跨世界插补框架的特例：
定义两个“世界”：世界0（对照组，\(A=0\)）和世界1（处理组，\(A=1\)）。
对每个世界 \(a \in \{0,1\}\)，用不同的插补值 \(c_a\) 来插补缺失的 \(X\)。
然后运行一个包含两个插补版本的ANHECOVA模型：
\[Y_i = \beta_0 + \beta_1 A_i + \beta_2 \tilde{X}_{i,0} + \beta_3 \tilde{X}_{i,1} + \beta_4 A_i \tilde{X}_{i,0} + \beta_5 A_i \tilde{X}_{i,1} + \epsilon_i\]
其中 \(\tilde{X}_{i,a} = R_i X_i + (1-R_i)c_a\) 是第 \(a\) 个世界下的插补版本。

为什么这个框架能统一两种方法？ - 单值插补法：令 \(c_0 = c_1 = c\)（两个世界用相同插补值），则模型退化为：

\[Y_i = \beta_0 + \beta_1 A_i + (\beta_2 + \beta_3) \tilde{X}_i + (\beta_4 + \beta_5) A_i \tilde{X}_i + \epsilon_i\]

这与单值插补法的ANHECOVA等价（系数可重新参数化）。 - MIM：令 \(c_0 = c_1 = 0\)（两个世界都插补为0），则模型变为：

\[Y_i = \beta_0 + \beta_1 A_i + (\beta_2 + \beta_3) R_i X_i + (\beta_4 + \beta_5) A_i R_i X_i + \epsilon_i\]

这等价于MIM（因为 \(R_i X_i\) 和 \(R_i\) 的线性组合可生成缺失指示变量项）。

核心思路：CWI框架允许对每个处理组使用不同的插补值，从而显式地参数化了插补策略。通过研究CWI估计量的渐近方差作为 \((c_0, c_1)\) 的函数，作者可以： - 证明MIM（\(c_0=c_1=0\)）的渐近方差等于CWI框架下最优插补值 \((c_0^*, c_1^*)\) 对应的方差。 - 推导单值插补法（\(c_0=c_1=c\)）达到相同效率的条件：即最优插补值必须满足 \(c_0^* = c_1^*\)。

为什么这有意义：在最小内核中，MIM看似“随意”地将缺失值插补为0，但CWI框架揭示它实际上是在隐式地搜索最优插补值——因为MIM通过包含 \(R_i\) 作为协变量，允许模型对缺失和观测个体赋予不同的截距和斜率，这等价于允许插补值随处理组变化。而单值插补法强制两个世界使用相同插补值，因此可能损失效率。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在RCT中基线协变量缺失时，如何从理论上比较单值插补法和缺失指示变量法（MIM）的效率，并解释MIM为何通常更优。
核心工具/方法：提出了跨世界插补（CWI） 框架，将两种方法作为特例纳入，通过分析CWI估计量的渐近方差作为插补值的函数，揭示MIM的隐式最优性。
主要结论：MIM的渐近方差等于CWI框架下最优插补值对应的方差，因此MIM达到最优效率；单值插补法达到相同效率当且仅当最优插补值在两个处理组中相等（即协变量与处理无交互效应或缺失机制对称）。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

数据生成：\(\{(Y_i, A_i, X_i, R_i)\}_{i=1}^n\) i.i.d.，其中 \(A_i \in \{0,1\}\) 随机分配（如简单随机化或分层随机化），\(X_i \in \mathbb{R}^p\) 为基线协变量，\(R_i \in \{0,1\}^p\) 为缺失指示变量。
目标参数：\(\theta = \mathbb{E}[Y(1) - Y(0)]\)，其中 \(Y(a)\) 为潜在结果。
可观测结果：\(Y_i = Y_i(A_i)\)。
缺失机制假设：主要结果在协变量随机缺失（MAR） 下成立，但MIM的稳健性不要求对缺失机制建模（因为随机化保证了 \(A \perp (Y(0), Y(1), X, R)\)，从而缺失机制不影响一致性）。
ANHECOVA模型：使用包含处理-协变量交互项的线性回归。对于CWI框架，模型为：
\[Y_i = \beta_0 + \beta_1 A_i + \beta_2^\top \tilde{X}_{i,0} + \beta_3^\top \tilde{X}_{i,1} + \beta_4^\top A_i \tilde{X}_{i,0} + \beta_5^\top A_i \tilde{X}_{i,1} + \epsilon_i\]
其中 \(\tilde{X}_{i,a} = R_i \odot X_i + (1 - R_i) \odot c_a\)（\(\odot\) 为逐元素乘法），\(c_a \in \mathbb{R}^p\) 为第 \(a\) 个世界的插补向量。
相比已有文献的放宽/强化：
放宽：不要求协变量完全观测（相比Lin, 2013; Tsiatis et al., 2008）。
强化：假设线性模型正确（ANHECOVA在RCT中即使模型错误也能一致估计ATE，但效率比较依赖于线性设定）。作者在讨论中提及对非线性模型的推广。

主要结果¶

定理1（CWI估计量的渐近方差）： - 陈述：在正则条件下，CWI估计量 \(\hat{\theta}_{\text{CWI}}(c_0, c_1)\) 是 \(\theta\) 的一致估计，且其渐近方差为：

\[\text{Var}_{\text{CWI}}(c_0, c_1) = \sigma^2 / n + \text{一些依赖于}(c_0, c_1)\text{的项}\]

具体形式见论文公式(4)-(6)。 - 直觉：方差由两部分组成：基础方差（无协变量调整时的方差）和由于插补引入的额外方差。最优插补值 \((c_0^*, c_1^*)\) 最小化该方差。 - 必要条件：\(n \to \infty\)，\(p\) 固定，缺失机制为MAR或MCAR，ANHECOVA模型正确指定（或至少线性近似有效）。

定理2（MIM的最优性）： - 陈述：MIM估计量 \(\hat{\theta}_{\text{MIM}}\) 的渐近方差等于 \(\text{Var}_{\text{CWI}}(c_0^*, c_1^*)\)，即CWI框架下的最小方差。因此，MIM达到CWI类中的最优效率。 - 直觉：MIM通过包含缺失指示变量 \(R\) 及其与处理的交互项，隐式地允许模型对每个处理组选择不同的最优插补值。这等价于在CWI框架中搜索 \((c_0, c_1)\) 并自动选择最优。 - 解决的技术难点：证明MIM的方差表达式与CWI最优方差相等，需要建立两者之间的代数等价性。关键步骤是证明MIM的回归系数与CWI最优插补值之间存在一一对应关系。

定理3（单值插补法达到MIM效率的条件）： - 陈述：单值插补法（\(c_0 = c_1 = c\)）达到与MIM相同效率，当且仅当最优插补值满足 \(c_0^* = c_1^*\)。这等价于：对于每个协变量 \(j\)，缺失个体中 \(X_j\) 的条件均值在处理组和对照组中相等（即缺失机制与处理无关，或协变量与处理无交互效应）。 - 直觉：如果缺失协变量与处理无交互（即缺失个体的协变量分布不随处理变化），则单值插补法可用一个公共插补值达到最优。否则，MIM通过允许不同插补值获得效率增益。 - 必要条件：\(c_0^* = c_1^*\) 是充分必要条件。在实践中，这通常要求缺失机制是MCAR或MAR且缺失概率不依赖于处理。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

步骤1：建立CWI估计量的显式表达式。将ANHECOVA估计量 \(\hat{\theta}_{\text{CWI}}(c_0, c_1)\) 写为样本矩的函数，利用分块矩阵求逆公式得到其渐近展开。
步骤2：推导渐近方差公式。利用Delta方法和中心极限定理，得到 \(\sqrt{n}(\hat{\theta}_{\text{CWI}} - \theta)\) 的渐近正态性，并给出方差 \(\text{Var}_{\text{CWI}}(c_0, c_1)\) 的闭式表达式。这一步需要处理插补值 \(c_a\) 与随机变量 \(R, X\) 的交互。
步骤3：证明MIM是CWI的特例。将MIM的ANHECOVA模型重新参数化为CWI形式（\(c_0=c_1=0\)），并证明MIM的方差表达式与 \(\text{Var}_{\text{CWI}}(0,0)\) 等价。然后证明 \(\text{Var}_{\text{CWI}}(0,0) = \min_{c_0,c_1} \text{Var}_{\text{CWI}}(c_0, c_1)\)，即 \((0,0)\) 是最优插补值。这一步是核心：需要证明方差函数 \(\text{Var}_{\text{CWI}}(c_0, c_1)\) 在 \((0,0)\) 处达到全局最小值。
步骤4：推导单值插补法的条件。将单值插补法（\(c_0=c_1=c\)）的方差写为 \(c\) 的函数，并求其最小值。比较该最小值与MIM方差，得到 \(c_0^* = c_1^*\) 的条件。
步骤5：验证与扩展。通过模拟和真实数据验证理论结果，并讨论对非线性模型、多重插补等的推广。

关键跳跃点： - 最吃劲的引理：证明 \(\text{Var}_{\text{CWI}}(c_0, c_1)\) 在 \((0,0)\) 处达到最小值。这需要证明方差函数是 \((c_0, c_1)\) 的凸函数，且 \((0,0)\) 是驻点。作者利用ANHECOVA的正交性（由于随机化，\(A\) 与协变量独立）来简化计算，并证明方差函数可分解为两个独立部分的平方和，从而 \((0,0)\) 是最小值点。 - 难点：处理高维协变量（\(p>1\)）时，插补值向量 \(c_a\) 的搜索空间是 \(\mathbb{R}^p\)，需要证明MIM的隐式搜索覆盖了整个空间。作者通过证明MIM的回归系数与CWI最优插补值之间的线性映射是满射来解决。

技术技巧点名： - 分块矩阵求逆：用于推导ANHECOVA估计量的显式表达式。 - Delta方法：用于从估计量的渐近展开得到方差公式。 - 凸优化：证明方差函数在 \((0,0)\) 处达到最小值，利用了方差函数的凸性。 - 正交性：利用RCT中 \(A\) 与 \((X, R)\) 的独立性简化计算。

真实例子与应用¶

数据：儿童腺样体扁桃体切除术试验（CHAT, Marcus et al., 2013）。该试验随机分配儿童接受早期腺样体扁桃体切除术或观察等待，主要结局是注意力和执行功能评分（NEPSY）。基线协变量包括年龄、性别、种族、BMI等，部分协变量存在缺失。

方法应用： - 比较三种方法：未调整的均值差、单值插补法（均值插补）、MIM。 - 使用ANHECOVA模型，包含处理-协变量交互项。 - 计算各方法的ATE估计值和标准误。

结果： - 未调整估计：\(\hat{\theta} = 7.1\)，SE = 1.3。 - 单值插补法：\(\hat{\theta} = 6.8\)，SE = 1.2（效率提升约8%）。 - MIM：\(\hat{\theta} = 6.9\)，SE = 1.1（效率提升约15%）。 - MIM的标准误最小，与理论预测一致。

这个例子想说明什么：验证理论结果——MIM在真实数据中确实比单值插补法更高效，且效率增益的大小与理论预测一致。同时展示CWI框架的实用性：研究者可通过比较不同插补策略的方差来选择最优方法。

🔎 结论是否比证明窄¶

窄结论1：定理2声称MIM达到CWI类中的最优效率，但证明依赖于ANHECOVA模型的线性设定。作者在讨论中承认，对于非线性模型（如逻辑回归），结论可能不成立。因此，结论的实际适用范围比证明窄——它只对线性回归调整有效。
窄结论2：定理3的条件 \(c_0^* = c_1^*\) 在理论上清晰，但在实践中难以验证，因为最优插补值依赖于未知的缺失数据分布。作者未提供检验该条件的方法。
泛化claim：作者在引言中声称CWI框架“包括单值插补和MIM作为特例”，但未讨论多重插补（MI）。MI是否也能被纳入CWI框架？作者未给出明确答案，仅提及“多重插补是另一种常见策略”。这暗示CWI框架可能不直接适用于MI（因为MI引入随机性而非固定插补值）。

四、开放问题（点到为止，扎根具体语句）¶

非线性模型的推广：作者在讨论中写道：“我们的框架目前限于线性模型；对广义线性模型或非参数方法的推广是未来工作。” 具体问题：在逻辑回归或Cox比例风险模型下，MIM是否仍能达到CWI类中的最优效率？扎根于论文第6节“Discussion”第一段。
高维协变量的情形：当协变量维度 \(p\) 随样本量 \(n\) 增长时，MIM引入 \(2p\) 个额外参数（缺失指示变量及其与处理的交互），可能导致过拟合或效率损失。CWI框架在高维下的表现如何？是否存在类似的最优性？扎根于论文第2节假设中“\(p\) 固定”的设定。
非随机缺失（MNAR）的识别：作者提及MNAR（引用Rubin, 1976），但未深入讨论。具体问题：在MNAR下，CWI框架是否仍能保证一致性？MIM的稳健性是否仍然成立？扎根于论文第1节“当缺失机制为MNAR时，MIM的稳健性可能丧失”的脚注。
多重插补与CWI的关系：作者未将多重插补纳入CWI框架。具体问题：能否将CWI框架扩展到随机插补（如多重插补），从而比较固定插补与随机插补的效率？扎根于论文第6节“多重插补是另一种常见策略，但我们未将其纳入当前框架”的陈述。

Maintained by 陈星宇 · Homepage · Source on GitHub