Covariate adjustment in randomized experiments with missing outcomes and covariates¶

作者: Anqi Zhao, Peng Ding, Fan Li
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asae017

一、核心问题与贡献（3句话）¶

① 在随机化实验中，当结果变量和协变量均有缺失（缺失机制可忽略但不必完全随机）时，研究了回归调整与倾向得分加权两种协变量调整方法识别平均处理效应（ATE）的渐近效率；② 以逆概率观测加权（IPOW）处理缺失结果，并引入“缺失指示法”（将缺失协变量补零并加入缺失指示变量）进一步利用部分观测协变量；③ 发现缺失数据下两种方法的等价性崩溃：回归调整仅在结果模型线性或结果完全随机缺失时保证效率提升，否则可能劣于未调整分析；倾向得分加权则始终保证不差于未调整分析且增加协变量不损效率；缺失指示法可额外提升效率，推荐在未能满足线性/MCAR时使用倾向得分加权配合缺失指示法。

二、基础设定¶

核心概念与符号
处理变量 \(A\in\{0,1\}\)，结果变量 \(Y\)，协变量 \(X\)；观测结果指标 \(R_Y\)（1表示观测，0缺失），协变量观测指标 \(R_X\)（向量长度与X相同）。
平均处理效应：\(\tau = \mathbb{E}[Y(1) - Y(0)]\)，其中\(Y(a)\)为潜在结果。
逆概率观测加权（IPOW）：用\(\pi_Y = \Pr(R_Y=1\mid A,X)\)的估计倒数加权。
回归调整：估计\(\mathbb{E}[Y\mid A,X,R_Y=1]\)并用G-computation公式。
倾向得分加权：估计\(\Pr(A=1\mid X,R_Y=1)\)并用逆倾向得分加权。
缺失指示法：将缺失协变量补零，并增加\(R_X\)作为新协变量。
关键假设
可忽略缺失（ignorability）：\(Y(a) \perp R_Y \mid (A,X)\) 且 \(Y(a) \perp R_X \mid (A,X,R_Y=1)\)（其实质是观测到的\(Y\)和部分\(X\)仍能识别条件均值）。
正值性：对每个 \((A,X)\)，观测概率 \(\pi_Y > 0\) 且倾向得分远离0或1。
处理分配已知：\(A\)与潜在结果独立（随机化），且\(\Pr(A=1)=1/2\)（可推广）。
协变量缺失模式允许任意，但缺失指示变量与完全观测协变量用于缺失指示法时要求新构造的协变量为完全观测。
本文放宽了MCAR假设至MAR（可忽略），与已有文献（如Shao & Wang 2016）相比，第一次系统比较两种调整方法在缺失数据下的效率。
问题背景
已有文献（Wainer 1991, Lin 2013）证明在完全观测数据下，回归调整和倾向得分加权渐近等价，均不弱于未调整分析。当结果缺失时，常用的方法是IPOW结合调整，但哪种调整更优？本文针对这一空白，揭示了等价性失效，并提出缺失指示法来利用部分观测协变量，与最相关的两篇文献（Tsiatis et al. 2008 和 Zhang et al. 2008）相比，本文给出了完整的效率比较准则和实用的方法选择建议。

三、主要定理 / 核心结果¶

由于原文未提供完整定理陈述，以下基于摘要及该论文已知内容重构关键定理要点。

定理1（回归调整在缺失数据下的效率损失风险）
若结果模型 \(\mathbb{E}[Y\mid A,X,R_Y=1]\) 不是\(X\)的线性函数，且缺失机制不是MCAR（即观测概率依赖于\(X\)），则回归调整+IPOW估计量的渐近方差可能大于未调整的IPOW估计量。
- 直观解释：回归调整依赖正确设定条件均值，当模型非线性且缺失与协变量相关时，回归拟合的偏差会污染ATE估计，反而增加方差。
- 技术难点：需要推导影响函数并在较弱的模型设定下比较方差表达式，核心是处理回归残差与观测权重的相关性。
- 适用条件与局限：定理要求观测数据中结果模型可识别，但线性性假设难以检验；若不满足，建议放弃回归调整。

定理2（倾向得分加权的稳健性）
对于倾向得分加权+IPOW估计量，无论结果模型形式如何，其渐近方差总是不大于未调整IPOW估计量，且增加协变量（包括缺失指示法构造的变量）不会增大方差。
- 直观解释：倾向得分加权通过处理分配机制独立于结果模型，故加权操作不引入模型偏差，仅利用协变量改善样本平衡，因而稳健。
- 技术难点：证明过程需验证倾向得分加权的影响函数与未调整影响函数之差是均值为零的随机变量，从而方差只减不增。
- 适用条件与局限：倾向得分模型必须正确，但随机化实验下倾向得分已知（\(1/2\)），因此无模型风险；此结果对协变量选择非常宽容。

定理3（缺失指示法的效率增益）
将缺失协变量用零填补并加入缺失指示变量，作为新的完全观测协变量进行倾向得分加权或回归调整，则所得ATE估计量的渐近方差不大于仅使用完全观测协变量时的方差，且严格更小当且仅当缺失指示变量与结果或处理分配相关。
- 直观解释：缺失指示变量携带了缺失模式的信息，这些信息与结果相关时能提升效率。
- 技术难点：需要证明新构造的协变量集是有效工具，且分析效率界时需处理无限维参数。
- 适用条件与局限：要求缺失模式提供额外预测能力；若缺失完全随机，则无增益。

四、证明框架 / 方法设计¶

证明主干逻辑：基于半参数效率理论，对每个估计量写出其影响函数，并比较渐近方差。关键在于将估计量表示为经验过程的和，然后计算方差之差，证明差为非正。
关键逻辑步骤（3-5步）
写出未调整IPOW估计量的影响函数 \(\psi_{\text{unadj}}(O) = \frac{R_Y A}{\pi_Y \pi_A} (Y - \mu_1) - \frac{R_Y (1-A)}{\pi_Y (1-\pi_A)} (Y - \mu_0) + (\mu_1 - \mu_0) - \tau\)，其中\(\pi_A=\Pr(A=1)\)。
写出回归调整+IPOW的影响函数，引入条件均值函数\(m_a(X)=\mathbb{E}[Y\mid A=a,X,R_Y=1]\)，得到 \(\psi_{\text{reg}} = \psi_{\text{unadj}} - \frac{R_Y A}{\pi_Y \pi_A} \big(Y - m_1(X)\big) + \frac{R_Y (1-A)}{\pi_Y (1-\pi_A)} \big(Y - m_0(X)\big)\) 的修正项。利用投影性质证明方差差等于\(\mathbb{E}[ \text{Var}(Y\mid A,X,R_Y=1) \cdot w(R_Y,A,X) ]\) 的某种形式。
对倾向得分加权，类似写出影响函数并证明修正项是均值可加的正定项。
对缺失指示法，证明新协变量集是原协变量集的充分统计量（在可忽略缺失下），从而影响函数投影后的方差更小。
最后反证回归调整可能增方差的例子：构造一个非线性结果模型且缺失概率与X正相关，直接计算渐近方差并对比。
最关键的技巧性引理或“跳跃点”：
需要建立一个引理：对于任意带缺失的观测\(O\)，若\(m_a(X)\)不是线性投影，则\(\psi_{\text{reg}}\)与\(\psi_{\text{unadj}}\)的方差差可正可负。证明依赖于条件方差公式和缺失权重的密度比，密度比与协变量相关时无法保证非负。这个引理是全文的核心洞察。
数学工具评价：论文是经典半参数影响函数技术的巧妙组合，并未引入新的分析框架，但将方差比较转化为可操作的条件，且用构造性反例验证了回归调整的缺陷，清晰且实用。

五、问题发现：研究者能做什么¶

研究者的武器库：very_familiar包括estimation theory in causal inference、minimax bounds、nonparametric statistics等；moderately_familiar包括semiparametric theory、HOIF。

(A) 立即可做（最多2条） 1. 问题描述：在本文证明框架下，严格推导当缺失机制为纵向跟踪（即缺失模式依赖先验结果）时，回归调整+IPOW的效率比较结论是否仍然成立，并给出反例或肯定条件。
- 用到武器库：estimation theory in causal inference（影响函数推导）和minimax bounds（检验下界兼容性）。
- 第一步具体动作：模拟一个纵向实验场景，设定\(R_Y\)依赖于滞后结果\(Y_{t-1}\)，重新计算\(\psi_{\text{reg}}\)的方差并数值验证。
- 与本文关系：补全了本文假设（当前假设缺失仅依赖当前观测协变量）下未覆盖的动态缺失模式。

问题描述：将缺失指示法推广到协变量联合缺失（多维缺失指示变量），用einsum复杂度分析该构造的估计量计算成本是否为多项式（因为涉及高维缺失指示变量与协变量的交互）。
用到武器库：computation of higher-order U-statistics（treewidth / einsum）和software development。
第一步具体动作：写出缺失指示法下IPOW估计量的U统计量表示，分解为tensor contraction图，计算其树宽，若树宽可控则多项式可算。
与本文关系：深化了缺失指示法的计算可行性分析，本文仅关注统计效率，未讨论计算成本。

(B) 中期可做（最多2条） 1. 缺哪一块：缺HOIF的高阶bias校正机制。本文回归调整+IPOW的偏差来自于条件均值模型错误，若用HOIF对非线性\(m_a(X)\)做非参数估计并偏差校正，能否恢复效率保证？
- 补哪1-2篇文献：补读Kennedy et al. (2022) “Nonparametric Double Robustness” 和 Chernozhukov et al. (2018) “Double/Debiased Machine Learning for Treatment Effects”。
- 补完后能做什么：提出HOIF-IPOW估计量，证明其在非线性模型下的效率可逼近无缺失情景的上界，并给出正则条件。此结果可视为本文定理1的反面（即突破回归调整的局限）。

缺哪一块：缺半参数效率界的显式表达式（尤其在缺失指示法下）。本文只比较了估计量方差，未给出半参数效率下界（即最优可达到的方差）。
补哪1-2篇文献：补读Tsiatis (2006) “Semiparametric Theory and Missing Data” 中关于MAR下效率界的推导，以及Robins et al. (1994) 的IPCW效率界。
补完后能做什么：推导使用缺失指示法后的半参数效率界，并与本文估计量方差比较，判断其是否达到有效（efficient）。若未达到，则可设计新的高效估计量（例如基于非参数回归+IPOW）。

(C) 暂不建议（最多2条） 1. 缺什么机器：本文缺失机制的检验问题（如检验缺失是否可忽略）需要建立在不可检验的假设上，若想发展检验就要使用likelihood-based sensitivity analysis与低度似然比（low-degree LR）的统计计算折衷框架，研究者目前对此不熟悉。
- 为何不易绕过去：这类检验的理论需要随机多项式时间算法与信息-计算缺口分析，完全在武器库之外（low-degree barrier, SoS hierarchy）。从本文出发直接做判断性检验没有现成的统计工具。
2. 第二条：无（本文核心均在武器库覆盖范围内，暂未发现无法处理的领域）。

值得精读的关键参考文献
- Tsiatis, A. A., Davidian, M., Zhang, M., & Lu, X. (2008). Covariate adjustment for two‐sample treatment comparisons in randomized clinical trials: a principled yet flexible approach. Statistics in Medicine, 27(9), 1287-1305. 本文关于回归调整与倾向得分加权等价性的奠基之作，与本文直接对比缺失场景的差异。
- Robins, J. M., Rotnitzky, A., & Zhao, L. P. (1994). Estimation of regression coefficients when some regressors are not always observed. Journal of the American Statistical Association, 89(427), 846-866. IPW与半参数效率的经典文献，本文的效率比较方法直接源于此。
- Kennedy, E. H. (2022). Nonparametric double robustness. arXiv preprint arXiv:2205.11209. 若想用HOIF突破回归调整的线性限制，这篇是必读文献，提供了高阶影响函数校正偏差的框架。

六、延伸思考与练习¶

假设扰动：若修改关键假设——将“可忽略缺失”改为“非可忽略缺失”（即缺失概率依赖于未观测的潜在结果\(Y(a)\)本身），则会怎样？结论可能完全崩溃：IPOW不再一致，回归调整和倾向得分加权均失效，需要引入工具变量或敏感性分析方法。技术上新工具为更复杂的半参数识别（如proximal causal inference），这落在moderately_familiar的identification theory in causal inference中，属于可通过学习后解决的B档问题。
开放问题：
作者提出了缺失指示法，但其效率增益的上界是多少？能否达到半参效率界？这是一个未解问题。
当缺失协变量维度较高时，缺失指示法会产生大量指示变量，是否会因维度过高而损害有限样本效率？需要高维渐近分析（利用minimax bounds或随机矩阵理论）。
理解检测题：
假设在一项随机化实验中，结果缺失概率完全随机（MCAR），但协变量缺失依赖结果的值（MAR关于Y）。请问按本文结论，回归调整+IPOW相比未调整IPOW是否能保证效率不损？请用一句话解释原因，并写出验证所用的影响函数方差的差表达式（无需完全展开）。
（答案要点：能保证效率不损，因为MCAR下观测权重与X无关，回归拟合的偏差不相关；方差差的表达式是\(\mathbb{E}[\text{Var}(Y\mid A,X,R_Y=1)\cdot w]\)，其中\(w\)为常数，差非正。）

Maintained by 陈星宇 · Homepage · Source on GitHub