Design-Based Causal Inference with Missing Outcomes: Missingness Mechanisms, Imputation-Assisted Randomization Tests, and Covariate Adjustment¶
作者: Siyu Heng, Jiawei Zhang, Yang Feng
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 基于设计的因果推断(design-based causal inference,亦称随机化推断或有限总体因果推断)要解决的根本统计问题是:在随机化实验(如完全随机化、分层随机化)中,如何仅依靠实验设计本身(即处理分配的物理随机机制),而不依赖任何超总体模型或结果变量的分布假设,对处理效应进行严格的假设检验与区间估计。当前该方向已高度成熟,其核心优势——"设计保证"(design guarantees)——已被广泛认可:只要随机化确实发生,零假设下的检验统计量之分布即可由所有可能分配向量的置换精确算出,第一类错误率在有限总体下得到精确控制。
发展脉络(history): - 奠基工作:Fisher (1935) 提出了随机化检验的原型;Neyman (1923) 建立了潜在结果框架并定义了有限总体平均处理效应,给出了无偏估计与方差界。这两篇确立了"设计即推断"的范式,但均假设结果完全可观测。 - 主要进展:随着 RCT 在社科与医学的普及,缺失数据成为现实瓶颈。Rubin (1976) 建立了缺失数据分类体系(MCAR/MAR/MNAR),但该体系植根于超总体模型框架;在有限总体框架下,缺失机制如何定义、如何与随机化分配交互,长期缺乏系统刻画。Rosenbaum (2002) 在其专著中发展了基于敏感性的随机化检验,为处理未观测混杂提供了工具,但未专门针对结果缺失构建一般性检验框架。 - 当前 frontier:近年,有限总体框架下的协变量调整随机化检验取得突破。作者在引文中重点提及了两篇:Lin (2013) 证明了在有限总体下,基于回归调整的均值差估计量不仅方差更小,且无需回归模型正确即可保证一致性;Heng & Zhang (2023, 作者前作) 提出了基于残差的调整随机化检验,在有限总体下精确控制第一类错误率且对模型误指稳健。然而,这些调整方法均要求结果完全观测。 - 本文的位置:本文填补了"设计保证 + 结果缺失"这一交汇处的空白。作者指出,既有缺失数据文献多在超总体下讨论,而有限总体下的缺失机制与检验方法缺乏一般性框架;本文提出"插补-重插补"(imputation and re-imputation)框架,在作者定义的缺失机制下,即使插补模型误指、存在未观测混杂或干扰,仍能保持有限总体精确的第一类错误率控制。
子线索聚类: 1. 有限总体下的协变量调整与检验:Lin (2013), Heng & Zhang (2023)。这一簇在"无模型误指惩罚"的前提下提升检验功效,但前提是结果无缺失。 2. 超总体框架下的缺失数据与因果:Rubin (1976), Robins et al. (1994), Bang & Robins (2005)。这一簇以 MAR 为核心假设,依赖超总体模型识别,与本文的有限总体路线在假设体系上根本不同。 3. 随机化检验的稳健性与敏感性分析:Rosenbaum (2002)。这一簇处理未观测混杂对处理分配的干扰,但未将"结果是否可观测"本身作为受分配与混杂影响的内生机制。
这个方向在追问的核心问题: 1. 在有限总体下,缺失机制应如何定义,才能既容纳现实复杂性(未观测混杂、干扰),又保留随机化推断的精确性? 2. 当缺失机制与处理分配有关(即非 MCAR)时,能否在不引入超总体模型假设的前提下,构造出有限总体精确的随机化检验? 3. 协变量调整在缺失数据存在时,是否仍能保持"设计保证"(即模型误指下仍有效)?
⚠️ 作者的 framing: - 作者将缺口 frame 为:既有缺失数据文献几乎全部依赖超总体假设(MAR、可忽略性),而有限总体框架下缺乏一般性缺失机制与检验方法;因此,提出一个不依赖超总体模型、仅依赖设计的缺失数据检验框架是"显然的下一步"。 - 被淡化或回避的竞争路线:作者未在 intro 中讨论基于逆概率加权(IPW)的有限总体检验路线——若缺失指示变量可观测,且缺失概率与处理分配的关系可参数化,IPW 在有限总体下是否也能构造精确检验?这条路线的可行性未被对比。此外,半参数效率理论在有限总体缺失下的界与可达性也未被提及。 - 明显该被引却未出现的:有限总体下处理干扰(interference)的随机化检验文献(如 Athey et al. 2018 on exposure mapping)——作者声称其缺失机制可容纳干扰,但未引用干扰检验的基础工作;此外,缺失数据下双重稳健估计在有限总体下的对应物也未提及。
张力:未见明显对立引用。超总体文献与有限总体文献在假设体系上根本不同,但未在同一设定下得出相反结论;作者的前作与 Lin (2013) 在调整检验上结论一致(模型误指下仍有效),只是技术路线不同。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(N\):有限总体中的个体总数(固定常数,非随机)。
- \(Z_i\):个体 \(i\) 的处理分配指示变量,取值 \(\{0, 1\}\);\(Z = (Z_1, \dots, Z_N)\) 为分配向量,其分布由实验设计(如完全随机化)决定——这是唯一的设计随机性来源。
- \(Y_i(1), Y_i(0)\):个体 \(i\) 的潜在结果(固定常数,非随机),分别对应处理与对照。
- \(Y_i^{\text{obs}}\):个体 \(i\) 的可观测结果,定义为 \(Y_i^{\text{obs}} = Z_i Y_i(1) + (1 - Z_i) Y_i(0)\)。
- \(R_i\):个体 \(i\) 的缺失指示变量(取值 1 表示可观测,0 表示缺失)。\(R_i\) 是固定常数(非随机),但在有限总体视角下,哪些个体的 \(R_i=1\) 是预先确定的——这是本文的关键设定。
- \(X_i\):个体 \(i\) 的可观测协变量(固定常数)。
- \(U_i\):个体 \(i\) 的未观测协变量/混杂(固定常数,研究者不可见)。
- 可观测数据:研究者实际能观测到的是 \(\{(Z_i, X_i, R_i Y_i^{\text{obs}, R_i=1}) : i=1,\dots,N\}\)——即处理分配、协变量、以及仅对 \(R_i=1\) 的个体可见的观测结果。对于 \(R_i=0\) 的个体,\(Y_i^{\text{obs}}\) 不可见。
- 想要但观测不到的:所有潜在结果 \(Y_i(1), Y_i(0)\),以及未观测混杂 \(U_i\)。
第二步:最小内核——二值处理、完全随机化、最简缺失机制下的"插补-重插补"检验
剥掉所有一般性设定(分层、协变量调整、干扰),最小内核如下:
零假设:\(H_0: Y_i(1) = Y_i(0)\) 对所有 \(i\)(即严格零处理效应,所有潜在结果相等)。
缺失机制(最简特例):假设缺失指示向量 \(R = (R_1, \dots, R_N)\) 是固定常数——即哪些个体会缺失是预先确定的,不随 \(Z\) 的随机分配而改变。这对应于超总体框架下的 MCAR,但在有限总体下无需任何分布假设。
核心困难:在 \(H_0\) 下,若所有结果可观测,经典随机化检验直接计算检验统计量 \(T(Z, Y^{\text{obs}})\) 在所有可能分配 \(\tilde{Z}\) 下的置换分布。但缺失存在时,\(T(Z, Y^{\text{obs}})\) 只能在 \(R_i=1\) 的子集上计算,而不同分配 \(\tilde{Z}\) 下可观测的子集不同(因为 \(Y_i^{\text{obs}}\) 依赖于 \(\tilde{Z}_i\)),置换分布无法直接构造。
"插补-重插补"的最小内核: 1. 插补:对 \(R_i=0\) 的个体,用任意插补值 \(\hat{Y}_i\) 填补缺失(插补模型可任意,甚至完全误指)。得到"完整"数据 \(\tilde{Y} = (Y_i^{\text{obs}} \text{ for } R_i=1, \hat{Y}_i \text{ for } R_i=0)\)。 2. 重插补:在计算置换分布时,对每个置换分配 \(\tilde{Z}\),重新计算每个个体的"应观测值":\(\tilde{Y}_i^{\text{obs}}(\tilde{Z}) = \tilde{Z}_i \tilde{Y}_i + (1-\tilde{Z}_i) \tilde{Y}_i = \tilde{Y}_i\)(因为在 \(H_0\) 下,\(Y_i(1)=Y_i(0)\),所以无论分配如何,观测值都等于该固定值)。关键一步:对于 \(R_i=0\) 的个体,其插补值 \(\hat{Y}_i\) 在所有置换下保持不变;对于 \(R_i=1\) 的个体,其观测值 \(Y_i^{\text{obs}}\) 在 \(H_0\) 下也等于固定常数 \(Y_i(1)=Y_i(0)\)。 3. 检验统计量与置换分布:在插补-重插补后的"完整"数据上,计算检验统计量 \(T(Z, \tilde{Y})\);置换分布为 \(T(\tilde{Z}, \tilde{Y})\) 在所有可能 \(\tilde{Z}\) 下的分布。由于 \(\tilde{Y}\) 在 \(H_0\) 下是固定常数向量(无论插补是否正确,插补值是固定的;观测值在 \(H_0\) 下也是固定的),置换分布精确还原了经典随机化检验的逻辑,第一类错误率得到精确控制。
为什么成立:最小内核的成立依赖于两个事实——(a) \(H_0\) 下潜在结果相等,使得观测值不依赖分配;(b) 插补值是固定常数(不随 \(\tilde{Z}\) 变化)。因此,插补是否"接近真实值"完全不影响置换分布的构造——误指只影响功效,不影响第一类错误率。
三、这篇论文做了什么¶
三句话: ① 研究了有限总体因果推断中结果缺失问题,提出了一般性缺失机制与"插补-重插补"随机化检验框架; ② 核心工具是利用零假设下潜在结果的固定性,将插补值与观测值统一为置换分布下的常数向量,从而绕过缺失对置换分布的破坏; ③ 主要结论:在作者定义的缺失机制下,即使插补模型误指、存在未观测混杂或干扰,该框架仍保证有限总体精确的第一类错误率控制,并可扩展至协变量调整与置信区间构建。
关键设定与假设:
-
有限总体潜在结果框架:\(N\) 个个体,潜在结果 \(Y_i(1), Y_i(0)\) 为固定常数,唯一随机性来自处理分配 \(Z\) 的物理随机机制(如完全随机化、分层随机化、重随机化)。这是设计型推断的标准设定,与超总体框架根本不同——不假设 \((Y_i(1), Y_i(0), X_i)\) 从任何分布中抽取。
-
缺失机制(核心创新):作者定义了一般性缺失机制——缺失指示向量 \(R\) 可以依赖于处理分配 \(Z\)、可观测协变量 \(X\)、未观测混杂 \(U\),甚至其他个体的处理分配 \(Z_{-i}\)(即干扰)。具体地,\(R_i\) 可以是 \((Z, X, U)\) 的任意函数,只要满足一个条件:在零假设 \(H_0: Y_i(1) = Y_i(0)\) 下,\(R_i\) 不依赖于 \(Z_i\) 的具体取值(即 \(R_i(Z, X, U)\) 在 \(H_0\) 下对 \(Z_i\) 的置换保持不变)。统计含义:缺失机制可以与处理分配相关(非 MCAR),可以包含未观测混杂(非 MAR),可以包含干扰,但在零假设下,处理分配的随机化不改变缺失模式。相比已有文献:超总体框架下的 MAR 要求 \(R_i \perp Y_i \mid (Z_i, X_i)\),这依赖分布假设;作者的设定在有限总体下更弱,且不要求 \(U_i\) 可观测。
-
插补-重插补框架:
- 插补阶段:对 \(R_i=0\) 的个体,用任意模型(可以是线性回归、机器学习、甚至常数插补)生成插补值 \(\hat{Y}_i(Z_i, X_i)\)。注意:插补值可以依赖于 \(Z_i\) 和 \(X_i\)。
-
重插补阶段:在计算置换分布时,对每个置换分配 \(\tilde{Z}\),重新计算"应观测值":对于 \(R_i=1\),\(\tilde{Y}_i^{\text{obs}}(\tilde{Z}) = \tilde{Z}_i Y_i(1) + (1-\tilde{Z}_i) Y_i(0)\);对于 \(R_i=0\),\(\tilde{Y}_i^{\text{obs}}(\tilde{Z}) = \tilde{Z}_i \hat{Y}_i(1, X_i) + (1-\tilde{Z}_i) \hat{Y}_i(0, X_i)\)。在 \(H_0\) 下,\(Y_i(1)=Y_i(0)\),所以 \(R_i=1\) 的观测值退化为固定常数;而 \(R_i=0\) 的重插补值依赖于 \(\tilde{Z}_i\),但在置换分布下,\(\tilde{Z}\) 的分布与原分配 \(Z\) 的分布相同,因此重插补值的置换分布是可计算的。
-
协变量调整扩展:在插补-重插补框架中,检验统计量可以加入协变量调整(如基于残差的调整),作者证明调整后的检验仍保持精确第一类错误率控制,且在模型误指下仍有效——这是 Lin (2013) 与 Heng & Zhang (2023) 的结论在缺失数据下的推广。
主要结果:
-
定理 1(核心定理):在作者定义的缺失机制下,插补-重插补随机化检验在有限总体下精确控制第一类错误率——即 \(P_{Z \sim \text{设计}}(T(Z, \tilde{Y}) \geq c) \leq \alpha\),其中 \(c\) 为置换分布的 \(\alpha\) 分位数,概率仅对 \(Z\) 的随机化取。直觉:在 \(H_0\) 下,无论插补模型如何误指,插补值与观测值在置换分布下构成一个固定(或分布已知)的向量,置换检验的逻辑完整还原。必要条件:缺失机制在 \(H_0\) 下对 \(Z_i\) 的置换不变(即缺失模式不因处理分配的改变而改变)。解决的技术难点:缺失数据下置换分布的构造——经典置换检验要求每个个体在所有分配下都有观测值,缺失破坏了这一点;插补-重插补通过"固定插补 + 重新分配"绕过了这个障碍。
-
定理 2(协变量调整):在缺失数据下,基于协变量调整的插补-重插补检验仍精确控制第一类错误率,且调整模型可以误指。这是定理 1 与 Heng & Zhang (2023) 残差调整检验的结合——残差调整在 \(H_0\) 下仍保证置换分布的正确性,插补-重插补保证缺失数据下残差可计算。
-
定理 3(置信区间):通过反转随机化检验,构建有限总体有效的置信区域。具体地,对每个假设的处理效应 \(\tau\),构造"平移后"的潜在结果 \(Y_i(1) - \tau\) 与 \(Y_i(0)\),在 \(H_0: Y_i(1) - \tau = Y_i(0)\) 下应用插补-重插补检验;未被拒绝的 \(\tau\) 构成置信区域。作者证明该区域在有限总体下覆盖真实 \(\tau\) 的概率至少为 \(1-\alpha\)。
证明路线与技术技巧:
- 整体路线:
- 定义缺失机制,证明在 \(H_0\) 下缺失指示向量 \(R\) 对置换分配 \(\tilde{Z}\) 的分布不变(即 \(R(\tilde{Z}, X, U)\) 在 \(H_0\) 下与 \(R(Z, X, U)\) 同分布)。
- 构造插补-重插补数据向量 \(\tilde{Y}(\tilde{Z})\),证明在 \(H_0\) 下,\(\tilde{Y}(\tilde{Z})\) 的置换分布与原分配下的 \(\tilde{Y}(Z)\) 同分布。
- 利用置换分布的定义,证明检验统计量 \(T(Z, \tilde{Y}(Z))\) 在置换分布下的分位数精确控制第一类错误率。
- 协变量调整:证明残差调整后的检验统计量在 \(H_0\) 下仍满足置换分布的正确性(残差在 \(H_0\) 下为固定常数,不依赖分配)。
-
置信区间:通过检验反转,将有限总体精确检验转化为有限总体有效置信区域。
-
关键跳跃点:缺失机制在 \(H_0\) 下对置换不变——这是整个框架的基石。作者证明:若 \(H_0: Y_i(1)=Y_i(0)\) 成立,则 \(R_i(Z, X, U)\) 中对 \(Z_i\) 的依赖在 \(H_0\) 下被"潜在结果相等"消解——因为 \(Y_i^{\text{obs}}\) 不再依赖 \(Z_i\),缺失机制中通过 \(Y_i^{\text{obs}}\) 间接依赖 \(Z_i\) 的路径被切断。这一步的难点在于:缺失机制可以包含未观测混杂 \(U_i\) 和干扰 \(Z_{-i}\),作者需要证明这些依赖在 \(H_0\) 下不影响 \(R\) 的置换分布。绕过办法:作者利用了有限总体下 \(U\) 与 \(X\) 为固定常数的性质——在 \(H_0\) 下,唯一变化的量是 \(Z\),而 \(R\) 对 \(Z\) 的依赖在 \(H_0\) 下退化为对分配向量整体模式的依赖(而非个体处理效应的差异),置换分布保持了 \(R\) 的联合分布。
-
技术技巧点名:
- 置换推断:用有限总体下所有可能分配向量的置换分布替代超总体渐近分布,保证精确性。
- 检验反转:通过在一系列 \(\tau\) 值上执行检验并收集未被拒绝的集合,构建置信区域——这是经典随机化推断的标准工具。
- 残差调整:在 \(H_0\) 下,协变量调整后的残差为固定常数(不依赖分配),因此置换分布不受调整模型误指影响——这是 Heng & Zhang (2023) 的核心技巧,本文将其嵌入插补-重插补框架。
真实例子与应用:
- 数据:作者应用该方法于一个大规模随机化实验——Chicago Home Visiting Program(芝加哥家访项目),评估家访干预对母婴健康结果的效果。该实验中,结果变量(如母亲抑郁评分、婴儿健康指标)存在显著缺失(约 30-40%),且缺失可能与干预分配、母亲基线特征及未观测因素相关。
- 如何应用:作者将处理效应零假设设定为"家访对结果无效应",用线性回归与均值插补作为插补模型,执行插补-重插补随机化检验;同时执行协变量调整版本(用基线抑郁评分、社会经济指标作为调整变量)。
- 结果:插补-重插补检验在缺失数据下拒绝了零假设(p < 0.05),且协变量调整版本的功效更高(p 值更小)。作为对比,仅用完整数据(丢弃缺失个体)的经典随机化检验未能拒绝零假设——说明缺失数据不仅减少了样本量,还可能引入偏差,而插补-重插补框架有效利用了部分信息。
- 想说明什么:验证理论结论的实用性——(a) 即使插补模型简单(线性回归/均值),框架仍有效控制第一类错误率;(b) 协变量调整在缺失数据下仍提升功效;(c) 相比完整数据分析,插补-重插补能恢复部分信息并提升检验灵敏度。
🔎 结论是否比证明窄: - 作者在定理陈述中明确要求缺失机制在 \(H_0\) 下对置换不变,但 intro 中的 framing 有时泛泛声称"容纳未观测混杂和干扰"——读者需注意:并非所有包含 \(U\) 或 \(Z_{-i}\) 的缺失机制都满足 \(H_0\) 下置换不变。例如,若 \(R_i\) 直接依赖于 \(Z_i\) 的取值(而非通过 \(Y_i^{\text{obs}}\) 间接依赖),则在 \(H_0\) 下 \(R_i\) 仍随 \(Z_i\) 变化,置换不变性被破坏。作者在正文中对此有澄清,但 intro 的表述可能让读者误以为任何 MNAR 机制都被覆盖——这是一个需要核验的具体语句。
四、开放问题(点到为止)¶
-
缺失机制在 \(H_0\) 下置换不变的条件是否可进一步放宽? 当前框架要求 \(R_i\) 在 \(H_0\) 下不依赖 \(Z_i\) 的具体取值;若 \(R_i\) 直接依赖 \(Z_i\)(而非通过 \(Y_i^{\text{obs}}\)),该条件被破坏。能否通过修改检验统计量或引入加权置换,在 \(R_i\) 直接依赖 \(Z_i\) 的缺失机制下仍控制第一类错误率?扎根点:定理 1 的必要条件陈述与 intro 中"容纳干扰"的 framing 之间的张力。
-
插补-重插补在连续处理或多期面板下的推广:当前框架针对二值处理与单时间点;连续处理(如剂量-响应)或多期面板(如纵向 RCT)下,零假设的潜在结果相等条件如何重新表述?置换分布的定义在连续处理下不再有限,检验如何构造?扎根点:intro 末尾"future work"方向的暗示。
-
有限总体下缺失数据的双重稳健估计与半参数效率界:本文框架保证第一类错误率,但功效依赖于插补模型的质量;在有限总体下,是否存在类似超总体下双重稳健估计的对应物——即插补模型与缺失概率模型之一正确即可保证一致性?半参数效率界在有限总体缺失下如何定义与可达?扎根点:intro 中对超总体文献(Robins et al. 1994, Bang & Robins 2005)的引用与本文框架的对比——作者未讨论效率问题。
-
高维协变量调整下的有限总体保证退化速度:本文协变量调整的理论结果假设协变量维度固定;当协变量维度 \(p\) 随 \(N\) 增长(如 \(p \gg N\))时,残差调整在 \(H_0\) 下是否仍为固定常数?插补模型在高维下的误指如何影响检验功效?扎根点:定理 2 的证明中隐含的固定维度假设。
Maintained by 陈星宇 · Homepage · Source on GitHub