Handling incomplete outcomes and covariates in cluster-randomized trials: doubly robust estimation, efficiency considerations, and sensitivity analysis¶

作者: Bingkai Wang, Fan Li, Rui Wang
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/biomtc/ujag030

一、核心问题与贡献¶

①研究了在整群随机试验（CRT）中，同时存在结局、协变量及群组人口规模缺失时的平均因果效应（ATE）估计问题。②核心工具是基于影响函数构造的双重稳健（DR）估计量，并结合最优权重、机器学习及分配机制建模以逼近半参数效率界。③主要贡献是证明了该估计量在多维缺失模式下的DR性质与效率优势，并提出了专门针对CRT缺失数据假设的敏感性分析框架。

二、基础设定¶

核心概念与符号：
$A$: 群组层面的处理分配（CRT中已知分配机制）。
$Y$: 结局，可能缺失，缺失指示符为 $R$。
$X$: 基线协变量，可能缺失且不对其缺失机制做参数约束。
$N$: 群组人口规模，可能完全缺失（非参与者信息），通过均匀抽样机制处理。
ATE: 多种效应尺度（如风险差、风险比）下的平均因果效应。
关键假设：
结局随机缺失（MAR）：$R \perp Y \mid A, X, N$。统计学含义为给定观测到的处理、协变量和群规模后，结局缺失独立于结局本身。相比仅处理结局缺失的文献，此假设在多缺失模式下是必要的但较脆弱。
协变量缺失机制无约束：不假设协变量的缺失机制（非MAR亦可），通常意味着不通过IPW对协变量缺失进行逆概率加权，而是依赖插补或条件期望。
群规模均匀抽样机制：针对非参与者完全缺失的情况，假设抽样是均匀的。这是一个较强的辅助假设，用于恢复群组规模信息。
CRT随机化假设：处理分配在群组层面独立于潜在结局与协变量。
问题背景：现有CRT缺失数据方法多孤立处理结局缺失，无法同时应对协变量缺失和群规模缺失（非参与者无记录导致分母未知）。与最相关文献的区别：相比仅处理结局缺失的标准DR方法（如Bang & Robins, 2005），本文扩展至多维缺失；相比个体随机化试验的缺失数据框架，本文利用了CRT的聚类结构与已知分配机制。

三、主要定理 / 核心结果¶

核心发现的量化描述：
DR性质：当结局的缺失机制模型或结局回归模型之一正确指定，且群规模缺失机制正确指定时，ATE估计量具有 $\sqrt{n}$-一致性和渐近正态性。
效率界逼近：通过指定最优权重、利用交叉拟合机器学习估计 nuisance parameters，并显式建模已知的处理分配机制，估计量可达到局部半参数效率界。
与 baseline 的对比：相比仅处理结局缺失的CRT分析方法或忽略聚类结构的标准DR估计量，本文方法在存在多维缺失时显著降低了偏差；在无缺失时，因利用了最优权重与分配机制建模，方差更小。
结论的稳健性：提出了针对CRT的敏感性分析框架，量化了当MAR假设或群规模均匀抽样假设违背时，ATE估计的偏移量，提供了因果结论的稳健性区间。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
基于观测数据的似然分解，将目标参数（ATE）的识别与多维缺失机制解耦。
构造非参数影响函数，将缺失协变量、缺失结局与缺失群规模的修正项叠加，形成DR估计方程。
在CRT中，尽管处理分配概率 $\pi(A=1)$ 已知，仍将其作为待估 nuisance parameter 进行建模估计，以吸收残差变异，逼近半参数效率界。
核心假设的可信度分析：
MAR假设在流行病学CRT中常受质疑（如病情严重的受试者更易失访），作者通过敏感性分析专门处理此违背。
群规模均匀抽样假设在非参与者无任何记录时极强，若违背将导致规模加权效应估计偏差，敏感性分析提供了偏离此假设时的修正界限。
稳健性检验策略：引入敏感性参数 $\delta$ 刻画缺失机制偏离MAR的程度，或刻画群规模抽样偏离均匀分布的程度，推导出 ATE 随 $\delta$ 变化的解析偏倚函数，进而构造稳健性置信区间。
计算/实现细节：采用交叉拟合估计 nuisance parameters 以避免过拟合，保证 DR 估计量的 $\sqrt{n}$-一致性；机器学习算法（如随机森林、LASSO）用于灵活拟合结局模型和缺失概率模型。

五、与研究者兴趣的关联¶

连接子方向：半参数效率理论（已知分配机制下的效率提升）、因果推断敏感性分析（针对缺失机制而非未观测混淆）、纵向/聚类因果推断。
可借鉴的核心思路或技术工具：
已知机制建模的效率提升技巧：在RCT/CRT中，将已知的处理分配概率作为未知参数进行建模估计，可以降低影响函数的方差，这一技巧可直接迁移至您研究的半参数效率界逼近与 Debias ML 中。
多维缺失的敏感性分析框架：将针对未观测混淆的敏感性分析思路，转化为针对多维缺失机制（特别是群规模缺失）的敏感性参数化，对流行病学因果应用有直接迁移价值。
值得精读的关键参考文献：
Robins, Rotnitzky & Zhao (1994) Estimation of regression coefficients when some regressors are not always observed：协变量缺失下DR估计与效率理论的奠基之作，理解影响函数构造的必读。
Bang & Robins (2005) Doubly robust estimation in missing data and causal inference models：提供了在缺失数据下通过步进法构造DR估计量的直观框架。

六、延伸思考与练习¶

假设扰动：若将群规模缺失的"均匀抽样机制"假设放宽为"与群组未观测基线特征相关"（即非随机缺失），识别条件需如何修改？技术上可能需要引入工具变量或更复杂的模式混合模型来恢复群规模分布。
开放问题：如何将此框架扩展到具有多时间点测量的纵向CRT，处理时变协变量缺失与退出（dropout）的联合动态缺失机制？
理解检测题：在CRT中，处理分配机制 $P(A=1|X)$ 是已知的（通常为常数 $\pi$），为什么在构造DR估计量时，建模并估计这个已知的分配概率反而能提升估计效率（逼近半参数效率界）？请从影响函数的方差分解或投影定理角度给出严格解释。

Maintained by 陈星宇 · Homepage · Source on GitHub