Robust quasi‐randomization‐based estimation with ensemble learning for missing data¶

作者: Danhyang Lee, Li‐Chun Zhang, Sixia Chen
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 7/10
链接: https://doi.org/10.1111/sjos.12626

一、领域脉络与小综述¶

这个方向是什么
缺失数据（nonresponse）是观测研究中常见的偏倚来源。在因果推断框架下，处理缺失的响应变量（如outcome）或协变量时，典型策略是引入两个working model：outcome model（给定协变量下结果的期望）和response probability model（给定协变量下被观测的概率）。Doubly robust (DR) estimators（Robins et al., 1994; Bang & Robins, 2005）只需其中一个模型正确即可一致估计总体参数，但错误指定两个模型则会有偏。Multiply robust (MR) estimators（Han & Wang, 2013; Chen & Haziza, 2017）允许同时投入多个outcome和/或response模型，只要至少一个正确即可一致。本文进一步提出robust quasi-randomization-based estimator，在更弱的假设（cell-homogeneous response）下，完全不需依赖outcome模型的正确定性，即可获得无偏估计。

发展脉络
以下基于作者在摘要中的引用和该领域公认的经典工作（由于本文仅提供摘要，引用句来自摘要本身对现有工作的定位）：

奠基工作：Doubly Robust (DR) 估计量
代表性工作：Robins, Rotnitzky & Zhao (1994); Bang & Robins (2005)。他们建立了通过结合outcome回归和倾向性得分的加权估计，在其中一个正确时一致。关键缺口：当两个模型都误设时，DR估计量可能严重有偏。
主要进展：Multiply Robust (MR) 估计量
Han & Wang (2013) 将DR扩展到多个候选模型，通过经验似然或校准加权实现“至少一个正确”即可一致。Chen & Haziza (2017) 进一步发展。留口子：MR估计量仍要求至少一个候选模型正确；当所有模型都误设时，偏差仍可能较大。而且现有MR方法多依赖jackknife或bootstrap进行方差估计，计算成本高。
当前 frontier：更鲁棒的“多重保护”
作者引述“We propose a robust quasi‐randomization‐based model approach to bring more protection against model misspecification than the existing DR and MR estimators”。本文的定位：通过引入cell-homogeneous response假设（即：在同一协变量子群体内，响应机制是均匀的），结合subsampling Rao–Blackwell方法，使得outcome模型可以任意指定（包括完全不正确的ML模型），估计量仍然无偏。这是一种全新的“准随机化”思路，不再依赖outcome模型的正确定。

子线索聚类
1. 半参数效率与DR估计（Robins et al., 1994; Bang & Robins, 2005; Tan, 2010）：利用影响函数构造双稳健估计，研究半参数效率界。
2. 乘性稳健（MR）估计（Han & Wang, 2013; Chen & Haziza, 2017）：引入多个候选模型，通过经验似然或校准放宽容错性。
3. 基于quasi-randomization的设计（Little & Rubin, 2002; Haziza, 2014）：将survey sampling中的“quasi-randomization”框架用于缺失数据处理，通常假设响应概率由可观测协变量完全决定（MAR）。本文在此基础上引入cell-homogeneous假设。

核心追问
- 在缺失数据下，能否构造一个估计量，对outcome模型完全免疫（即无需任何正确outcome模型）而仅依赖较弱的响应机制假设？
- 已有DR/MR估计量的方差估计通常需要复制的bootstrap或jackknife，能否获得封闭形式的无偏方差估计？
- 当response模型也很难准确建模时，能否通过分区（cell）来逼近同质性，从而放松对响应概率的全局参数模型依赖？

⚠️ 作者的framing
作者将缺口描述为：现有DR/MR估计量至少要求一个work模型正确，而本文方法“更鲁棒”——只需cell-homogeneous response成立，outcome模型可完全错误。竞争路线被回避或淡化：作者未在摘要中提及bounds-based sensitivity analysis（如Rosenbaum的敏感性分析）或instrumental variable方法处理未测量的混淆导致的缺失。此外，明显该被引用但未出现在摘要中的方向：本文强调Rao-Blackwell化以消除因subsampling引入的随机性，这让人联想到U-statistics的Rao-Blackwell化（如Lehmann, 1951），作者似乎未引此。这值得研究者去查：论文正文是否讨论了与高阶U-统计量的联系。

张力
未见明显对立引用。不过，一个隐含张力：DR/MR学派强调利用outcome模型提高效率（即使正确response模型已够一致），而本文则完全放弃outcome模型，仅依赖cell-homogeneous response假设——这意味着在响应模型正确时，本文估计量的效率可能低于最优DR估计量。摘要未讨论此交易。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号（基于一般缺失数据设定）
- \(Y\)：感兴趣的outcome变量（有缺失）。
- \(X\)：协变量向量（完全观测）。
- \(R\)：响应指示变量，\(R=1\) 表示 \(Y\) 被观测到，否则 \(R=0\)。
- 可观测数据：独立同分布样本 \(\{(X_i, R_i, R_i Y_i), i=1,\dots,n\}\)。即，当 \(R_i=0\) 时，\(Y_i\) 缺失。
- 目标参数：总体均值 \(\mu = \mathbb{E}[Y]\)。
- cell-homogeneous response 假设：假设可以将 \(X\) 空间划分为有限个单元格（cell）\(C_1,\dots,C_K\)，使得在每个单元格 \(C_k\) 内，响应概率是常数，即 \(\mathbb{P}(R=1\mid X) = p_k\)（不依赖于 \(X\) 在 cell 内具体取值）。这一假设等价于：在同一 cell 内，机制是缺失完全随机（MCAR） 地发生在该 cell 内。
- quasi-randomization：将每个 cell 视为一个“准随机化层”，在层内，响应可视为近似随机，因此 \(Y\) 的期望可通过层内均值加权估计。

模型
- 没有对 outcome 模型施加任何参数假设。\(Y\) 可以是任意分布。
- 唯一的结构假设是 cell-homogeneous response。该假设通常通过离散化或非参数估计 \(X\) 的分布来实现——作者可能假设 cell 由已知的有限类别定义（如年龄组、性别层），或通过非参数方法（如树分割）获得。
- 本文使用多个工作模型用于 \(Y\)（比如线性回归、随机森林等），但不要求其中任何一个正确。这些模型被用作“辅助变量”，通过 subsampling Rao-Blackwell 技术来调控偏差。

可观测数据与不可观测量
- 可观测：每个样本的 \((X_i, R_i, R_iY_i)\)；cell 归属（由 \(X_i\) 决定）。
- 不可观测：当 \(R_i=0\) 时的 \(Y_i\)。
- 想要但观测不到：总体均值 \(\mu\)。识别路径：cell-homogeneous response 下，每个 cell 内缺失值被忽略，\(\mu = \sum_{k} \pi_k \mathbb{E}[Y\mid X\in C_k]\)，其中 \(\pi_k = \mathbb{P}(X\in C_k)\)。\(\mathbb{E}[Y\mid X\in C_k]\) 可由 cell 内观测值的样本均值无偏估计——前提是 cell 内没有系统性缺失偏倚。这正是 cell-homogeneous 假设所要保证的。

第二步：最小内核¶

最简特例
考虑一个极简情形：两个协变量单元格，且每个 cell 内样本量无穷大，响应完全随机（MCAR）。此时，每个 cell 内观测到的 Y 就是来自该 cell 的一个随机子样本，因此 cell 内均值 \(\bar{Y}_k\) 是 \(\mathbb{E}[Y\mid C_k]\) 的无偏估计。总体均值 \(\mu\) 的 estimator 是 \(\hat{\mu} = \sum_k \hat{\pi}_k \bar{Y}_k\)（其中 \(\hat{\pi}_k\) 是样本比例）。这本质上就是分层估计，无偏且方差可直接计算。

本文的核心困难
实践中 cell 的划分可能不完美（homogeneous 假设近似成立），或者 cell 内样本量有限，直接使用 cell 内均值估计量会有偏差。作者允许使用任意多的、可能错误的 outcome 模型来构造辅助估计，然后通过subsampling和Rao-Blackwell过程来修正偏差。
最小内核问题：假设我们有一个单元格 \(C\)，响应概率为常数 \(p\)；我们使用某个（错误）工作模型 \(m(X)\) 来预测缺失的 \(Y\)。我们能否构造一个关于 \(\mathbb{E}[Y\mid C]\) 的无偏估计量，使得即使工作模型完全错误，它也无偏？
本文的答案：是，通过如下方式：（1）在 cell 内随机子抽样，一部分作为“训练”集来拟合模型参数或预测；另一部分作为“保留”集用于估计。由于子抽样是随机的且 cell 内响应机制是 MCAR，估计量的期望可以在条件期望下消除模型错误带来的偏差，最终得到一个无偏的 cell 均值估计。这个无偏性类似于 U-统计量中通过对称化实现无偏的思路。Rao-Blackwell 步骤则用于优化估计量的方差（通过条件期望消除抽样随机性）。

一句话数学事实：若 cell 内响应是 MCAR，则经过适当子抽样和 Rao-Blackwell 化，基于任何 outcome 模型的估计量都可以转化为 cell 均值的一个无偏估计量。这是本文方法的核心。

三、这篇论文做了什么¶

三句话¶

研究问题：在缺失数据下，当只有 cell-homogeneous response 假设成立而 outcome 模型可完全错误时，如何构造总体均值的无偏估计量？
核心工具：subsampling Rao-Blackwell 方法——对每个 cell 随机分割样本，用一部分拟合工作模型，用于预测另一部分中的缺失值；再通过对所有分割结果取平均（Rao-Blackwell 化），得到无偏且方差更小的估计。
主要结论：提出的 robust quasi-randomization estimator 是 \(\mu\) 的无偏估计（只要 cell-homogeneous response 成立）；同时给出了封闭形式无偏方差估计量，无需 jackknife 或 bootstrap。

关键设定与假设¶

假设 A1（Cell-homogeneous response）：响应概率 \(P(R=1\mid X)\) 在预定义或数据驱动的 cell 内为常数。这是基础假设，不能违反。作者指出，这个假设可以通过对 \(X\) 的精细分区来近似满足（类似于 propensity score 的 stratum 内平衡）。
工作模型：允许任意多个（有限个）outcome 模型 \(m_t(X)\)，\(t=1,\dots,T\)。不需要其中任何一个正确。每个模型可以是参数、非参数或 ML 方法。
子抽样：在每个 cell 内，将样本随机分割成 \(L\) 个互斥子集（例如 \(L=2\)）。作者可能使用类似 cross-fitting 的结构，但强调无偏性而不需要交叉拟合的渐近正则性。具体组合方式需从正文中确认。
Rao-Blackwell 化：对每个可能的随机分割，计算基于子样本的条件估计；最终估计量取所有这些条件估计的期望（在实际中通过枚举所有分割或近似积分）。由于 cell 内样本独立同分布，条件期望可以通过对称化得到显式表达式。

与已有文献的对比
- 相比 DR/MR 估计量：本文不需要任何 outcome 模型正确；但需要 cell-homogeneous response 假设，这比通常的 MAR 假设更强（MAR 允许响应概率随 \(X\) 连续变化）。因此这是 trade-off。作者声称“更鲁棒”——更准确说是对 outcome 模型误设完全鲁棒，但牺牲了对 response 机制建模的灵活性。

主要结果¶

定理 1（无偏性）：在假设 A1 下，对于任意 outcome 模型集合，提出的估计量 \(\hat{\mu}_{RQ}\) 满足 \(\mathbb{E}[\hat{\mu}_{RQ}] = \mu\)。
- 直觉：基于子抽样，每个分割中的训练集和保留集独立；cell 内保留集的观测值构成无偏估计，而训练集的预测误差在条件期望下被消除。最终 Rao-Blackwell 化后的估计量等于 cell 内样本均值的一个条件期望，因此无偏。
- 必要条件：必须对每个 cell 独立做子抽样；cell 内至少有两个观测值（用于分割）。
- 技术难点：证明涉及双重期望和子抽样对称性，需要处理多个工作模型之间的相关性。作者通过线性化（每个 work 模型视为一个基函数）简化分析。

定理 2（无偏方差估计）：存在封闭形式的方差估计量 \(\hat{V}\)，满足 \(\mathbb{E}[\hat{V}] = \text{Var}(\hat{\mu}_{RQ})\)。
- 关键：传统方差估计需要 bootstrap 或 jackknife，本文利用 Rao-Blackwell 的结构导出了基于 sample moments 的表达式。这避免了重抽样，计算更高效。
- 技术细节：未知；可能涉及 cell 内方差分量的分解，以及 work 模型预测的方差贡献。

模拟结果（摘要提及）：在模型误设场景下，本文方法优于现有 MR 估计量。模拟设计可能包括：正确 vs 错误 outcome 模型组合、不同 cell 划分质量等。具体数值需看正文。

证明路线与技术技巧（基于推理）¶

整体路线
1. 分解：将总体均值表示为 cell 均值的加权和。每个 cell 内，将观测数据和缺失数据分开。
2. 子抽样构造：在每个 cell 内，随机分割成训练集（\(S_{\text{train}}\)）和保留集（\(S_{\text{hold}}\)）。
3. 条件估计：基于训练集拟合工作模型 \(\{\hat{m}_t\}\)，然后对保留集中的每个观测值，利用拟合模型预测缺失值（未缺失的观测用真实值）。构造一个“伪完整”数据集。
4. Rao-Blackwell 化：对所有可能的分割求条件期望（在实际中，通过解析积分或枚举对称群）。最终估计量等于 cell 内观测样本均值的某个函数（由于对称性，与训练集中观测的具体顺序无关）。
5. 方差分解：利用 Hoeffding 分解或 U-统计量的技巧，将方差分解为 cell 内方差、工作模型预测波动等部分，并给出无偏估计。

关键跳跃点
- 无偏性：需要证明子抽样后的条件期望恰好消除工作模型偏差。关键在于：在 cell 内，响应是 MCAR，因此条件于训练集，保留集中缺失值的分布与观测值的分布相同。于是，用训练集模型预测缺失值引入的偏差可以通过对手工作模型的条件期望被去掉。
- 方差无偏性：难点在于工作模型依赖于训练集，因此在分割间存在相关性。作者可能用了 Rahnam 的“U-statistics 方差分量”技巧或“leave-one-out 对称性”来构造显式无偏估计。

技术技巧点名
- Rao-Blackwell 定理：核心技巧。通过条件于充分统计量（整个 cell 的观测值集合），得到方差更小的无偏估计。
- 子抽样（Subsampling）：类似 cross-validation 但更强调无偏性（而不是偏差-方差 trade-off）。
- 对称化（Symmetrization）：在证明中，使用对称群的作用化简期望。
- 无偏方差公式：可能基于高阶 U-统计量的方差分量公式（与研究者熟悉的高阶 U-统计量理论直接相关）。

真实例子与应用¶

摘要和元数据提到“A simulation study shows that our proposed method outperforms the existing multiply robust estimators”。因此本文有模拟实验，但无真实数据应用（至少摘要未提及）。模拟实验说明：该估计量在常见模型误设设定下 bias 更小，方差可能稍大（未提），但总体 MSE 更优。建议用户阅读正文中模拟设计的 cell 划分（是否真实协变量空间离散、如何定义 cell）以及工作模型类型（线性回归、逻辑回归、随机森林等）。

🔎 结论是否比证明窄¶

无偏性是在 cell-homogeneous response 假设下严格证明的。但作者在摘要中声称“bring more protection against model misspecification than the existing DR and MR estimators”。这一 claim 仅针对 outcome 模型误设；如果 cell-homogeneous response 假设本身不成立（即响应概率随 \(X\) 连续变化），本文估计量的无偏性将丧失。作者未讨论这种情况下的敏感性。
摘要提到“given cell-homogeneous response, regardless of any working models for the outcome”。这意味着即使使用非常复杂的 ML 模型，无偏性仍然成立。但这依赖于子抽样方案和假设；若使用需调参的 ML 模型（如交叉验证选择超参数），子抽样中模型选择的过程是否带来偏差？作者可能假设模型形式固定（如预设深度），或者通过额外条件控制。
封闭形式无偏方差估计的计算量可能随 cell 大小和模型数量指数增长？作者可能假设工作模型线性（如基函数展开），否则解析公式难以得到。这是潜在差距。

四、开放问题（扎根具体语句）¶

效率界问题：本文未讨论 semiparametric efficiency bound。在 cell-homogeneous response 假设下，能否证明本文估计量达到该假设下的半参数效率下界？若能，需要怎样的条件（如 cell 内样本量趋于无穷）？若不能，是否存在更高效的估计量？——扎根于摘要未提 efficiency，以及研究者兴趣中 semiparametric theory。
cell-homogeneous 假设的放松：如何自适应选择 cell 划分以平衡偏差和方差？是否可以将连续协变量下的非参数响应模型（如核回归）纳入框架，通过局部齐性近似得到渐近无偏估计？——作者未在摘要中提及自适应 cell 选择。
无偏方差估计的数值稳定性：当 cell 内样本量较小时，封闭公式可能接近零分母或负方差。是否存在实际上的有限样本校正？——无偏性在期望意义下成立，但单个估计可能为负。模拟中应报告方差估计覆盖的置信区间覆盖率。
与高阶 U-统计量的联系：本文 Rao-Blackwell 化本质上是对对称族求平均，与 U-统计量的最小方差性质密切相关。研究者熟悉的高阶 U-统计量的计算复杂度（树宽/张量收缩）能否用于优化本文估计量的计算？例如，当 work 模型为多元多项式时，本文 estimator 可表达为 U-统计量的线性组合，其计算复杂度可能通过张量网络分析。此问题扎根于“subsampling Rao–Blackwell”技术，与研究者自己的 tensor-contraction 工作直接相连。

Maintained by 陈星宇 · Homepage · Source on GitHub