Efficient multiple‐robust estimation for nonresponse data under informative sampling¶

作者: Kosuke Morikawa, Kenji Beppu, Wataru Aida
来源: Scandinavian Journal of Statistics
主题: 效率理论 / Debiased ML
相关性: 9/10
链接: https://doi.org/10.1111/sjos.70043

一、核心问题与贡献¶

①研究了概率抽样中信息性抽样与无响应导致联合偏差下的参数估计与外部汇总统计数据整合问题。②核心方法是将抽样权重显式建模为随机变量以推导半参数有效界，并利用两步经验似然构造估计量。③主要贡献是获得了该缺失数据结构下的半参数有效界，并将传统双稳健扩展至多重稳健，使得在多个候选工作模型中仅有一个正确时估计量仍保持一致且渐近有效。

二、基础设定¶

核心概念与符号：
$\theta$：目标总体参数（如总体均值或回归系数）。
$\pi$：抽样权重（视为随机变量，非固定常数），反映信息性抽样机制。
$R$：无响应指示变量（$R=1$表示响应）。
$(X, R, RY, \pi)$：观测数据结构，其中未响应时$Y$缺失。
Multiple Robustness（多重稳健）：双稳健的推广，允许在多组候选模型（如$m_1, m_2, \dots$或$e_1, e_2, \dots$）中只要有一组正确设定，估计量即一致。
Two-step Empirical Likelihood（两步经验似然）：第一步利用外部汇总统计量约束参数空间，第二步在多个候选模型约束下求解经验似然以分配最优概率权重。
关键假设：
Missing at Random (MAR)：$R \perp Y \mid X$。统计学含义：无响应机制仅依赖观测协变量，条件于协变量无响应与结果独立。相比标准缺失数据文献未放宽，但在信息性抽样下需与抽样机制联合审视。
Informative Sampling Ignorability / Weight Missing at Random：抽样权重机制与结果的关系可由协变量解释。含义：允许抽样权重与结果相关，但条件于协变量及权重时，无响应机制可被参数化。
Positivity：$P(R=1 \mid X) > 0$ 且抽样概率非零。含义：保证缺失与抽样机制不会截断总体子流形。
External Summary Statistics Compatibility：外部汇总统计量与目标参数存在相容的矩条件。含义：为数据整合提供识别基础，强化了仅依赖内部观测数据的设定。
问题背景：现有处理无响应与信息性抽样的方法通常依赖单一工作模型的正确设定，且难以同时整合外部汇总信息；若工作模型误设，双稳健估计量仍可能产生严重偏差。与最相关文献的区别：相比 Rotnitzky & Robins (1997) 等经典双稳健缺失数据工作，本文从双稳健跨越至多重稳健；相比 Han & Wang (2013) 等多重稳健工作，本文额外处理了信息性抽样权重并整合了外部汇总统计量。

三、主要定理 / 核心结果¶

定理1：Semiparametric Efficiency Bound
原文陈述：在信息性抽样与无响应联合机制下，目标参数 $\theta$ 的半参数有效界由其有效影响函数（efficient influence function, EIF）的方差决定，EIF 包含对结果模型、无响应机制与抽样权重联合投影的残差项。
直观解释：界定了在仅知部分模型信息（不假定全参模型）下，任何正则估计量渐近方差的下界。有效影响函数反映了消除抽样偏差与无响应偏差所需的最小信息代价。
解决了什么技术难点：在非独立同分布（抽样权重引入）与缺失数据交织的复杂测度下，计算切空间并推导 EIF。
适用条件与局限：严格依赖 MAR 与 Positivity 假设。若 MAR 违背（如 MNAR），该界不再适用，需引入额外识别假设。
定理2：Multiple Robustness of the Proposed Estimator
原文陈述：基于两步经验似然构造的估计量 $\hat{\theta}$，在多组结果模型 ${m_k}$ 与多组倾向得分模型 ${e_l}$ 中，只要存在至少一个 $m_k$ 或 $e_l$ 正确设定，且外部汇总统计量模型正确，$\hat{\theta}$ 即一致且渐近正态，方差达到半参数有效界。
直观解释：多重稳健性相当于构建了一个凸组合空间，经验似然在此空间中寻找最接近经验分布的权重，自动“筛选”出正确的模型并消除错误模型的干扰。
解决了什么技术难点：克服了双稳健在两个模型均错时偏差不可控的问题，以及外部汇总统计量与内部模型不兼容时的估计冲突。
适用条件与局限：多重稳健要求候选模型集合中至少包含一个正确模型；若所有候选模型均错，偏差仍存在。达到有效界要求所有相关模型均正确设定。

四、证明框架 / 方法设计¶

证明主干逻辑：构造法 + 凸分析 + 经验过程理论
拆解为 3-5 个关键逻辑步骤：
有效影响函数推导：利用非参数路径导数，在联合观测分布 $(X, R, RY, \pi)$ 下推导目标参数 $\theta$ 的 EIF，证明其具备双稳健结构。
两步经验似然求解：第一步引入外部汇总统计量构建经验似然约束，第二步在多个候选模型生成的无偏估计方程中求解经验似然权重，构造拉格朗日乘子优化问题。
多重稳健性证明：证明经验似然的最优解使得偏差项在至少一个模型正确时为零，利用凸组合性质隔离错误模型的影响。
渐近正态性与有效性：利用经验过程理论证明估计量的收敛速度，并证明其渐近线性表示中的影响函数等于 EIF，从而达到有效界。
最关键的技巧性引理或"跳跃点"：两步经验似然中如何将外部汇总统计量与内部候选模型统一在一个优化框架中，并证明该优化问题的解具有多重稳健性。关键在于证明拉格朗日乘子在局部邻域内具有良好的渐近性质，使得错误模型对应的权重收缩至零，不干扰有效估计。
数学工具评价：是经典半参数理论与经验似然方法的巧妙组合。将数据整合的约束条件无缝嵌入多重稳健的证明框架，属于已有分析工具在复杂缺失结构下的创新应用。

五、与研究者兴趣的关联¶

连接到哪个子方向：半参数有效界与多重稳健估计（特别是在信息性抽样/选择偏差下的因果推断与缺失数据）。
可借鉴的核心思路或技术工具：两步经验似然实现多重稳健的构造方法，可直接迁移到 Proximal CI 的 negative control 设定中——当有多个候选的 negative control exposure/outcome 时，可通过经验似然构建多重稳健的 proximal 估计量，避免对单一代理变量正确设定的过度依赖；此外，外部汇总统计量的整合思路可迁移至 长序列/多队列因果推断 中的数据融合。
值得精读的关键参考文献：
Rotnitzky & Robins (1997, JASA)：缺失数据下双稳健估计的经典奠基，理解有效影响函数在此类结构下的基本形态。
Han & Wang (2013, Statistica Sinica)：经验似然实现多重稳健的核心文献，理解如何用凸组合突破双稳健局限。
Chen & Chen (2000s) 或近期数据整合文献：理解外部汇总统计量如何作为约束引入经验似然。

六、延伸思考与练习¶

假设扰动：若修改 Missing at Random (MAR) 假设为 Missing Not at Random (MNAR)，即无响应机制与未观测结果 $Y$ 直接相关，结论会如何变化？技术上需要引入工具变量或 Proximal CI 的 negative control 假设来识别模型，半参数有效界需在更受限的切空间中重新推导，且多重稳健的构造需同时处理多组 treatment 与 proxy 模型。
开放问题：在高维协变量设定下，如何结合 DML 或 debiased Lasso 来实现信息性抽样与无响应下的多重稳健推断？两步经验似然在高维下的计算复杂度与凸优化性质如何保证？
理解检测题：假设你有两个结果模型 $m_1(X)$ 和 $m_2(X)$，以及两个倾向得分模型 $e_1(X)$ 和 $e_2(X)$，且真实模型仅被 $m_1(X)$ 正确刻画，而 $e_1, e_2$ 均误设。请说明传统的双稳健估计量（基于 $m_1, e_1$）为何在此情况下失效，而本文基于经验似然的多重稳健估计量如何通过重新加权消除 $e_1, e_2$ 误设带来的偏差。

Maintained by 陈星宇 · Homepage · Source on GitHub