Data integration with nonprobability sample: Semiparametric model‐assisted approach¶

作者: Danhyang Lee, Sixia Chen
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
链接: https://doi.org/10.1111/sjos.70025

一、核心问题与贡献¶

①本文研究了概率样本与非概率样本数据融合中，非概率样本存在不可忽略选择偏差时的有限总体参数估计问题。②核心方法是提出了放宽MAR假设的半参数倾向得分模型，采用伪剖面似然法估计倾向得分，并基于概率样本构建差分估计量。③主要贡献在于突破了传统数据融合对MAR的依赖，证明了所提估计量的渐近正态性并给出了方差公式，为不可忽略缺失下的总体推断提供了稳健的半参数框架。

二、基础设定¶

核心概念与符号
$A$: 样本选择指示变量（$A=1$为非概率样本，$A=0$为概率样本）。
$\pi(X, Y; \theta, h)$: 半参数倾向得分，即 $P(A=1|X,Y)$，结构为 $\text{logit}{\pi(X,Y)} = \theta^T X + h(Y)$。
$\theta$: 有限维参数部分（协变量 $X$ 的效应）。
$h(\cdot)$: 无穷维非参数部分（结果变量 $Y$ 对选择概率的不可忽略效应）。
$\hat{Y}^*$: 基于非概率样本与估计倾向得分生成的代理值。
$\hat{T}_{diff}$: 差分估计量，结合概率样本的已知权重与代理值修正偏差。
关键假设
半参数倾向得分模型假设：$\text{logit}{P(A=1|X,Y)} = \theta^T X + h(Y)$。统计学含义：将协变量效应参数化以保证 $\sqrt{n}$ 收敛率，将结果变量效应非参数化以放宽强参数假设。相比纯参数NMAR模型（如Kim & Morikawa 2018），避免了 $h(Y)$ 的模型误设风险；相比纯非参数模型，规避了维数灾难。
不可忽略选择偏差：$Y$ 直接影响入选概率 $P(A=1|X,Y)$。统计学含义：打破了传统数据融合中的可忽略性/随机缺失（MAR）假设，即选择机制仅依赖于 $X$。
概率样本的已知抽样权重：概率样本中每个个体有已知的包含概率 $d_i$。统计学含义：提供总体结构的无偏锚点，用于构造差分估计量以消除非概率样本的边缘分布偏倚。
问题背景 现有数据融合方法（如Elliott & Valliant 2017, Chen et al. 2020）多假设非概率样本满足MAR，但在自愿参与样本或网络样本中，结果变量 $Y$ 往往直接导致入选偏倚（NMAR）。与处理NMAR的经典参数方法相比，本文通过半参数模型与伪剖面似然的结合，在避免非参数维数灾难的同时放宽了函数形式假设。

三、主要定理 / 核心结果¶

定理1：伪剖面似然估计的相合性与渐近正态性
原文陈述：在正则条件下，$\sqrt{n}(\hat\theta - \theta_0) \to N(0, \Sigma_\theta)$，且非参数部分 $\hat{h}$ 具有非参数收敛率。
直观解释：尽管模型包含无穷维参数 $h$，通过剖面似然消去 $h$ 后，有限维参数 $\theta$ 仍可保持 $\sqrt{n}$ 的参数收敛率，且非参数部分的估计误差不会污染 $\theta$ 的一阶渐近分布。
技术难点：在NMAR下，$A=0$ 的样本中 $Y$ 不可见，导致包含 $h(Y)$ 的似然函数无法直接计算；需利用半参数结构将不可观测的积分转化为可观测量的条件期望。
局限：对非参数部分 $h(Y)$ 的光滑度有要求，若 $Y$ 为高维离散或缺乏光滑性，收敛率可能恶化。
定理2：差分估计量的渐近性质与方差估计
原文陈述：总体总量 $T_Y$ 的差分估计量 $\hat{T}_{diff}$ 具有渐近正态性，其渐近方差可通过 plug-in 方法一致估计。
直观解释：利用概率样本的已知权重作为基准，用非概率样本生成的代理值 $\hat{Y}^*$ 替代缺失的 $Y$ 构造差分。由于倾向得分估计的误差在差分框架中呈现高阶小，估计量达到半参数有效界。
技术难点：将 $\hat\theta$ 和 $\hat h$ 的估计误差传播到差分估计量中，并证明非参数收敛率导致的余项在渐近意义上可忽略。
局限：要求概率样本量不能过小，否则差分估计的方差项可能主导均方误差。

四、证明框架 / 方法设计¶

证明主干逻辑：半参数剖面似然分析 + 矩量法 + 经验过程。
关键逻辑步骤：
构造伪剖面似然：固定 $\theta$，对 $h$ 最大化得到 $\hat{h}_\theta$，代入原似然函数得到关于 $\theta$ 的剖面似然，将无穷维问题降维。
剖面得分函数线性化：对剖面似然的得分函数在真实参数 $(\theta_0, h_0)$ 处进行泰勒展开，分离出 $\theta$ 的主项与 $h$ 的余项。
余项控制：利用核估计的收敛率与经验过程理论，证明非参数估计 $\hat{h}_\theta$ 带来的偏差对参数得分函数的影响为 $o_p(n^{-1/2})$。
差分估计量的影响函数分解：将 $\hat{T}_{diff}$ 分解为总体真值、倾向得分估计误差项与残差项，证明估计量代入过程（plug-in）的渐近等价性。
最关键的技巧性引理/跳跃点：NMAR下非参数函数 $h(Y)$ 的识别与估计。在 $A=0$ 时 $Y$ 缺失，无法直接构造基于全样本的似然。作者利用半参数结构 $\theta^T X + h(Y)$，通过条件期望的迭代，将 $E[A|X,Y]$ 中关于 $Y$ 的不可观测积分，转化为仅依赖 $A=1$ 样本与 $X$ 边缘分布的可估量，这是突破 NMAR 识别难题的核心跳跃。
数学工具评价：是半参数剖面似然理论（Severini & Wong 1992, Murphy & van der Vaart 2000）在非标准缺失数据设定下的巧妙应用，结合了抽样调查中的差分思想，属于经典数学工具在交叉领域的创新组合。

五、与研究者兴趣的关联¶

连接子方向：不可忽略缺失数据下的半参数推断 / Proximal causal inference 中的 negative control 设定 / 数据融合中的因果推断。
可借鉴的核心思路：
半参数倾向得分结构设计：将混淆变量（$X$）参数化、未观测混淆/结果变量（$Y$）非参数化的分解策略，可直接迁移至因果推断的敏感性分析中，用于构建部分识别或放宽假设的半参数界。
伪剖面似然在无穷维参数下的处理：对研究高维/半参数因果推断中带无穷维讨厌参数的效率界推导与估计量构造具有直接参考价值。
值得精读的参考文献：
Murphy & van der Vaart (2000, Annals of Statistics)：半参数剖面似然的理论基石，理解本文渐近方差推导的必读文献。
Kim & Morikawa (2018, Statistica Sinica)：处理非概率样本中不可忽略选择偏差的早期参数方法，对比可看懂本文半参数推广的技术门槛与优势。
Chen, Li & Wu (2020, JASA)：概率与非概率样本数据融合（MAR假设下）的经典文献，对比理解放宽MAR带来的识别与估计挑战。

六、延伸思考与练习¶

假设扰动：若将半参数模型 $\text{logit}(\pi) = \theta^T X + h(Y)$ 修改为 $\text{logit}(\pi) = g(X) + \theta^T Y$（即 $X$ 非参数，$Y$ 参数），结论会如何变化？技术上需要 $X$ 的非参数收敛率满足 $\sqrt{n}$ 相容性，可能需要引入单指标结构或光滑性假设，否则 $\theta$ 的 $\sqrt{n}$ 渐近正态性可能无法保证。
开放问题：如何在本文框架下引入高维协变量 $X$（$p \gg n$）？此时参数部分 $\theta$ 的估计需要正则化（如 Lasso），如何处理正则化偏差对差分估计量的影响（可能需要引入 Debiasing/Neyman-orthogonal 技术）？
理解检测题：在本文的半参数倾向得分模型 $\text{logit}(\pi) = \theta^T X + h(Y)$ 下，若 $h(Y)$ 为线性函数 $cY$，证明退化为参数模型时，伪剖面似然是否等价于标准的全参数极大似然？若 $h(Y)$ 采用核估计，其收敛率至少需要达到多少才能保证 $\hat\theta$ 具有 $\sqrt{n}$ 收敛率？请给出直观的数学解释。

Maintained by 陈星宇 · Homepage · Source on GitHub