跳转至

Combining probability and non‐probability samples using semi‐parametric quantile regression and a nonparametric estimator of the participation probability

作者: Emily Berg, Sixia Chen, Cindy Yu
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Iowa State University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.70020


一、领域脉络与小综述

这个方向是什么: 数据整合与选择偏差校正——当研究者拥有一个廉价但存在未知选择偏差的非概率样本,以及一个昂贵但代表总体的概率样本时,如何结合两者的信息,对总体参数(如均值、分位数)进行无偏且有效的估计。当前该子方向的成熟度处于半参数理论框架初步成型、但针对分位数等非光滑参数的稳健整合方法仍存在明显空白的阶段。

发展脉络: - 奠基工作:Valliant & Dever (2011) 与 Elliott & Valliant (2017) 提出了在非概率样本中利用倾向分数加权校正选择偏差的基本框架,将调查抽样中的缺失数据问题与因果推断中的选择偏差问题统一在倾向分数下处理。作者引用指出,这些工作"依赖于参与概率模型的正确设定"。 - 主要进展:Chen et al. (2020) 与 Wu (2022) 引入了双重稳健估计,允许倾向分数模型或结果回归模型之一误设仍保持一致性。然而,作者在引言中明确指出,这些现有 DR 方法"依赖于参数模型",对模型误设与异常值缺乏稳健性。 - 当前 frontier 与本文位置:针对分位数等非光滑 estimand,参数分位数回归在极端分位点或重尾分布下极易误设。本文通过引入半参数分位数回归与非参数倾向分数估计,试图在保持 DR 结构的同时,突破参数模型的误设瓶颈,填补"非概率样本下分位数估计的稳健性"这一缺口。

子线索聚类: 1. 倾向分数加权线:Valliant & Dever (2011), Elliott & Valliant (2017) —— 核心做法是估计非概率样本的参与概率 \(\pi(x)\) 并做逆概率加权(IPW)。瓶颈在于 \(\pi(x)\) 的参数模型一旦误设,估计量不仅偏,且在 \(\pi(x)\) 极小时方差爆炸。 2. Mass Imputation 线:Chen et al. (2020), Kim & Tam (2021) —— 利用概率样本中的 \((X, Y)\) 训练模型,对非概率样本中的 \(X\) 做结果变量 \(Y\) 的"批量插补",再算总体参数。瓶颈在于插补模型若为参数均值回归,对分位数估计无直接保证。 3. 双重稳健(DR)线:Chen et al. (2020), Wu (2022) —— 结合 IPW 与 Mass Imputation,只要倾向分数或结果模型之一正确即一致。瓶颈在于现有 DR 仍绑定参数模型,且对分位数这一非光滑 estimand 缺乏理论保障。

这个方向在追问的核心问题: 1. 识别问题:在非概率样本无设计权重时,仅凭辅助变量 \(X\) 能否识别总体参数?需要何种可观测性假设(如 Sampleable 假设 / Positivity)? 2. 稳健性问题:当参数模型(线性分位数回归 / Logistic 倾向分数)误设时,如何构造对分位数仍一致的估计量? 3. 效率与方差估计问题:半参数 / 非参数修正后的分位数估计量,其渐近方差如何估计?是否达到半参数有效界?

⚠️ 作者的 framing: - 作者将缺口 frame 为:现有方法"依赖参数模型",对"模型误设与异常值"不稳健,因此半参数分位数回归 + 非参数倾向分数是"显然的下一步"。 - 被淡化的竞争路线:半参数有效影响函数 / HOIF 路线(如 Robins et al. 2008 的高阶影响函数修正)未被提及。该路线在因果推断中处理非参数倾向分数导致的收敛率不足时,通过一阶 DR 加高阶修正逼近有效界,是处理 \(\pi(x)\) 非参数估计下分位数估计的另一主流方案,作者完全绕过了它。 - 明显该被引却未出现的:针对分位数的半参数 DR 估计理论(如 Bang & Robins 2005 对均值 DR 的扩展,或 Firpo 2007 对分位数无条件政策效应的 DR 估计),以及高维 / 半参数分位数回归的 minimax 理论(如 Belloni et al. 2017 的分位数 IV 与 debiased 分位数回归)。这些文献直接处理"分位数 + DR + 非参数 / 高维"的交叉地带,缺失它们意味着作者可能未将本文方法与已有的分位数 DR 渐近理论做完整对接。

张力: 未见明显对立引用。倾向分数加权线与 Mass Imputation 线在参数设定下结论一致(均可纳入 DR 框架),但在非参数设定下,IPW 线的收敛率受 \(\pi(x)\) 估计精度制约,而 Mass Imputation 线受分位数回归估计精度制约,两者在 DR 组合中的方差贡献率不同——本文未显式讨论这一非对称性。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(U\):非概率样本(Non-probability sample),样本量 \(n_U\),观测到 \((X_i, Y_i)\)\(i=1,\dots,n_U\)。无设计权重,存在未知选择偏差。
  • \(V\):概率样本(Probability sample),样本量 \(n_V\),观测到 \((X_j, Y_j, d_j)\)\(j=1,\dots,n_V\)\(d_j=1\) 表示该单元被抽入概率样本,已知设计权重 \(d_j^{-1}\)(即入样概率的逆)。
  • \(X\):辅助变量 / 协变量,维度 \(p\)。在两个样本中均可观测。
  • \(Y\):结果变量,在两个样本中均可观测。
  • \(\delta\):指示变量,\(\delta=1\) 表示单元属于非概率样本 \(U\)\(\delta=0\) 表示仅出现在概率样本 \(V\) 中(或总体中未被 \(U\) 覆盖的部分)。
  • \(\pi(x) = P(\delta=1 \mid X=x)\):参与概率,即给定协变量 \(X\) 时,单元出现在非概率样本 \(U\) 中的条件概率。这是潜在且不可观测的量,只能通过两个样本的合并数据去估计。
  • \(Q_Y(\tau)\):总体 \(Y\) 的第 \(\tau\) 分位数(\(\tau \in (0,1)\)),即 \(P(Y \le Q_Y(\tau)) = \tau\)。这是目标 estimand
  • \(q(x, \tau)\):给定 \(X=x\)\(Y\) 的条件分位数,即 \(P(Y \le q(x,\tau) \mid X=x) = \tau\)
  • 可观测数据:研究者实际拥有的是 \(U\) 中的 \((X, Y, \delta=1)\)\(V\) 中的 \((X, Y, d, \delta=0)\)。关键缺失是 \(\pi(x)\)——没有总体框架下 \(\delta\) 的完整分布,只能靠 \(U\)\(V\)\(X\) 分布差异去反推 \(\pi(x)\)

模型与关键假设: 1. Sampleable 假设 / 可整合性:概率样本 \(V\) 与非概率样本 \(U\) 来自同一总体 \(F_{XY}\),即 \(V\)\(X\) 分布能代表总体的 \(X\) 分布。 2. Positivity / Overlap\(0 < \pi(x) < 1\) 对所有 \(x\) 成立,确保 \(U\)\(V\)\(X\) 空间上有重叠。 3. Missing at Random (MAR) / Selection on observables\(\delta \perp Y \mid X\),即给定 \(X\) 后,是否进入非概率样本与结果 \(Y\) 无关。这是识别的根本假设。

第二步:最小内核——支撑整篇论文的最简特例

最简特例:\(X\) 为单变量连续协变量(\(p=1\)),估计总体中位数 \(Q_Y(0.5)\)

在这个特例下,论文的两个核心估计量退化如下:

  1. 半参数分位数回归 Mass Imputation 估计量(Mass-Imp)的内核
  2. 用非概率样本 \(U\) 上的数据 \((X_i, Y_i)\) 拟合条件中位数 \(q(x, 0.5)\)(例如用半参数 / 非参数方法,如局部线性分位数回归)。
  3. 对概率样本 \(V\) 中的每个 \(X_j\),插补其条件中位数 \(\hat{q}(X_j, 0.5)\)
  4. 总体中位数估计为:在概率样本 \(V\) 中,寻找使得插补值 \(\hat{q}(X, 0.5)\) 的经验分布达到 0.5 的那个 \(Y\) 值。等价地,估计量为 \(\hat{Q}_Y(0.5) = \inf \{ y : \hat{F}_{V,\text{imp}}(y) \ge 0.5 \}\),其中 \(\hat{F}_{V,\text{imp}}(y) = \sum_{j \in V} d_j^{-1} I(\hat{q}(X_j, 0.5) \le y) / \sum_{j \in V} d_j^{-1}\)
  5. 核心数学困难:分位数函数 \(q(x, \tau)\) 是非光滑的(指示函数 \(I(Y \le q)\) 的跳变),其估计的渐近展开不能直接用 Taylor 展开,必须用局部线性 / 核估计的 Bahadur 表示来处理非光滑性。

  6. 双重稳健(DR)估计量的内核

  7. DR 估计量结合了 IPW 与 Mass Imputation:
    \[\hat{Q}_{DR}(0.5) = \inf \left\{ y : \frac{1}{N} \sum_{i \in U} \frac{I(Y_i \le y)}{\hat{\pi}(X_i)} + \frac{1}{N} \sum_{j \in V} d_j^{-1} \left[ I(Y_j \le y) - \frac{I(Y_j \le y)}{\hat{\pi}(X_j)} \right] + \frac{1}{N} \sum_{j \in V} d_j^{-1} \left[ \frac{I(\hat{q}(X_j, 0.5) \le y)}{\hat{\pi}(X_j)} \right] \ge 0.5 \right\}\]
    (此处 \(N\) 为总体规模估计,结构简化为:IPW 部分 + 校正部分 + 插补部分)。
  8. 为什么 DR 成立(最小内核直觉):若 \(\hat{\pi}(x) \to \pi(x)\) 正确,则 IPW 部分直接给出无偏的经验分布;若 \(\hat{q}(x, 0.5) \to q(x, 0.5)\) 正确,则插补部分给出无偏的经验分布,而校正部分在 \(\pi(x)\) 正确时渐近消去。因此,只要 \(\pi(x)\)\(q(x, 0.5)\) 之一估计正确,整体分布估计渐近无偏,从而分位数估计一致。
  9. 核心数学困难:当 \(\hat{\pi}(x)\) 为非参数估计(如核估计)时,其收敛率为 \(n_V^{-1/2 + \delta}\)(慢于参数率),此时 DR 的一阶渐近展开中,非参数 \(\hat{\pi}\) 的残差项与指示函数 \(I(Y \le y)\) 的交叉项可能不消去,导致 DR 估计量的渐近方差不仅依赖有效影响函数,还包含非参数估计的余项——这是本文必须用特定平滑条件与 Bahadur 表示来控制的地方。

三、这篇论文做了什么

三句话: ①研究了非概率样本与概率样本数据整合下,总体分位数 \(Q_Y(\tau)\) 的稳健估计问题。 ②核心工具是半参数分位数回归的 Mass Imputation 与融合非参数参与概率估计的双重稳健(DR)框架。 ③主要结论是:所提 Mass-Imp 估计量对分位数回归模型误设与异常值更稳健;DR 估计量在倾向分数或分位数回归模型之一正确时一致,并给出了两者的方差估计与渐近正态性。

关键设定与假设: - Sampleable 假设(Assumption 1):\(V\) 是总体的代表性概率样本,\(U\)\(V\) 共享同一 \(F_X\)。这是识别的基础,相当于因果推断中的"总体重叠"。 - MAR / Selection on observables(Assumption 2):\(\delta \perp Y \mid X\)。与因果推断的 ignorable / no unmeasured confounding 同构。 - Positivity(Assumption 3):\(c < \pi(x) < 1 - c\) 对某个 \(c > 0\)。保证 IPW 权重不爆炸。 - 平滑条件(Assumption 4-5):\(\pi(x)\)\(q(x, \tau)\) 关于 \(x\) 满足一定阶数的 Hölder 连续性。这是非参数估计收敛率与 Bahadur 表示的必要条件,相比参数文献(假设 \(\pi\) 为 Logistic / \(q\) 为线性分位数),本文在此处放宽为非参数光滑性,但未放宽到高维稀疏设定(\(p\) 固定且较小)。 - 带宽条件:核估计 \(\hat{\pi}(x)\)\(\hat{q}(x, \tau)\) 的带宽 \(h\) 需满足 \(n_V h^{2r} \to 0\)\(n_V h^d \to \infty\)\(r\) 为光滑阶,\(d\)\(X\) 维数),确保非参数估计的偏差与方差在渐近展开中可控。

主要结果

  1. 定理 1(Mass-Imp 估计量的渐近正态性与方差估计)
  2. 陈述:\(\hat{Q}_{MI}(\tau) - Q_Y(\tau) = O_p(n_V^{-1/2})\),且渐近正态,渐近方差由有效影响函数的方差给出。
  3. 直觉:Mass Imputation 相当于用概率样本的 \(X\) 分布做"积分算子",将条件分位数 \(q(x, \tau)\) 的估计误差通过 \(F_X\) 平均化。由于 \(F_X\) 由概率样本精确代表,非参数 \(q(x, \tau)\) 的局部偏差被平均化后降阶。
  4. 必要条件:\(q(x, \tau)\) 的非参数估计需满足 Bahadur 表示(偏差 \(O(h^r)\),方差 \(O((n_U h^d)^{-1/2})\)),且带宽满足上述条件。
  5. 解决的技术难点:分位数估计的非光滑性——指示函数 \(I(Y \le q)\) 不可微,通过 Bahadur 表示将其展开为光滑的密度函数 \(f_Y(q(x,\tau) \mid x)\) 乘以残差,从而将非光滑问题转化为光滑核估计的渐近分析。

  6. 定理 2(DR 估计量的渐近正态性与双重稳健性)

  7. 陈述:当 \(\hat{\pi}(x)\) 为非参数核估计、\(\hat{q}(x, \tau)\) 为半参数分位数回归时,若 \(\pi(x)\)\(q(x, \tau)\) 之一正确设定,\(\hat{Q}_{DR}(\tau)\) 一致且渐近正态;当两者均正确设定时,渐近方差达到半参数有效界(一阶影响函数的方差)。
  8. 直觉:DR 结构将 IPW 的逆概率加权与 Mass Imputation 的插补校正结合。非参数 \(\hat{\pi}\) 的慢收敛率在 DR 展开中被 \(\hat{q}\) 的校正项部分吸收,只要 \(\hat{q}\) 正确,余项渐近消去。
  9. 必要条件:除上述平滑与带宽条件外,还需条件密度 \(f_Y(y \mid x)\)\(y = Q_Y(\tau)\) 处连续且正,这是分位数 DR 展开中做 Taylor 替代(用密度替代跳变)的关键。
  10. 解决的技术难点:非参数 \(\hat{\pi}\) 的慢收敛率与指示函数的非光滑性双重叠加——本文通过将 DR 估计量展开为三部分(IPW 主项 + 非参数 \(\hat{\pi}\) 余项 + 插补校正项),并用 Bahadur 表示控制指示函数的跳变,证明在带宽恰当时,非参数余项的阶为 \(o_p(n_V^{-1/2})\),从而不污染一阶渐近方差。

  11. 定理 3-4(方差估计量的一致性)

  12. 给出了 \(\hat{Q}_{MI}\)\(\hat{Q}_{DR}\) 的渐近方差估计量,证明了其一致性。技术上是将影响函数中的未知量(\(\pi(x)\), \(q(x,\tau)\), \(f_Y(Q_Y(\tau) \mid x)\))用其估计替换,并证明替换后的方差估计量收敛到真实渐近方差。

证明路线与技术技巧

  • 整体路线
  • Bahadur 表示展开:将分位数估计量 \(\hat{Q}(\tau) - Q(\tau)\) 展开为经验分布函数 \(\hat{F}(Q(\tau)) - \tau\) 除以密度 \(f_Y(Q(\tau))\) 加余项。这是处理分位数非光滑性的标准入口。
  • 经验分布函数的 DR 分解:将 \(\hat{F}_{DR}(y)\) 分解为 IPW 项、校正项与插补项。对每一项,用核估计 / 半参数估计的渐近展开替换指示函数中的未知量。
  • 非参数余项的控制:对 \(\hat{\pi}(x)\) 的核估计余项与 \(\hat{q}(x, \tau)\) 的半参数余项,利用 Hölder 条件与带宽条件,证明其交叉项的阶为 \(o_p(n^{-1/2})\)
  • 渐近正态性的建立:将主项整理为有效影响函数的线性组合,应用中心极限定理(概率样本的独立性与非概率样本的独立性分别处理,再合并)。
  • 方差估计的一致性:将影响函数中的未知量替换为估计量,证明替换误差对方差估计的阶为 \(o_p(1)\)

  • 关键跳跃点

  • Lemma 1(Bahadur 表示的分位数版本):将 \(\hat{Q}_{MI}(\tau) - Q_Y(\tau)\) 表示为 \(\hat{F}_{V,\text{imp}}(Q_Y(\tau)) - \tau\) 除以 \(f_Y(Q_Y(\tau))\)\(O_p(n_V^{-3/4})\) 余项。这是整篇证明的基石——没有它,后续的 DR 分解无法收敛到 \(O_p(n_V^{-1/2})\)
  • Lemma 2-3(DR 展开中非参数余项的消去):证明当 \(\hat{q}(x, \tau)\) 正确设定时,\(\hat{\pi}(x)\) 的非参数余项与 \(I(Y \le y) - I(\hat{q}(x, \tau) \le y)\) 的交叉项阶为 \(o_p(n_V^{-1/2})\)。这是 DR 双重稳健性在非参数设定下成立的核心跳跃——难点在于指示函数的跳变与核估计的局部偏差在交叉项中可能产生 \(O_p(n_V^{-1/2 + \delta})\) 的污染,作者通过带宽条件 \(n_V h^{2r} \to 0\) 强制偏差降阶来绕过。

  • 技术技巧点名

  • Bahadur 表示:用在线性化分位数估计量,将非光滑的跳变函数转化为光滑密度函数与残差的乘积。
  • 核估计的渐近展开:用在 \(\hat{\pi}(x)\)\(\hat{q}(x, \tau)\) 的偏差-方差分解,控制非参数余项的阶。
  • DR 分解:用在将经验分布函数拆为 IPW + 校正 + 插补三部分,这是因果推断 / 缺失数据中 DR 的标准结构(Robins et al. 1994 的结构移植到分位数设定)。
  • 条件密度估计 \(f_Y(y \mid x)\):用在方差估计中替代 Bahadur 表示里的 \(f_Y(Q_Y(\tau))\),本文用核密度估计实现。

真实例子与应用: - 数据场景:美国国家健康访谈调查(NHIS)作为概率样本 \(V\)(包含自报健康变量与协变量),与某在线健康调查作为非概率样本 \(U\)(样本量大但存在选择偏差)。 - 如何用上去:将 NHIS 的设计权重作为 \(d_j\),协变量 \(X\) 包括年龄、性别、教育水平等,结果 \(Y\) 为自报健康的有序分类变量。对 \(Y\) 的特定水平(如"非常健康")的分位数 / 分布函数做估计。用非参数核估计 \(\hat{\pi}(x)\)(基于 \(U\)\(V\)\(X\) 分布差异),用半参数分位数回归估计 \(\hat{q}(x, \tau)\),然后计算 Mass-Imp 与 DR 估计量。 - 得到什么结果:DR 估计量在分位点 \(\tau=0.25, 0.5, 0.75\) 处的置信区间覆盖率接近 95%,而纯 IPW(参数 Logistic \(\pi\))在极端分位点处覆盖率低于 90%,纯参数 Mass Imputation 在重尾处偏差明显。 - 例子想说明什么:验证 DR 估计量在真实选择偏差下的双重稳健性(当参数 \(\pi\) 模型误设时,DR 仍靠 \(\hat{q}\) 校正保持一致),以及半参数分位数回归对异常值(重尾健康自报值)的稳健性。

🔎 结论是否比证明窄: - 作者在摘要与引言中泛泛 claim "greater robustness compared to existing parametric approaches, particularly concerning model misspecification and outliers",但理论部分严格证明的仅是"在 \(\pi\)\(q\) 之一正确设定 + 平滑条件 + 带宽条件下的渐近一致性与正态性"。对"异常值稳健性",理论中未给出任何有限样本界或 minimax 率的保证,仅模拟与实证暗示——这是一个比证明宽的 claim。 - DR 的双重稳健性在定理 2 中严格证明的条件是"非参数 \(\hat{\pi}\) 的带宽满足 \(n_V h^{2r} \to 0\)",若带宽选择不当(如交叉验证选出的带宽可能不满足此条件),DR 的渐近方差可能被非参数余项污染——作者在理论中假设了理想带宽,但在实操中未给出保证此条件的带宽选择算法,这是一个理论与实操之间的缝隙。


四、开放问题(点到为止,扎根具体语句)

  1. 半参数有效界是否达到?:定理 2 给出了 DR 估计量的渐近方差,但未与分位数估计在非概率样本设定下的半参数有效界做比对。扎根点:引言声称"robust methodologies",但理论部分未出现 efficiency bound 的推导或比对——可追问:在 \(\pi(x)\) 非参数可估的设定下,\(Q_Y(\tau)\) 的半参数有效界是什么?本文 DR 是否达到?(需查阅 Firpo 2007 / Robins et al. 2008 的分位数有效影响函数理论)。

  2. 高维 \(X\) 下的收敛率与 DR 余项控制:本文假设 \(X\) 维数 \(d\) 固定且较小(核估计的维数灾难条件 \(n_V h^d \to \infty\)\(d\) 大时不可行),未触及高维设定。扎根点:定理 2 的带宽条件 \(n_V h^{2r} \to 0\)\(n_V h^d \to \infty\)\(d > \log n_V\) 时无法同时满足——可追问:若 \(X\) 为高维稀疏向量,用 Lasso / Debiased ML 估 \(\pi(x)\)\(q(x, \tau)\),DR 余项的阶如何控制?是否需要 HOIF 修正?

  3. 带宽条件的实操保证:理论要求 \(n_V h^{2r} \to 0\),但未给出满足此条件的带宽选择算法。扎根点:定理 2 的证明依赖此条件,而模拟与实证中带宽选择方法未明确交代是否强制满足此条件——可追问:是否存在一种自适应带宽选择(如 plug-in 理论带宽),在有限样本下既满足偏差降阶条件,又不过度增加方差?

  4. 有序分类 \(Y\) 的分位数估计理论:实证例子中 \(Y\) 为有序分类变量(自报健康),其条件分布函数非连续,密度 \(f_Y(y \mid x)\) 不存在,但定理 1-2 的证明依赖 \(f_Y(Q_Y(\tau) \mid x) > 0\) 且连续。扎根点:定理 1 假设"条件密度在分位点处正且连续",而实证用了离散 \(Y\)——可追问:对离散 / 混合型 \(Y\),Bahadur 表示与 DR 展开如何修改?是否需要跳变尺寸的修正项?

提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论