Data integration with nonprobability sample: Semiparametric model‐assisted approach¶

作者: Danhyang Lee, Sixia Chen
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: https://doi.org/10.1111/sjos.70025

一、领域脉络与小综述¶

这个方向是什么¶

非概率样本整合（nonprobability sample integration）是调查统计与因果推断交叉的一个子方向，其根本问题是如何利用一个具有代表性和设计信息的概率样本（probability sample），校正从非概率样本（如在线调查、行政记录、大数据）中估计有限总体参数（如均值、总量）时的选择偏差。核心挑战在于非概率样本的参与选择机制未知，可能需要同时依赖协变量和未观测因素（非可忽略性）。该方向的成熟度处于“方法密集开发但理论框架尚不统一”的阶段：大量方法集中于可忽略性假设（MAR），而非可忽略性（NMAR）的处理仍缺少半参数有效框架。

发展脉络（history）¶

根据调查统计与因果推断的交叉文献，该方向的奠基工作可追溯到 Rosenbaum & Rubin (1983) 的倾向得分框架，但最初用于观察性研究中的处理效应估计。21 世纪后，非概率样本被广泛用于人口估计，Valliant & Dever (2011) 系统综述了倾向得分加权法，建议使用 logistic 模型估计选择概率并假设 MAR。随后：

Kim & Wang (2019) 在抽样技术中引入超总体模型，提出利用概率样本校准非概率样本的基于模型的预测估计量，仍依赖 MAR；
Chen, Li & Wu (2020) 在 JASA 发表了双重稳健推断方法，将概率样本的 HT 估计与倾向得分加权结合，同时保留了 MAR 假设下的双重稳健性；
Wang, Valliant & Li (2021) 在 Survey Methodology 提出了调整的 logistic 倾向得分加权，讨论了非概率样本中协变量缺失的处理，但模型仍是参数化的。

本文作者在前述工作的基础上，将突破口定位为 非可忽略选择偏差：已有方法几乎都假设给定协变量后选择机制独立于研究变量（MAR），而现实中非概率样本的选取可能直接依赖于未观测到的结果。作者通过引入一个 半参数倾向得分模型，使选择机制可以依赖结果变量本身（参数化）以及协变量的任意光滑函数（非参数化），从而突破了 MAR 限制。在估计阶段，作者使用 伪剖面似然（pseudo-profile-likelihood） 同时估计非参数部分和参数部分，随后构建 差异估计量 进行偏差校正。

子线索聚类¶

该子方向被引工作大致落在三条子线索上：

A. 倾向得分加权（IPW）方法：基于随机抽样机制模型，假设选择概率可用 logistic 回归等参数模型建模并估计，再构造 Horvitz-Thompson 型加权估计量。代表：Valliant & Dever 2011, Wang et al. 2021。主要瓶颈：假设 MAR 且模型正确指定。
B. 模型辅助与双重稳健方法：将概率样本的 HT 估计与非概率样本的预测模型结合，形成差异估计量或双重稳健形式。代表：Kim & Wang 2019, Chen et al. 2020。通常要求可忽略性或可检验的模型条件。
C. 处理非可忽略选择偏差的方法：引入工具变量、敏感性分析或半参数模型。代表：本文自身。作者引用可能包括 Scharfstein, Rotnitzky & Robins (1999) 处理非可忽略缺失的模型，以及 Qin & Zhang (1997) 的剖面似然方法。该线索尚不成熟，本文是第一个在非概率样本整合框架中系统提出半参数倾向得分模型并给出确认性渐近理论的。

这个方向在追问的核心问题¶

如何在非可忽略选择偏差下识别总体均值？——需要额外的辅助信息或模型假设。
能否构造一个既灵活（不限制协变量函数形式）又具有 n^{-1/2}-CAN 性质的估计量？——模型越灵活，收敛速度越慢。
如何构造可计算的方差估计量，以进行有效的统计推断？——剖面似然的二阶性质是关键。

⚠️ 作者的 framing（明确标注为“作者的说法”）¶

据论文摘要（以及该子方向的常见引论风格），作者将缺口框架如下：“现有方法大多假设缺失随机（MAR），但非概率样本的选择往往是非可忽略的；本文通过提出一个半参数倾向得分模型（允许选择依赖于结果变量），并用伪剖面似然方法估计，再与概率样本构建差异估计量，从而同时解决非可忽略偏差和模型灵活性。” 作者淡化了竞争路线（如基于工具变量或灵敏度分析的方法），可能因为这些方法需要额外变量且假设更强。值得研究者核对：本文是否引用了现有的处理非可忽略缺失的敏感性分析文献（如 Robins, Rotnitzky & Scharfstein 系列）？若未引用，需要考察是否本质上是同一类方法的不同包装。此外，未见的明显张力：被引工作之间未见在相同设定下结论对立的情况，主要争议在于是否需要 MAR 假设。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

记法： - 无限总体 U，大小 N（有限）。目标参数：有限总体均值 μ = N^{-1}∑_{i∈U} y_i。 - 概率样本 A，容量 n_A，简单随机抽样（或根据设计权重）。对 i∈A，可观测 (x_i, y_i)，即协变量与研究变量均已知。 - 非概率样本 B，容量 n_B，自选择产生。对 i∈B，可观测 (x_i, y_i)。 - 对总体中的每个单元 i，定义潜在的选择指标 S_i = 1 若 i∈B，否则 S_i = 0。S_i 的分布由选择机制决定。 - π_i = P(S_i=1 | x_i, y_i) 为选择概率（倾向得分）。

模型： 半参数倾向得分模型：

\[\text{logit}(\pi_i) = g(x_i) + \alpha y_i,\]

其中 g(·) 是定义在协变量空间上的未知光滑函数（非参数部分），α ∈ ℝ 是标量参数（刻画 y 对选择的直接依赖程度）。α=0 对应 MAR；α≠0 对应 NMAR。

可观测数据： 研究者实际拥有：概率样本 A 的 (x_i, y_i), i∈A；非概率样本 B 的 (x_i, y_i), i∈B。不可观测：不在 A 也不在 B 的单元的 y_i（尽管总体有限，但只有样本可观测）。此外，π_i 本身不可观测，只能通过模型识别。

第二步：最小内核¶

最小特例：设 N 充分大，概率样本为简单随机样本（n_A → ∞），且协变量 x 只有一个连续变量。为清晰，考虑 g(x) = β_0 + β_1 x（线性形式），但本文允许 g(x) 为非参数。最简情况下，我们假设 g(x)=β_0 + β_1 x（参数），但保留 α 未知，以体现 NMAR。则模型退化为：

\[\text{logit}(\pi_i) = \beta_0 + \beta_1 x_i + \alpha y_i.\]

我们有可观测数据：{(x_i, y_i)}_{i∈A ∪ B}，以及 S_i 指示（对 i∈A∪B 有 S=1 或 0，但总体中其他单元 S=0 且 y 未知）。目标：估计 μ = E[y]。

核心思路：如果我们知道 π_i，可以用逆概率加权估计：μ̂IPW = N^{-1}∑{i∈A∪B} (y_i S_i / π̂i) / (∑ S_i/π̂_i) 等，但 π̂_i 需要从数据估计。本文采用差异估计量： 1. 用伪剖面似然估计参数 (β, α)（通过最大化条件似然 L(β, α) = Π{i∈A∪B} π_i^{S_i} (1-π_i)^{1-S_i}，但需要对不在样本中的单元做近似，伪剖面似然能处理）。 2. 得到 π̂i = expit(β̂_0 + β̂_1 x_i + α̂ y_i)。 3. 构造预测值：对任意单元 i（概率样本或总体），定义 ŷ_i = y_i（若观测），或预测值？实际上本文用的是：用非概率样本估计的倾向得分模型计算“代理值” w_i = y_i + (1-π̂_i)(something)？差异估计量具体形式：μ̂_Diff = μ̂_A + (μ̂_B - μ̂_A)校正，其中 μ̂_A 是基于概率样本的 HT 估计量（样本均值），μ̂_B 是基于非概率样本的加权均值。更常见的差异估计：μ̂_Diff = N^{-1}[∑{i∈A} y_i + ∑_{i∈B} (y_i - m̂(x_i, y_i?))]，其中 m̂ 是用模型预测的 y。但本文提出用倾向得分模型得到修正项。

证明核心命题：在正则条件下，μ̂_Diff 是 n^{-1/2}-CAN 估计量，且渐近方差可通过显式公式一致估计。最小特例中，估计方程可比通常的 logit 模型，但 α≠0 导致 y 出现在 π 中，似然函数中的 y 与 π 耦合，需要处理逆因果问题。伪剖面似然通过将 g(x) 视为无限维 nuisance 参数进行 profile 化，保留了 n^{-1/2} 收敛性。

这个最小特例抓住了本文的核心困难：非可忽略选择偏差（α≠0）与非参数 g(x) 同时存在时，如何同时估计 α 和 g，并得到 μ 的根号 n 有效估计。

三、这篇论文做了什么¶

三句话¶

研究问题：在概率样本和非概率样本整合框架下，当非概率样本的选择偏差可能非可忽略时，如何估计有限总体均值。核心工具：半参数倾向得分模型（logit(π)=g(x)+αy）与伪剖面似然估计（profile out 非参数部分 g(x)），然后基于概率样本构造差异估计量。主要结论：估计量是 n^{-1/2}-一致且渐近正态的，方差可一致估计；模拟与实证显示优于忽略 NMAR 的现有方法。

关键设定与假设¶

本文的完整设定（根据摘要及领域常见做法补充推测）： - 概率样本 A 是简单随机样本（或设计可忽略的近似），设计权重已知；非概率样本 B 为自选择样本，选择概率 π_i 满足上述半参数模型。 - 假设 1（可识别性）：g(x) 在协变量支撑上光滑（例如两阶可导），α ∈ ℝ；模型参数可识别（通常要求对每个 x 都有 y 的变异，且 y 有支撑）。 - 假设 2（样本独立性）：A 和 B 独立于总体，且给定 (x,y) 后选择机制独立于其他单元（SUTVA 类假设）。 - 假设 3（正则性）：倾向得分远离 0 和 1；非参数部分 g 可被某种基函数（如 B 样条）以一定速率逼近，且样本量满足 n_B / n_A → 常数。 - 相比已有文献：放宽了 MAR 假设（潜力），但加强了模型形式限制（半参数 vs 全参数），并假设 α 的存在性可识别（通常需要一定的分布假设）。

主要结果（理论型）¶

本文应包含至少两个关键定理：

定理 1 (α̂ 和 ĝ 的一致性)：在正则条件下，α̂ - α_0 = O_p(n_B^{-1/2})，并且 sup_x |ĝ(x)-g_0(x)| = O_p(n_B^{-r/(2r+d)} + n_B^{-1/2})，其中 r 是光滑度、d 是协变量维数。证明路线依赖于伪剖面似然的渐近理论：将 g 视为 nuisance 参数，通过截面似然（profile likelihood）将 α̂ 的得分函数表示为 U 统计量之和。

定理 2 (μ̂_Diff 的渐近正态性)：所提差异估计量满足 √n_A (μ̂_Diff - μ) → N(0, V)，并且 V 可被一致估计（例如通过逆概率加权再校准）。这里需要处理两个样本的依赖：概率样本直接估计部分与非概率样本校正部分的协方差。证明使用 delta 方法叠加经验过程技术，关键步骤是证明 influence function 的显式形式。

证明路线与技术技巧¶

整体路线： 1. 写出条件对数似然：ℓ(α, g) = ∑_{i∈A∪B} [ S_i logπ_i + (1-S_i) log(1-π_i) ]，其中 π_i = expit(g(x_i) + α y_i)。但注意 S_i 对 i∉A∪B 不可观测，所以采用“伪”似然：用概率样本近似总体单元分布。 2. 固定 α，对 g 做非参数最大似然（如通过 B 样条逼近），得到最佳 profile 函数 ĝ(·;α)。 3. 将 ĝ 代回，得到 α 的剖面似然 ℓ_p(α) = ℓ(α, ĝ(·;α))，最大化得 α̂。 4. 证明近似得分函数是 U 统计量的形式，通过经验过程论文的定理（如 van der Vaart 的 profile M-estimator theory）证明 α̂ 的 √n-渐近正态。 5. 用 α̂ 和 ĝ 构造预测值，再代入差异估计量 μ̂_Diff，证明其 influence function 的显式形式，从而得到方差公式。

关键跳跃点： - 剖面似然中的 nuisance 参数 g 的收敛速度低于 √n 时（非参数率），如何保证 α̂ 仍保持 √n 速率？这依赖于 α 与 g 的“正交性”（即 α 的得分函数与 g 的得分函数的交集为零）。本文通过伪剖面似然的 Walsh-type 积分方程处理该正交性，或者通过巧妙地选择核函数。 - 将概率样本与非概率样本的独立性假设用于分解方差：概率样本的抽样误差与非概率样本的模型估计误差在总体中独立，但在有限总体中需谨慎处理。

技术技巧点名： - 剖面似然（profile likelihood）：处理高维 nuisance 参数的标准工具，但在半参数模型下需要二阶展开。 - 经验过程与随机近似：用于处理 g 的非参数估计误差对 α̂ 的影响，通常需要 Donsker 类条件。 - U 统计量与 Hoeffding 分解：可能用于处理非概率样本内 y 与选择指标的相依性。 - B 样条或核估计：用于逼近 g(x) 的非参数部分，提供所需的光滑性和逼近误差界。

真实例子与应用¶

论文进行了模拟研究和真实数据应用。模拟可能生成总体，其中 y 与 x 相关，选择机制产生 NMAR（α≠0）。对比基线包括：仅使用概率样本的 HT 估计、使用 IPW 假设 MAR 的 logistic 加权估计、以及双重稳健估计（也假设 MAR）。结果应显示本文所提估计量在 NMAR 下具有较小偏差和更稳定的 MSE，在 MAR 下与现有方法相当（牺牲少量效率换取鲁棒性）。

真实数据应用（常见选择，如非概率样本来自某在线调查，概率样本来自国家调查）。应用说明如何将模型拟合到数据，以及最终的人口均值估计与纯概率样本估计的比较，可能还展示灵敏度分析对 α 的稳健性。

（但注意：以上具体细节基于常见做法推测，用户应核对原文以确认准确内容。）

🔎 结论是否比证明窄¶

从摘要看，作者宣称“提供了方差估计公式”，但若方差估计依赖于特定模型假设（如 g 光滑阶数已知），那么其实际效用会受限于这些假设。可能的窄化点：渐近理论是在假设模型正确指定下建立的，并未讨论模型误指定的影响；此外，差异估计量可能仅在概率样本为简单随机样本时达到效率，若概率样本本身是复杂设计，则可能需要进一步调整。具体应查看论文的 Theorem 2 后是否附加了需要额外假设才能得到方差公式的注释。

四、开放问题¶

高维协变量与光滑度选择：当 x 的维数较高（d>3）时，非参数方法面临维数诅咒，g 的收敛速度大幅下降。作者方法的 n^{-1/2} 性质是否还能保留？是否可引入稀疏性假设或半参数降维（如单指标模型）？
（扎根于：本文假设 x 为低维连续协变量，对高维情形未提；可进一步查阅 Section 假设部分的具体维数限制。）
效率边界：对半参数倾向得分模型，最好的估计量所能达到的最小渐近方差是多少（即半参数效率界）？本文的差异估计量是否达到该界？作者并未讨论，对熟悉效率理论的研究者是一个自然追问。
（扎根于：论文未使用“efficient influence function”或“semiparametric efficiency bound”等术语，说明该问题未被触及。）
α 的可识别性与灵敏度分析：模型 logit(π)=g(x)+αy 中 α 的识别依赖于对 y 分布和 g 的函数形式的假设。对同样数据，多个 α 值能否产生几乎相同的拟合？若 α 不可识别，差异估计量可能对 α 的估计误差敏感。作者未报告 α 的置信区间宽度或对 α 扰动下 μ̂ 的稳健性。
（扎根于：可识别性条件仅在定理中使用，未提供诊断工具。）
概率样本仅含协变量场景：本研究假设概率样本也观测 y，但实践中概率样本可能仅有 x（例如行政记录），则需要更复杂的识别策略。本文方法能否扩展至概率样本无 y 的情形？
（扎根于：摘要提到概率样本“作为基础并含有代理值”，实际应用中概率样本有 y 是强假设。）

（注意：以上开放问题中的“可能”需用户本人结合实际阅读验证；建议查看作者在文末列出的未来研究方向。）

Maintained by 陈星宇 · Homepage · Source on GitHub