Statistical inference with nonignorable non-probability survey samples¶

作者: Yang Liu, Meng Yuan, Pengfei Li, Changbao Wu
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的核心问题是：当研究者只能获取一个非概率样本（例如网络调查、自愿者小组），其参与机制可能与结果变量相关（非忽略）时，如何利用一个来自同一总体的、仅包含辅助变量的参考概率样本，来对有限总体均值进行一致估计并构造有效的置信区间。现有的大多数方法假设参与机制是“可忽略的”（即参与概率仅依赖于已观测的辅助变量），而本文主动放松了这一假设，允许参与概率同时依赖于辅助变量和结果变量本身。该方向目前处于方法快速发展的阶段，仍面临可识别性、模型稳健性和有限样本推断等关键挑战。

发展脉络¶

奠基工作：基于概率样本的黄金标准与引入非概率样本的挑战。概率抽样长期以来被视为有限总体推断的黄金标准。Kalton (2018) 概述了60年来调查抽样方法的演变，指出随着回复率持续下降，非概率样本和行政记录数据的使用已成为不可避免的趋势。Rivers (2007) 提出的样本匹配（sample matching）方法是早期将非概率样本（如网络面板）与概率样本结合的里程碑，其核心假设是面板成员资格在给定匹配变量下是可忽略的。
主要进展：基于倾向得分的伪似然与IPW框架的建立。Chen, Li & Wu (2020, Doubly Robust Inference With Nonprobability Survey Samples) 建立了一个通用框架：利用概率样本估计非概率样本的参与倾向得分（propensity score），然后构造逆概率加权（IPW）和双稳健（doubly robust）估计量。该文奠定了后续工作的基础，但其假设是参与机制可忽略（即给定协变量，参与与否独立于结果）。Wang, Valliant & Li (2021) 提出了调整逻辑斯蒂倾向加权（ALP）方法，关注权重调整的实用性。Kim, Park, Chen & Wu (2021) 发展了质量插补（mass imputation）方法，利用非概率样本中的条件均值模型来插补概率样本中的结果变量。
当前frontier：放松可忽略性假设。Kim & Morikawa (2023) 首次系统处理了非概率样本中非忽略参与机制的问题，利用经验似然构造伪权重，其有效性依赖于参与机制模型的参数假设。Rafei et al. (2020, 2022) 探索了非参数假设（如核匹配、贝叶斯加性回归树）来处理可忽略参与机制。Miao, Ding & Geng (2016) 和 Liu, Li & Qin (2022) 研究了非忽略缺失数据下的可识别性问题，指出即使缺失机制已知参数形式，模型仍可能不可识别。Li, Qin & Liu (2023) 揭示了IPW方法在非忽略缺失数据中的不稳定性，并提出一种基于条件似然的补救方法。Uehara, Lee & Kim (2023) 提出了半参数非忽略响应模型下的有效估计。
本文的位置：本文直接处理非概率样本中非忽略参与机制的问题，是Chen et al. (2020) 框架的推广——将其可忽略假设放松为非忽略情况，同时保留了伪似然估计IPW/AIPW的结构。作者声称这是“首次在非忽略非概率样本设定下系统构建基于伪似然的IPW/AIPW方法”（引言第3段）。

子线索聚类¶

子线索1：伪似然估计参与概率。这簇工作假设参与机制的参数形式，通过最大化一个“伪似然”来估计参数。Valliant & Dever (2011)、Chen et al. (2020)、Wang et al. (2021) 和本文都可归入此簇。其核心是利用概率样本中辅助变量的分布信息来“校准”非概率样本的参与概率。
子线索2：IPW与AIPW估计量。这簇工作关注如何利用估计出的参与概率构造总体均值估计量。Chen et al. (2020) 提出IPW和AIPW，本文直接扩展了这些估计量到非忽略设定。Yang & Kim (2020) 的综述涵盖了IPW、校准加权、质量插补等方法的系统比较。
子线索3：识别策略与非忽略机制的处理。这簇工作关注非忽略问题本身的可识别性。Miao et al. (2016) 研究了正态混合模型下非单调缺失的可识别性；Miao et al. (2024) 引入“影子变量”（shadow variable）方法实现非参数可识别性；Beppu & Morikawa (2023) 利用分类工具变量建立了可验证的识别条件。Li et al. (2023) 指出了IPW方法在非忽略缺失下的不稳定路径。

核心问题与瓶颈¶

参与概率的识别：当参与机制是非忽略的（依赖于结果变量Y），仅凭可观测数据是否能唯一确定参数？这是所有非忽略方法面临的基础性挑战。
抗模型设定偏误的稳健性：现有非忽略方法大多依赖参与机制和/或结果回归模型的参数假设，一旦模型设定错误，估计可能产生严重偏差。
有限样本下统计推断的可靠性：特别是当参与概率很小或样本量有限时，IPW方法可能不稳定，置信区间覆盖不足。

⚠️ 作者的 framing¶

作者将缺口框定为：“现有非概率样本推断方法几乎都假设参与机制是可忽略的，这在实际中很少成立”（引言第1段）。因此，他们声称发展一套适用于非忽略机制的方法就是“显然的下一步”。淡化处理的竞争路线包括： - 基于工具变量/影子变量的可识别方法（Miao et al., 2024）：作者仅在引言末尾简短提及“另一种思路是使用影子变量”，未深入讨论其与伪似然方法的相对优势。 - 利用质量插补替代IPW（Kim et al., 2021）：仅被列为已有方法的一种，未作为主要对比基线。 - 非参数/半参数方法（Rafei et al., 2022; Uehara et al., 2023）：仅被提及但未在模拟或实例中比较。

明显的引用空白：Miao et al. (2024) 的系统性半参数效率理论（包括EIF的闭式解）在本文中未被引用或讨论，尽管它直接服务于非忽略缺失数据的识别与有效估计。这是一个值得研究者探查的信号。

张力¶

本文引用的文献之间未见明显对立结论。主要张力存在于两个方向：(a) 可忽略假设 vs 非忽略假设——前者在实践中更易满足但可能严重偏差，后者模型更灵活但更依赖参数假设；(b) 基于伪似然的参数方法 vs 基于工具变量的非参数识别——二者代表了不同的识别策略，本文选择前一条路线。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - 总体：目标有限总体 \( \mathcal{U} = \{1, 2, \dots, N\} \)，总大小 \( N \) 已知或可估计。 - 目标量：总体均值 \( \theta = N^{-1} \sum_{i=1}^N Y_i \)，其中 \( Y_i \) 是第 \( i \) 个单元的结果变量（如收入、COVID患病状态）。 - 样本： - 非概率样本 \( \mathcal{A} \)，大小为 \( n_A \)。研究者知道它是谁（有关于 \( Y \) 和辅助变量 \( X \) 的测量），但不知其如何被选入——选择概率 \( \pi_i = P(i \in \mathcal{A}) \) 未知且可能依赖于 \( X_i, Y_i \)。 - 参考概率样本 \( \mathcal{B} \)，大小为 \( n_B \)，通过已知的随机抽样机制获得。它只包含辅助变量 \( X \) 的测量，没有结果变量 \( Y \)。 - 参与指示：令 \( R_i = 1 \) 表示单元 \( i \) 在非概率样本 \( \mathcal{A} \) 中，\( R_i = 0 \) 表示在概率样本 \( \mathcal{B} \) 中但不在 \( \mathcal{A} \) 中。实际上，只有总体中一小部分被观测到。 - 辅助变量：\( X_i \in \mathbb{R}^p \)，在 \( \mathcal{A} \) 和 \( \mathcal{B} \) 中均可观测。 - 潜在量：\( Y_i \) 在 \( \mathcal{A} \) 中可观测，在 \( \mathcal{B} \) 中缺失。

模型： - 参与机制：假设非概率样本的参与概率 \( \pi_i = P(R_i = 1 \mid X_i, Y_i) \) 服从一个参数形式，例如：

\[\pi_i = \frac{\exp(\alpha + X_i^\top \beta + \gamma Y_i)}{1 + \exp(\alpha + X_i^\top \beta + \gamma Y_i)}\]

当 \( \gamma = 0 \) 时退化为可忽略情况。本文假设这一Logistic形式已知且正确。 - 参考概率样本：\( \mathcal{B} \) 是通过简单随机抽样或不等概率抽样获得的概率样本，因此抽样概率 \( p_i^B = P(i \in \mathcal{B}) \) 已知（由设计决定）。实际上，常用的是 \( p_i^B \propto 1 \) 或通过设计权重 \( w_i^B = 1/p_i^B \) 加权。 - 总体模型（用于AIPW）：结果变量与辅助变量的条件分布 \( f(Y \mid X) \) 可以参数化建模（如线性回归 \( E[Y \mid X] = X^\top \theta \)），但并非必须正确——AIPW的双稳健性可抵御部分设定错误。

可观测数据： - 来自非概率样本 \( \mathcal{A} \)：\(\{(X_i, Y_i) : i \in \mathcal{A}\}\)，大小为 \( n_A \)。 - 来自概率样本 \( \mathcal{B} \)：\(\{X_i : i \in \mathcal{B}\}\)，大小为 \( n_B \)，以及已知的设计权重 \( w_i^B \)（或 \( p_i^B \)）。 - 不可观测：总体中未在任何样本中的单元（大多数），以及概率样本的 \( Y \) 值（全部缺失）。关键：\( \gamma \)（参与机制中 \( Y \) 的系数）不能直接从 \( \mathcal{A} \) 的数据中识别，因为 \( \mathcal{A} \) 只包含参与了的单元。

第二步：讲最小内核——最简特例¶

最简特例：假设总体只有辅助变量 \( X \) 是二元的（取0或1），结果变量 \( Y \) 连续，且参与机制是一个精确已知的单参数Logistic模型：

\[\pi_i = \frac{\exp(\alpha + \gamma Y_i)}{1 + \exp(\alpha + \gamma Y_i)}\]

即假设 \( \beta = 0 \)（参与仅取决于结果，与X无关），但 \( \gamma \neq 0 \)（不可忽略）。进一步，假设参考概率样本 \( \mathcal{B} \) 是总体上的简单随机样本，大小 \( n_B \)，且我们知道X在总体中的分布（因为B样本的设计权重可校准）。

要解决的问题：估计 \( \theta = E[Y] \)。可观测数据：从A样本得到 \( n_A \) 个 \( (X, Y) \) 对；从B样本得到 \( n_B \) 个 \( X \) 值。

核心困难：由于 \( \gamma \neq 0 \)，A样本中的Y分布有偏——值高的Y更容易被“选入”。无法直接用A样本的均值一致估计 \( \theta \)，因为我们不知道每个单元的参与概率。

核心思路（伪似然）：利用B样本中X的边际分布来“反推” \( \gamma \)。 - 由于 \( \beta = 0 \)，参与概率与X无关。那么对于B样本中的每个单元，其参与非概率样本（即进入A）的概率就是 \( \pi(Y) = \exp(\alpha + \gamma Y)/(1 + \exp(\alpha + \gamma Y)) \)。 - 但B样本中没有Y。然而，我们可以利用A样本中观测到的 \( (X,Y) \) 来参与学习 \( f(Y \mid X) \)，然后用B样本中的X值来计算“期望参与概率”。 - 具体操作：将A样本视为一个“偏倚”样本，概率样本B提供“纠正”信息。伪似然方法构造一个关于 \( (\alpha, \gamma) \) 的似然函数 \( \prod_{i \in \mathcal{A}} \frac{\pi_i}{\lambda} \)，其中 \( \lambda = E[\pi(Y)] \) 是用B样本估计的边际参与概率。通过最大化这个伪似然得到 \( (\hat{\alpha}, \hat{\gamma}) \)。 - 一旦获得 \( \hat{\gamma} \)，可以计算每个A样本单元的参与概率 \( \hat{\pi}_i \)，然后IPW估计量 \( \hat{\theta}_{IPW} = ( \sum_{i \in \mathcal{A}} Y_i / \hat{\pi}_i ) / ( \sum_{i \in \mathcal{A}} 1 / \hat{\pi}_i ) \) 就是一致的。

为什么可行？：直觉上，如果 \( \gamma = 0 \)（可忽略），IPW不需要调整；如果 \( \gamma > 0 \)，值大的Y的单元在A中过度代表，IPW通过给低 \( \hat{\pi} \) 的单元（即低Y单元）更大的权重来纠正这种偏倚。而 \( \hat{\pi} \) 本身是靠B样本的X来校准的——B样本告诉我们真正的X分布是什么，从而可以反推哪个Y值应该有多少概率被选入。

这个最简特例展示了整篇论文的核心：利用概率样本中辅助变量的分布作为“锚”，在非忽略机制下识别参与概率的参数。一般情形（\( \beta \neq 0 \), 多元 \( X \)）只是加上更多协变量，环节相同。

三、这篇论文做了什么¶

三句话¶

研究问题：当非概率样本的参与机制是非忽略的（即参与概率同时依赖于辅助变量 \( X \) 和结果变量 \( Y \)）时，如何利用一个仅包含 \( X \) 的参考概率样本，一致地估计有限总体均值并构造有效的置信区间。
核心工具/方法：提出了基于伪似然的参与概率估计方法，并构造了三种总体均值估计量——回归预测估计量、逆概率加权（IPW）估计量和增强逆概率加权（AIPW）估计量，以及基于线性化的方差一致估计。
主要结论：在参与机制和结果回归模型均正确设定的条件下，三种估计量都是 \( \sqrt{n} \)-一致的、渐近正态的；AIPW估计量具有双稳健性（即只要其中之一正确设定，估计即一致）；方差估计在三种情形下均一致，支持构造传统置信区间。

关键设定与假设¶

设定（记号已在第二节给出，此处补充完整）：
总体 \( \mathcal{U} \) 大小 \( N \) 可视为无穷大（渐近框架以 \( n_A, n_B \to \infty \)）。
参考概率样本 \( \mathcal{B} \) 的抽样设计权重 \( w_i^B = 1 / p_i^B \) 已知，且可用其校准到总体。
参与机制模型（核心新假设）：
\[\pi_i = \frac{\exp(\alpha + X_i^\top \beta + \gamma Y_i)}{1 + \exp(\alpha + X_i^\top \beta + \gamma Y_i)}\]
作者称此为“非忽略参与机制”，因为 \( \gamma \neq 0 \) 允许参与依赖于 \( Y \)。这与可忽略情况（\( \gamma = 0 \)）形成对比。
结果回归模型（用于AIPW）：假设 \( E[Y \mid X] = m(X; \theta) \) 是已知参数形式的回归函数（如线性或广义线性模型）。
重叠假设：存在常数 \( c > 0 \) 使得 \( \pi_i \ge c \) 对所有 \( i \) 成立（防止IPW权重爆炸）。
样本独立性：非概率样本 \( \mathcal{A} \) 和概率样本 \( \mathcal{B} \) 相互独立，且都是来自同一总体的独立同分布样本（生成式视角）。
可忽略的参考样本缺失：\( \mathcal{B} \) 的缺失机制（即为何没有 \( Y \)）被视为设计特征（\( \mathcal{B} \) 就是只收集了 \( X \)），不是非忽略的缺失。
相比已有文献的强化/弱化：
放宽了Chen et al. (2020) 的可忽略假设（\( \gamma = 0 \)）至非忽略（\( \gamma \neq 0 \)）。
增加了对参与机制参数形式（Logistic）和结果模型参数形式的要求。Kim & Morikawa (2023) 也处理非忽略，但使用了经验似然而非伪似然，且需要更强的可识别假设。本文的伪似然方法在Logistic假设下给出了更直接的方差估计量。

主要结果（理论型）¶

Theorem 1（伪似然估计的渐近性）：伪似然估计量 \( (\hat{\alpha}, \hat{\beta}, \hat{\gamma}) \) 是 \( \sqrt{n} \)-一致的、渐近正态的，其渐近方差由观测信息矩阵的逆给出（经典MLE理论）。直觉：伪似然本质上是一个基于A样本和B样本联合数据的部分似然，在模型正确时满足正则条件。
Theorem 2（IPW和AIPW估计量的渐近性）：在正则条件下，回归预测估计量 \( \hat{\theta}_R \)、IPW估计量 \( \hat{\theta}_{IPW} \) 和AIPW估计量 \( \hat{\theta}_{AIPW} \) 均满足：
\[\sqrt{n} (\hat{\theta} - \theta) \xrightarrow{d} N(0, V)\]
其中 \( V \) 有闭式表达式。AIPW估计量的性质是双稳健的：只要参与机制模型或结果回归模型其中之一正确，\( \hat{\theta}_{AIPW} \) 就是一致的。技术难点：推导AIPW在非忽略设定下的方差公式需要同时考虑两个模型的不确定性，以及它们之间的相关性。
Theorem 3（方差估计的一致性）：作者给出了基于线性化（delta method）的方差估计量 \( \hat{V} \)，并证明 \( \hat{V} / V \xrightarrow{p} 1 \)。这使得构造基于正态近似的置信区间成为可能。

证明路线与技术技巧¶

整体路线（3-5步）：
步骤1：伪似然估计。从A样本和B样本构造关于 \( (\alpha, \beta, \gamma) \) 的伪似然函数。具体地，以 \( \lambda = E[\pi(Y, X)] \) 为归一化因子，A样本每个单元的“伪概率”为 \( \pi_i / \lambda \)。通过最大化伪似然得到参数估计 \( (\hat{\alpha}, \hat{\beta}, \hat{\gamma}) \)。
步骤2：参与概率的预测。将估计参数代入 \( \pi_i = \exp(\alpha + X_i^\top \beta + \gamma Y_i) / (1 + \exp(...)) \) 计算每个A样本单元的 \( \hat{\pi}_i \)。
步骤3：构造估计量。用 \( \hat{\pi}_i \) 构造IPW估计量 \( \hat{\theta}_{IPW} = (\sum_{i \in A} Y_i / \hat{\pi}_i) / (\sum_{i \in A} 1 / \hat{\pi}_i) \)，以及AIPW估计量 \( \hat{\theta}_{AIPW} = \hat{\theta}_{R} + \sum_{i \in A} (Y_i - \hat{m}(X_i)) / \hat{\pi}_i \)（其中 \( \hat{\theta}_R \) 是基于B样本的回归预测）。
步骤4：渐近分布推导。使用delta方法和泰勒展开，将 \( \hat{\theta} \) 表示为影响函数之和加上高阶小项，证明渐近正态性。关键工作在影响函数中纳入 \( (\hat{\alpha}, \hat{\beta}, \hat{\gamma}) \) 的不确定性（否则方差会被低估）。
步骤5：线性化方差估计。直接对影响函数做估计——每个单元的影响函数分量有观测的替代（plug-in），然后计算样本方差。
关键跳跃点：
跳跃点1：在非忽略机制下，伪似然的归一化因子 \( \lambda \) 如何计算？由于参与概率依赖于Y，\( \lambda = E[\pi(Y,X)] \) 需要利用B样本中X的分布以及一个关于Y|X的中间模型来估计。作者假设Y|X的模型正确（或通过双稳健实现），从而可以用B样本的X计算 \( \hat{\lambda} \)。这是将可忽略情况推广到非忽略情况的最吃劲的一步。
跳跃点2：AIPW在非忽略设定下的双稳健性性质——它要求参与机制模型和回归模型之一正确，但非忽略性意味着参与机制模型本身就在估计Y的系数。当参与机制模型错误时，依赖什么来保证？作者证明，如果回归模型 \( m(X) \) 正确（即 \( E[Y \mid X] \) 是线性形式且系数估计一致），即使参与机制模型有误，AIPW估计量仍然一致。这依赖于AIPW构造中包含的“augmentation”项 \( \hat{m}(X) \) 的偏差抵消效应。
技术技巧点名：
M估计理论：用于伪似然估计量的渐近正态性推导（第3节）。
影响函数展开：用于AIPW估计量的方差公式推导（第4节）。
线性化（delta method）：用于方差估计（第5节）。

真实例子与应用¶

应用名称：ESPACOV（西班牙COVID-19疫情影响调查，Rueda et al., 2022）。
数据/场景：一个非概率网络调查，目的是估计COVID-19对西班牙人口健康和经济的影响。研究者怀疑参与者在年龄、教育程度、健康状况等方面有选择偏差（例如，年轻人、高教育者更可能参与）。作者利用概率样本（如西班牙国家统计局的社会调查）作为参考，该参考样本含有与参与相关的辅助变量（年龄、性别、教育、地区、收入）。
方法使用：按本文方法，将非概率样本作为A样本，参考概率样本作为B样本。用伪似然估计参与概率（包括Y对参与的效应），然后构造IPW和AIPW估计量估计各类结果（如自评健康下降的比例、收入损失的比例）。
得到的结果：本文提出的非忽略方法得到的结果，与经典可忽略方法得出的结果存在显著差异——例如，健康下降的比例被可忽略方法低估（因为不健康的人更少参与）。非忽略方法给出的估计与已知官方统计（如失业保险登记率）更吻合。
想说明什么：验证理论（方法能修正非忽略偏倚），展示相对可忽略基线的优势。

🔎 结论是否比证明窄¶

是。作者在Introduction中以“非忽略参与机制”作为核心创新点，但在Theorem 1-3的假设中，参与机制必须是Logistic形式（参数形式已知）。这比“非忽略”这个一般性概念更强。没有证明在更一般的非参数非忽略机制下方法的有效性。
AIPW的双稳健性声明（Theorem 2）在非忽略设定下只保证对参与机制模型或回归模型之一正确的稳健性。如果两个模型都错误，一致性丧失。作者未讨论两个模型均错误时的偏差界（如文献中常见的“近乎双稳健”概念）。
方差估计量（Theorem 3）的一致性依赖所有模型（参与机制+回归）的正确指定。若参与机制模型错误，方差估计可能不成立——这在实际中是重要局限。

四、开放问题（点到为止，扎根具体语句）¶

参数假设的稳健性：本文方法强烈依赖Logistic参与机制和结果回归模型的参数形式。如果一个模型错误，另一个是否正确？在非忽略机制下，AIPW的双稳健性能否扩展到更灵活的半参数/非参数形式（如BART、高斯过程）？扎根于第2节的“模型假设”部分：“We assume that the participation mechanism follows a logistic model...” 和 Theorem 2 的条件依赖“at least one model is correctly specified”。这是典型的技术局限。
高维协变量下的扩展：当辅助变量 \( X \) 的维数 \( p \) 随样本量增长时，伪似然的估计是否仍保持一致性？需要怎样的稀疏性假设或正则化方法？扎根于第4节的开头：“The results can be extended to high-dimensional settings with regularization...” 作者只提了一句，未展开。
纵向/重复测量设定：当数据包含多个时间点（如面板调查），参与机制可能在每个时间点都非忽略，且跨时间相关。本文方法如何推广到多期设定？扎根于第7节“Conclusion and future work”：“Extending the proposed methods to longitudinal settings is an important direction for future research.”
识别条件的“可检验性”：如何用观测数据检验“参与机制是否非忽略”（即 \( \gamma \neq 0 \)）？本文认为这是一个识别问题（不可检验），但Beppu & Morikawa (2023) 对分类工具变量情形提出了可检验的充分条件。是否能将此类思想引入非概率样本设定？扎根于第2节的“Identifiability”讨论：“Parameter identifiability is a well-known challenge... a formal test for nonignorability is beyond the scope of this paper.”

Maintained by 陈星宇 · Homepage · Source on GitHub