General purpose multiply robust data integration procedures for handling nonprobability samples¶
作者: Sixia Chen, David Haziza
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1111/sjos.12605
一、领域脉络与小综述¶
这个方向是什么¶
本方向研究的是数据整合 (data integration) 中的统计推断问题:如何将一个有偏的非概率样本(如自愿在线调查、行政记录)与一个无偏但可能较小的概率样本(如传统普查或大规模调查)结合起来,以估计有限总体的参数(如均值、总量、分位数)。非概率样本成本低、速度快,但由于参与机制未知,直接使用会导致严重的选择偏差。核心统计难题是如何利用概率样本(作为“校准锚”)来调整非概率样本的偏差,同时尽可能利用后者的大样本量来提高效率。
发展脉络¶
-
奠基工作:该领域的早期工作主要依赖于单一模型调整。一类是基于倾向得分 (Propensity Score, PS) 的方法(如 Rosenbaum & Rubin, 1983),将非概率样本的参与视为一个缺失数据问题,通过估计参与概率并构造逆概率权重 (IPW) 来校正偏差。另一类是基于结果回归 (Outcome Regression, OR) 的方法(如 Holt & Smith, 1979),利用概率样本拟合一个结果变量的超总体模型,然后用此模型预测非概率样本的“伪结果”。单一模型方法的共同瓶颈是:一致性完全依赖于该模型是否被正确设定 (model-based consistency)。
-
主要进展:为了放松模型假设,研究者引入了双重稳健 (Doubly Robust, DR) 估计量(如 Robins, Rotnitzky & Zhao, 1994; Scharfstein, Rotnitzky & Robins, 1999; Bang & Robins, 2005)。DR 估计量结合了一个倾向得分模型和一个结果回归模型,只要两者中至少一个被正确设定,估计量就保持一致。这显著提升了方法的稳健性。作者在引言中引用的 Chen, Li & Wan (2020) 和 Wu (2022) 等工作正是将此 DR 框架应用于概率和非概率样本的数据整合场景。但这留下了口子:当研究者有多个候选模型(例如,多个不同的结果回归模型或多个不同的倾向得分模型),且不确定哪个正确时,DR 只能保证"二保一"的稳健性,无法利用集合中所有模型的信息来进一步提高效率。
-
当前 Frontier:当前的前沿是多重稳健 (Multiply Robust, MR) 方法。作者指出,其方法不同于已有多重稳健工作时(如 Han & Wang, 2013),后者通常同时考虑多个倾向得分模型,而本工作则同时融合了多个结果回归模型和多个倾向得分模型。作者声称,这是对现有 MR 框架的重要扩展。
-
本文位置:本文正是在上述 DR 和 MR 的基础上,提出了一个更灵活、更稳健的框架。它试图回答:当研究者面对一个集合(h = 1, ..., H)的结果回归模型和一个集合 (k = 1, ..., K) 的倾向得分模型时,如何构建一个估计量,使其在“所有模型中除一个外均被错误设定”时仍能保持一致。这是作者声称的贡献。
子线索聚类¶
- 倾向得分调整线索:主要依赖对参与概率的建模。代表工作有 Rosenbaum & Rubin (1983) 的经典倾向得分方法,以及 Lee & Valliant (2009) 等在非概率样本背景下的应用。其核心问题是 PS 模型的设定错误会直接导致偏差。
- 超总体模型 / 结果回归线索:依赖对目标变量的回归模型。代表工作有 Holt & Smith (1979),以及 Särndal, Swensson & Wretman (1992) 的调查抽样理论。其核心问题是 OR 模型的外推错误(尤其是当非概率样本的协变量分布与概率样本差异很大时)会直接导致偏差。
- 稳健估计线索(双重 / 多重稳健):试图结合前两条线索的优点,用至少一个模型的正确性来保证一致性。代表工作有 Robins, Rotnitzky & Zhao (1994) 的 DR 估计,以及 Han & Wang (2013) 的多重稳健(仅限于多个 PS 模型)。本文正是属于这条线索,并尝试将其推广到 PS 和 OR 模型的双重集合。
这个方向在追问的核心问题与已知瓶颈¶
- 核心问题一:如何最大程度地放松模型设定假设? 当前瓶颈是:从单一模型到双重稳健再到多重稳健,每一步都在放松假设,但“除一个外所有模型都错”这个条件本身是否太强?在现实应用中,研究者可能拥有的所有模型都是近似正确的,但都不是完全正确——此时本文的方法是否依然有效或最优?
- 核心问题二:如何在高维或非参数设定下进行有效的模型整合? 当前瓶颈是:本文的方法完全建立在参数化工作模型之上。当协变量维度高、模型复杂时,参数模型几乎必然会误设。作者没有讨论使用非参数或高维正则化模型(如 Lasso、随机森林)如何影响多重稳健性。论文的证明依赖于参数模型的 M-估计量性质,这对高维或非参数模型的适用性是一个大的开放问题。
- 核心问题三:多重稳健估计量的效率如何? 当前瓶颈是:多重稳健估计量在“所有模型都正确”时,通常能接近或达到半参数效率界。但在某些模型误设的组合下,其效率可能低于只用一个正确模型的双重稳健估计量。作者在模拟中展示了偏差的改善,但没有给出效率与单纯最优概率样本估计量(如 Hájek 估计量)的理论比较。
⚠️ 作者的 Framing¶
- 作者的缺口定义:作者将缺口明确限定为“当前方法没有同时融合多个结果回归和多个倾向得分模型”。他们因此将自己的方法定位为对 Han & Wang (2013) 等工作的“显然的下一步”。
- 被淡化或回避的竞争路线:
- 非参数与积分加权方法 (Nonparametric and kernel-based methods):引言引用了 Chen, Li & Wan (2020) 和 Wu (2022) 作为非参方法的代表,但简单以“curse of dimensionality and poor efficiency”为由跳过。作者的框架完全依赖参数模型,没有与现代非参数或高维方法做任何比较。这是需要自己补充阅读的竞争路线。
- 伪似然 / 经验似然 (Pseudolikelihood / Empirical Likelihood):论文中完全没有提及经验似然方法。这类方法在融合不同来源的信息时具有自然优势,且无需依赖参数模型的结构。
- 明显该存在却缺失的文献 / 讨论:
- 已有多重稳健方法在多模型集合下的理论:论文引用了 Han & Wang (2013),但该文处理的是多个 PS 模型。本文声称是“general purpose”,但没有讨论其提出的新框架与 Han & Wang 方法在理论上的本质区别(例如,是否产生了新的识别条件?是否改变了估计量的渐近方差结构?)。此处存在一个潜在的逻辑跳跃。
- 半参数效率界 (Semiparametric Efficiency Bound):对于一个结合了多个参数模型的估计问题,其半参数效率界是什么?本文没有讨论。对于熟悉因果推断效率理论的你,这是一个非常值得追问的问题。论文的 MR 估计量是否达到了某个(含多个工作模型信息的)效率界?作者的定理只给出了方差表达式,没有指出它是否最优。
张力¶
未见明显对立引用。所有被引工作均在“模型假设越少越好”这个方向上呈递进关系,没有根本性的矛盾。
二、最小内核:最简单的例子与核心思路¶
第一步:符号、模型与可观测数据¶
我们设要估计的参数为总体有限总量 \( \theta = \sum_{i \in U} y_i \),\(U\) 是有限总体(大小为 \(N\))。实际观测数据由两部分组成:
- 概率样本 \(S_A\):大小为 \(n_A\),是从 \(U\) 中按已知抽样设计(如简单随机抽样)抽取的。对 \(i \in S_A\),我们观测到 \(y_i\) 和协变量 \(x_i\)。我们可以构造一个基于设计无偏且一致的估计量,如 \( \hat{\theta}_A = \frac{N}{n_A} \sum_{i \in S_A} y_i \)。这个估计量是“校准锚”,但它可能效率较低。
- 非概率样本 \(S_B\):大小为 \(n_B\),通常是很大的一个样本(\(n_B \gg n_A\))。对 \(i \in S_B\),我们也能观测到 \(y_i\) 和 \(x_i\)。但 \(S_B\) 的选择机制未知,因此直接使用其均值 \( \bar{y}_B \) 会产生选择偏差。设 \( \pi_i = P(i \in S_B) \) 是未知的参与概率。
- 协变量 \(X\):两个样本共享的协变量向量,维度为 \(p\)。假设我们有一个大小为 \(n_A + n_B\) 的组合样本(combined sample),其中 \(X\) 对所有单元都已知,但 \(Y\) 对所有单元也都已知(因为两边都测了 \(Y\)——这一点对理解本文方法很重要:非概率样本也测了目标变量)。
潜在量 / 想要但不可观测的量: - 参与机制:\( \pi_i = \pi(x_i) \),即个体进入非概率样本的概率,完全由协变量决定。这包含了强可忽略性 (strong ignorability) 假设(相对于可观测变量无未测混杂),这是所有基于 PS 调整方法的核心假设。 - 潜在结果:不需要,因为 \(y_i\) 在两个样本中都观测得到;这里没有“反事实”结果,只有“哪个样本被选入”的因果问题。
第二步:最简例子(参数为总体均值 \(\mu\))¶
假设总体是无限的,且样本是通过 i.i.d. 抽取的(以简化有限总体修正因子)。我们想估计 \(\mu = E[y]\)。
我们有: - 一个很小但无偏的概率样本 \(A\):\( \hat{\mu}_A = \frac{1}{n_A} \sum_{i \in A} y_i \),满足 \(E[\hat{\mu}_A | data] = \mu\)。 - 一个很大但有偏的非概率样本 \(B\):\( \hat{\mu}_B = \frac{1}{n_B} \sum_{i \in B} y_i \),满足 \(E[\hat{\mu}_B | data] = \mu + bias(x)\)。
核心难题:如何巧妙地整合这两个样本,在消除 \(B\) 的偏差的同时,利用其大样本量来提高 \(A\) 的效率?
本文的最小内核思路(假设只有两个 OR 模型和一个 PS 模型):
- 设定多重模型:假设我们有两个待选的结果回归 (OR) 模型:\( m_1(x) = \alpha_1 + \beta_1 x \) 和 \( m_2(x) = \alpha_2 + \beta_2 x \)(线性模型)。它们可能都是错的。我们只有一个倾向得分 (PS) 模型:\( e(x) = \text{logit}^{-1}(\gamma x) \)(逻辑回归),它也可能错。
- “好模型”的识别:作者的方法的核心是:它是通过一个组合模型来自动识别哪个 OR 模型或哪个 PS 模型是“好”的。它不要求我们事先知道哪个是对的。
- 构造一个“几乎无偏”的估计函子:对于单个参数 \( \mu \),经典的 DR 估计量如 \( \hat{\mu}_{DR} \) 可以写成 \( \hat{\mu}_A + \frac{1}{n_B} \sum_{i \in B} \frac{(y_i - m(x_i))}{\hat{e}(x_i)} \) 的某种形式。现在,我们有多重模型。作者的“多重稳健”估计量 \( \hat{\mu}_{MR} \) 可以理解为:
- 先将多个 OR 模型组合:\( m_{composite}(x) = w_1 m_1(x) + w_2 m_2(x) \),其中权重 \(w_1, w_2\) 是通过最小化某个经验损失函数在组合数据上估计出来的。这个损失函数旨在让组合模型 \(m_{composite}\) 在概率样本 \(A\) 上的拟合最优。
- 然后使用组合的 PS 模型:虽本文在这里没用组合 PS 模型(作为最简例子),但其一般框架是推导出一个形如 \( \hat{\mu}_{MR} = \hat{\mu}_A + \frac{1}{n_B} \sum_{i \in B} (\text{“用复合OR模型的残差”}) \times (\text{“用复合PS模型的权重”}) \) 的东西。由于 \(E[\hat{\mu}_A | data] = \mu\),如果你能证明 \(\frac{1}{n_B} \sum_{i \in B} (\cdots)\) 部分在渐近意义上是无偏的(即期望为零),那么整个 \( \hat{\mu}_{MR} \) 就是一致的。
为什么能“多重稳健”? - 假设所有 OR 模型都错了,但PS 模型 \(e(x)\) 是对的。那么:权重 \(w_1, w_2\) 可能会被估计得很差,因为 OR 模型是错的。但在构造的函子中,由于 PS 模型正确(即 \(E[\frac{1}{\hat{e}(x_i)} | i \in B] = 1\) 之类的性质),加权平均的残差项 \( (\text{OR residuals})/\text{PS} \) 的期望仍为 0,所以多重稳健估计量一致。好模型是 PS 模型。 - 假设所有 PS 模型都错了,但至少一个 OR 模型(比如 \(m_1\))是对的。那么:组合模型 \(m_{composite}\) 将包含这个正确模型的信息(\(w_1\) 会比较大),因此 \(m_{composite}(x) \approx m_1(x)\) 接近于真实的条件期望 \(E[y|x]\)。加权平均的残差项 \( (y_i - m_{composite}(x_i)) \) 的期望在 PS 模型错误时仍为 0。因此估计量也一致。好模型是 OR 模型。 - 如果所有模型都错:那么估计量不一致。
这个例子的精髓是:通过构建组合 OR 模型和组合 PS 模型,并设计一个精巧的估计方程,使得只要“全部 OR 模型 + 全部 PS 模型”这个集合里存在一个正确模型,估计量就能被“拉回来”。传统 DR 是“OR or PS”二保一;这里的 MR 是“ORs or PSs”这种更宽松的保一。
三、这篇论文做了什么¶
三句话¶
- 研究问题:在概率样本与非概率样本的数据整合框架下,提出一类能同时融合多个结果回归模型和多个倾向得分模型的通用多重稳健估计量。
- 核心工具:通过构造一个超定估计方程系统,使用广义矩估计 (Generalized Method of Moments, GMM) 的截面似然方法,将多个 OR 模型和多个 PS 模型的参数与总体参数的估计联合在一起。
- 主要结论:所提出的估计量是多重稳健的——当所有的“好模型”(要么是至少一个 OR 模型,要么是至少一个 PS 模型)中除一个外都错误设定时,估计量仍保持一致性。论文给出了点估计和方差估计的渐近性质,并通过模拟和实证案例验证了其在实际模型误设下的表现。
关键设定与假设¶
- 设定:给定一个有限总体 \(U\),从中抽取概率样本 \(A\)(抽样概率已知)和非概率样本 \(B\)(抽样概率未知)。目标:估计总体参数 \( \theta \),可以是均值、总量、分布函数 \(F_Y(t)\) 或分位数。为了简化,可以 \( \theta = \frac{1}{N} \sum_i y_i \)。
- 关键假设:
- A1 (可忽略性 / Ignorability):非概率样本的参与机制 \( \pi_i = P(i \in S_B | x_i) \) 仅依赖于可观测的协变量 \(x_i\)。这是所有基于 PS 调整方法的核心。论文也假设了支持重叠 (support overlap),即 \(0 < \pi(x) < 1\)。
- A2 (模型设定):我们指定了 \(H\) 个结果回归模型:\( m_h(x; \alpha_h)\), \(h = 1, ..., H\),和 \(K\) 个倾向得分模型 (logit link):\( e_k(x; \gamma_k)\), \(k = 1, ..., K\)。这些模型都是参数化的。多重稳健性成立的条件是:在所有 \(H+K\) 个模型中,至少存在一个正确的模型(即真的满足 \(E[y|x] = m_h(x; \alpha_h^*) \) 或真的满足参与概率 \( \pi(x) = e_k(x; \gamma_k^*)\))。
- A3 (估计性质):所有模型参数 \( (\alpha_h, \gamma_k) \) 是通过截面似然 (pseudo-MLE) 在组合样本上估计的,且这些估计量是 \(\sqrt{n_B}\)-相合且渐近正态的。
- A4 (正则性与矩条件):标准的正则性条件(如 Hessian 矩阵非奇异、矩条件可微等),以保证 M-估计量的性质。
主要结果¶
(由于这是方法型论文,严格定理较简练,但推导了方差。)
-
多重稳健性 (Theorem 1, 一致性):
- 陈述:定理指出,在假设 A1-A4 下,如果 \(H+K\) 个模型中至少有一个是正确的(即集合 \( {\text{好模型}} \neq \emptyset \)),那么作者提出的多重稳健估计量 \( \hat{\theta}_{MR} \) 对总体参数 \( \theta \) 是一致估计的。
- 直觉:证明的本质是构造一个无偏的估计方程。当至少一个好模型存在时,该方程在真实参数下的期望为零;由于使用了 GMM 框架,参数的估计会导致该方程在样本版本下也近似为零,从而得到一致性。
- 必要条件:需要样本量 \(n_B\) 很大,且概率样本的抽样设计是已知的(能构造 \( \hat{\theta}_A \))。不需要提前知道哪个模型是正确的。
-
渐近正态性 (Theorem 2, 推断):
- 陈述:估计量 \( \hat{\theta}_{MR} \) 是渐近正态的:\( \sqrt{n_B} (\hat{\theta}_{MR} - \theta) \xrightarrow{d} N(0, V) \)。
- 方差:给出了渐近方差 \(V\) 的表达式。这个表达式是复杂的,包含了模型参数估计的变异、概率样本估计量的设计方差以及组合样本的抽样变异。作者明确给出了方差估计量的构造公式,基于线性化 (linearization) 技术。
证明路线与技术技巧¶
-
整体路线(3-5 步):
- 构造“好”的估计方程:定义一个矩条件 (moment condition) 向量,该向量包含:
- \(H+K\) 个用于估计模型参数 \( (\alpha_h, \gamma_k) \) 的得分方程。
- 一个用于估计目标参数 \( \theta \) 的核心方程。这个核心方程形如 \( \sum_{i \in S_A} U_A + \sum_{i \in S_B} \text{“组合的IPW残差”} \),它设计成如果任何一个模型正确,其期望值就为零。
- GMM 估计:将所有矩条件组合成一个超定系统。使用广义矩方法 (GMM) 中的连续更新估计器 (CUE) 或两步 GMM 来联合估计所有参数 \( (\alpha_1, ..., \gamma_K, \theta) \)。这等于同时找到了所有模型参数的“相合”估计和能使得矩条件尽可能为零的 \( \hat{\theta} \)。
- 证明多重稳健性:关键跳跃点在于,证明当至少一个好模型存在时,由构造的矩条件组成的总体矩向量的有偏性被控制。例如,如果 OR 模型都错,但 PS 模型对,那么由 OR 模型的“坏”导致的矩条件偏差会与由 PS 模型权重构造的矩条件互相抵消,使得总矩条件仍然无偏。论文用了一个巧妙的重写技巧,将残差项分解为与不同模型相关的部分。
- 渐近理论:证明 GMM 估计量的标准渐近正态性定理成立。需要验证矩条件在正确模型附近的正则性,并对由“错误模型”的估计参数引入的额外变异进行渐近分析。这里的关键假设是错误模型的参数估计虽然不一致,但其收敛到的“最佳近似”参数是唯一的,并且影响是可控的。
- 方差估计:使用用 Delta 方法推导出渐近方差 \(V\) 的 sandwich 形式,并给出一个可以通过样本数据直接计算的稳健方差估计量。
- 构造“好”的估计方程:定义一个矩条件 (moment condition) 向量,该向量包含:
-
技术技巧:
- 广义矩方法 (GMM):构造了一个包含多个未知参数的超定矩条件方程组。这使得能联合估计所有模型参数和总体参数,而不需要单独处理每个模型。
- 截面似然 (Pseudo-MLE):在估计模型参数时,论文使用了“组合样本的似然函数”,这本质上是基于一个伪似然,因为概率样本的抽样权重被考虑在内 - 这是一个经典的“基于设计”的伪似然方法。
- 叠加法 (Stacking):对于多个 OR 模型,论文采用了类似于模型平均的叠加方法,通过一个二次损失函数自动求解最优的线性组合权重,但在 GMM 框架下,这个权重的求解是内生的,不是单独进行的。
真实例子与应用¶
- 数据:
- 概率样本:韩国国家健康营养调查 (KNHANES, 2018-2019),这是全国性多阶段概率样本。
- 非概率样本:国民健康保险共享服务 (NHISS, 2019) 中的体检数据。注意,KNHANES 中也包含体检数据,因此可以拼接。
- 目标变量:5 个健康相关指标(身高、免疫功能、空腹血糖、总胆固醇、甘油三酯)。
- 协变量:年龄、性别等人口统计学变量。
- 怎么用:作者将 KNHANES 当作概率样本 (S_A),将 NHISS 当作非概率样本 (S_B)。他们设定了一个包含 \(H=3\) 个 OR 模型(线性回归、平方项回归、交互项回归)和 \(K=2\) 个 PS 模型(logistic + 多项式、主效应 logistic)的集合。
- 结果:
- 在所有 5 个指标上,本文提出的 MR 估计量都产生了与基准概率样本估计量 (Hájek 估计量) 非常接近的估计值。
- 与仅使用单一模型(如只用一个好的 OR 或只用一个好的 PS)的方法相比,MR 估计量的方差(标准误)显著降低。这直接验证了利用多个模型可以提升效率。
- 本例子想说明的核心:真实例子验证了 MR 方法在存在模型误设风险的现实场景下,能够成功地进行偏差校正并(通过组合多个模型)提升估计效率。它展示了一个可操作的工作流:研究者不必纠结于选择哪一个具体的 OR 或 PS 模型,而是可以提供一个模型库,让数据自己决定如何组合。
🔎 结论是否比证明窄¶
- 是的,有窄化。虽然论文声称“多重稳健”,但其证明严格依赖于参数化的工作模型和截面 M-估计量的渐近性质。结论在以下方面比原始 claim 窄:
- 模型复杂度:论文没有讨论当模型极度复杂(如神经网络、随机森林)时,由于不存在标准的参数渐近理论,其多重稳健性是否仍成立。在现实操作中,非参数或高度参数化的模型往往是需要的。
- 假设强度:多重稳健性的成立是在“集合中至少有一个模型正确”的假设下。这个假设本身很强。在模拟设置中,作者故意构造了所有模型都错的场景,结果发现 MR 估计量依然会表现出较小偏差或更大的方差,这说明其鲁棒性是有成本的。用户需要注意:如果所有模型全军覆没,MR不是万能的。
- 方差最优性:论文没有声称其方差估计量达到半参数效率界。它只给出了方差的一致性估计,但没有讨论在给定多个模型集合下,该估计量是否是渐近最优的(即是否可以到达一个“已知多个模型集合”的 oracle 效率界)。这是你的开放问题。
四、开放问题¶
-
半参数效率与最优权重问题:在给定的多个 OR 和 PS 模型集合下,是否存在一个半参数效率界?本文的 MR 估计量是否能通过某种最优权重(比叠加法更精细)达到该界?这直接通向你在因果推断效率理论方面的强项。扎根:论文第 5 节的“Discussion”部分指出:“Our method is not necessarily the most efficient among all multiply robust estimators. We leave this for future research.” (原文:我们的方法不一定是在所有多重稳健估计量中最有效的。我们将其留给未来研究)。
-
高维 / 非参数回归与倾向得分的扩展:本文完全依赖参数化 M-估计。一个关键的拓展是:当 OR 或 PS 模型使用高维正则化方法(如 Lasso, Dantzig Selector)或非参数方法(如核回归、随机森林)时,MR 的性质(一致性、方差、证明结构)如何改变?扎根:论文的假设 A2 和 A3 明确要求参数模型和 =√n-相合估计量。任何使用高维或非参数模型的设定都违背了这些假设,需要全新的理论。
-
有限样本下所有模型都错时的风险分析:当所有模型都错时,MR 估计量的偏差和方差是什么?是否存在数据控制的“不崩盘”条件(例如,所有模型都是“近似正确”的)?这是有实际意义的问题,因为现实场景中很难保证“至少一个绝对正确”。这个点与你的兴趣 (hypothesis testing) 相关:可以设计一个检验,来检验“集合中至少一个正确”这个假设是否能被拒绝。
-
因果推断中的一般性扩展:本文讨论的是修正非概率样本的选择偏差。在更强的因果框架下(例如,处理一个具有因果处理效应的连续处理变量),这个“多模型整合”的方法能否用于敏感性分析或多重工具变量估计?扎根:引用中提到了 Robins, Rotnitzky & Zhao (1994) 在因果推断中的 DR 估计,但本文的应用场景(非概率样本)是一个特殊的、无需反事实的直接调整问题。将其推广到因果处理效应估计(如平均处理效应,其中 \(y_i\) 是不可观测的反事实)是一个有意义的自然扩展。
Maintained by 陈星宇 · Homepage · Source on GitHub