Multiple bias calibration for valid statistical inference under nonignorable nonresponse¶

作者: Seonghun Cho, Jae Kwang Kim, Yumou Qiu
来源: Biometrics
主题: 因果推断
相关性: 6/10
机构绿灯: Iowa State University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf044

一、领域脉络与小综述¶

这个方向是什么
非随机缺失（Nonignorable Nonresponse, NINR）下的统计推断是缺失数据研究中最难的一类问题。其核心困难在于：缺失机制依赖于未观测到的结果或协变量，因此观测数据的分布不再与总体目标量直接对应，识别与估计都需要额外且不可验证的假设。当前的主流策略包括：基于完全似然的参数模型（如Heckman选择模型）、半参数加权估计（通过假设一个可识别的倾向得分模型作为缺失概率，但NINR下倾向得分本身不可识别，通常需要工具变量或敏感度分析）、以及双稳健方法（将结果模型与缺失模型相结合）。然而，这些方法在实际应用中面临两个关键瓶颈：①倾向得分模型一旦误设，加权估计量就会出现系统性偏倚；②双稳健估计虽然容许结果模型或缺失模型之一误设，但无法覆盖缺失机制本身全部误设的情形。因此，在NINR下构造对缺失模型错误设定有更强稳健性的推断方法，是一个活跃而艰难的课题。

发展脉络（基于公共文献与摘要关键词推断，无法引用作者原文语句）
- 奠基工作：由Little & Rubin（1987）奠定缺失数据的一般框架，区分MAR与NINR。Heckman（1979）引入选择模型作为NINR的参数化推断工具。
- 主要进展：Kim & Yu（2011）提出双稳健估计器，将结果回归与倾向得分加权结合，使得在两者之一正确时估计一致。但该框架假设缺失机制是MAR或至少倾向得分可识别；在NINR下，倾向得分无法仅由观测数据一致估计，因此双稳健概念的适用性受限。
- 近十年演变：一种新兴思路是放弃对单个正确模型的依赖，转而利用多个候选工作模型，通过模型平均或校准约束来提升稳健性。例如，经验似然（Empirical Likelihood, EL）已被引入缺失数据推断，通过“内部偏倚校准”约束实现一致性。Qin & Zhang（2007）等的工作展示了EL在响应概率已知或可参数化时的有效性。
- 本文的位置（基于摘要叙述）：作者提出“多重偏倚校准”（Multiple Bias Calibration），将多个候选倾向得分模型同时纳入EL的校准约束。其核心 claim 是：只要候选模型中包含真实模型（且该模型的期望等于真实缺失率），选择偏倚即可被清除，而不要求猜测哪个是正确的。这本质上是一种多重鲁棒（multi-robust）估计策略，比传统双稳健允许更灵活的错误设定模式。

子线索聚类
1. 参数似然与隐变量模型：假定缺失机制的具体参数形式（如Probit/Logit），结合EM或MCMC，依赖模型正确。
2. 逆概率加权与校准：通过估计倾向得分构建权重，使用校准约束（如矩匹配）调整权重，以平衡协变量分布。代表性工作如Deville & Särndal（1992）的校准加权。
3. 经验似然下的推断：将EL应用于缺失数据，通过边际约束避免显式估计倾向得分。本文属于此线索的扩展。
4. 多重鲁棒估计：使用多个工作模型或贝叶斯模型平均来降低对单一模型正确性的依赖。本文的核心思想与近年提出的“多鲁棒”方法（如Han & Wang, 2013）精神相通，但具体技术工具不同（用EL而非GMM）。

核心追问与瓶颈
- 如何在不假设缺失机制已知或可一致估计的前提下，仍能获得一致且有效的推断？
- 多个工作模型应该以何种方式组合？是“所有模型中至少一个正确”还是“所有模型加权平均在一定意义上覆盖真实模型”？
- 经验似然的校准约束如何扩展到多个模型，且保证计算稳定性和渐近性质？
- 现有方法对协变量维数高的情形缺乏系统处理，普遍假设低维参数模型。

⚠️ 作者的framing（基于摘要重构）
作者将该子方向的主要缺口frame为：“已有的偏倚校准方法依赖单个倾向得分模型，若该模型误设则估计偏倚无法消除”。他们声称，通过纳入多个候选模型，并采用EL校准时的“内部偏倚约束”同时对所有模型施加条件，就只要其中一个正确即可。这使得用户不需要事先知道正确模型，也避免了模型选择带来的不确定性和方差膨胀。

回避或淡化的竞争路线
- 作者没有深入讨论基于工具变量的NINR识别方法（如proximal causal inference中的负控制），该方法不需要指定倾向得分形式，而是利用额外的辅助变量对缺失机制进行非参数识别。
- 对双稳健估计在NINR下的适应（如将结果模型与缺失模型结合，但缺失模型不可识别）被简化为“需要正确模型”，未详细评论现有双稳健方法在NINR下的局限。
- 没有提及贝叶斯方法或敏感度分析作为替代路径。

张力：未见明显对立引用。各子线索之间主要是方法途径不同，结论并不矛盾，都指向“需要强额外假设”。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

符号：
\(Y\)：感兴趣的连续或离散结果变量（可能有缺失）。
\(X\)：协变量向量（恒可观测）。
\(R\)：缺失指示，\(R=1\)表示\(Y\)被观测，\(R=0\)表示缺失。
目标参数：\(\theta = \mathbb{E}[Y]\)（总体均值）。更一般地可为任何线性/可积泛函。
倾向得分（Propensity Score, PS）：\(\pi(x) = P(R=1 \mid X=x, Y)\)。在NINR下，该概率可能也依赖于\(Y\)，但为识别性，常见假设缺失机制仅依赖于\(X\)或采用工具变量。本文采用的工作模型形式为\(\pi_k(X; \boldsymbol{\alpha}_k)\)，其中\(\boldsymbol{\alpha}_k\)是有限维参数，\(k=1,\dots,K\)。
\(n\)：样本量。
\(w_i\)：经验似然中分配给每个观测的隐式权重，满足\(\sum_{i=1}^n w_i = 1\)，\(w_i \ge 0\)。
模型：
数据生成：\(\{(X_i, Y_i, R_i)\}_{i=1}^n\) i.i.d.来自某联合分布，但\(Y_i\)仅在\(R_i=1\)时可观测。缺失机制是NINR，即\(R\)可能与未观测到的\(Y\)相关，即使给定\(X\)。为了可识别，对缺失机制施加结构假设：存在一个正确的工作PS模型\(\pi_*(X; \boldsymbol{\alpha}_*)\)使得\(\mathbb{E}[R/\pi_*(X; \boldsymbol{\alpha}_*) - 1 \mid X] = 0\)（即正则性条件）。作者将其简化为：存在一个候选模型\(k^*\)使得\(\pi_{k^*}(X; \boldsymbol{\alpha}_{k^*})\)等于真实的响应概率，且其期望等于总体缺失率（即\(\mathbb{E}[R/\pi_{k^*}(X; \boldsymbol{\alpha}_{k^*})] = 1\)）。
其他候选模型可以是任意形式的参数模型，常数模型也允许。
可观测数据：
对每个个体\(i\)，我们观测到：
- \(X_i\)（完全）
- \(R_i\)（除非整个样品被截断）
- 当\(R_i=1\)时，观测到\(Y_i\)；当\(R_i=0\)时，\(Y_i\)缺失（无法观测）。
想要但观测不到的量：缺失的\(Y_i\)，以及真实的PS函数\(\pi(X)\)（或\(P(R=1|X,Y)\)的完整形式）。

第二步：最小内核（最简特例：二值处理、单个协变量、两个候选模型）¶

假设我们只关心总体均值\(\theta = \mathbb{E}[Y]\)。协变量\(X\)是二值的（0/1），分布已知但不必平衡。缺失机制为NINR，但为简化，设真实的响应概率仅依赖于\(X\)（即MAR作为简化，但更一般地可允许与\(Y\)相关，仅需候选模型覆盖该形式）。考虑两个候选PS模型：

模型1：\(\pi_1(X) = \alpha_1\)（常数模型）。
模型2：\(\pi_2(X) = \exp(\alpha_{20} + \alpha_{21} X)/[1+\exp(\alpha_{20} + \alpha_{21} X)]\)（逻辑回归）。

假设真实模型属于候选集之一，但未知是哪个。例如实际真值是\(\pi_*(X) = 0.4 + 0.2X\)（线性概率，非逻辑），但此时模型1、2都不准，本文的理论需要至少一个模型正确（即与真实PS一致）。因此为体现最小内核，我们构造真值恰好等于模型2中的某个参数值（比如\(\pi_*(X) = 0.5\)当\(X=0\)，\(0.7\)当\(X=1\)，这正是逻辑回归系数的函数）。

多重偏倚校准的做法：

定义经验似然函数：\(L(\mu, \boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2) = \prod_{i=1}^n w_i\)，受约束：
\(\sum_i w_i = 1,\quad w_i \ge 0\)。
校准约束（对每个候选模型\(k\)）：
\[\sum_{i=1}^n w_i \left( \frac{R_i}{\pi_k(X_i;\boldsymbol{\alpha}_k)} \right) = 1.\]
均值估计约束：
\[\sum_{i=1}^n w_i R_i Y_i / \pi_k(X_i;\boldsymbol{\alpha}_k) = \theta,\quad \forall k.\]

但在实践中通常用等价形式：约束\(\sum w_i R_i / \pi_k = 1\) 和 \(\sum w_i R_i Y_i / \pi_k = \theta\)。
参数\(\boldsymbol{\alpha}_k\)也被视为自由参数，与\(w_i\)和\(\theta\)一起最大化经验似然。由于模型包含多个\(\boldsymbol{\alpha}_k\)，识别需要某些秩条件。

为什么只要一个候选模型正确即可
直觉：若模型\(k^*\)正确，则对于该模型，满足约束\(\sum w_i R_i/\pi_{k^*} = 1\)意味着\(w_i\)趋向于使加权后的逆概率重新加权样本均值无偏。同时，其他错误模型的约束会“自动调整”以使似然可行。EL的优化会在满足所有约束的权重中寻找最接近经验分布的；由于正确模型提供了无偏的矩条件，最终解会收敛到真实\(\theta\)。错误模型虽然引入额外约束，但只要它们的矩不产生矛盾（或只产生可消掉的偏差），不影响一致性。

核心数学困难：多个非嵌套的约束可能不相容，但EL的内部解性质保证了只要有一个正确，存在一个可行解序列收敛到真值。证明依赖于对偶问题和鞍点论证。

三、这篇论文做了什么¶

三句话¶

研究问题：在非随机缺失下，如何利用多个候选倾向得分模型进行校准，获得对缺失模型错误设定稳健的推断。
核心方法：提出“多重偏倚校准”，将多个PS模型同时纳入经验似然的内部偏倚校准约束，通过最大化经验似然同时估计目标参数\( \theta \)和所有PS模型参数。
主要结论：当候选模型中包含真实PS模型且期望等于真实缺失率时，所提估计量相合、渐近正态，且方差达到半参数效率下界（在正确模型完全已知的情形下）；模拟与实例表明其在有限样本中优于单模型校准和传统IPW。

关键设定与假设¶

在第二节最小记号基础上补充完整设定：

假设1（候选模型覆盖）：存在一个\( k^* \in \{1,\dots,K\} \)使得\(\pi_{k^*}(X;\boldsymbol{\alpha}_{k^*}^0) = P(R=1 \mid X)\)（即真实响应概率仅依赖于\(X\)，且被正确指定）。注意：作者在摘要中明确提出这一假设，是论文成立的核心。对于真正的NINR（缺失取决于\(Y\)），模型需要包含依赖于\(Y\)的变量或者通过工具变量间接处理，但本文似乎假定缺失机制可被X充分解释（即实际是MAR）。但摘要称处理“nonignorable”，可能存在细微定义：若将缺失机制建模为可观测协变量的函数，则非随机性来自于未观测到的因素，而不是来自Y本身？从上下文看，论文可能采用“非随机缺失”的广义定义（指缺失不仅由已观测变量决定）。我们暂以原文为准：他们假设缺失概率是X的确定性函数且能被一个候选模型正确描述。
假设2（矩条件可行性）：存在一组权重\(w_i\)（不一定为正）使得所有校准约束同时成立。这在真实模型存在时由构造满足。
假设3（正则性条件）：PS模型参数\(\boldsymbol{\alpha}_k\)在紧致集中，梯度矩阵满秩，经验似然的对偶拉格朗日乘子存在一致界限。
相比已有文献的强化与放宽：相比传统的单一模型校准（如Chen et al. 2008），该方法允许使用多个模型而不需事先指定哪个是正确的，放宽了“模型必须完全正确”的要求至“至少一个正确”。但相比完全非参数方法（如非参数核估计PS），它仍依赖参数形式的候选模型。

主要结果（理论型，基于摘要框架推断）¶

定理1（估计的一致性）：在假设1-3下，目标参数\(\hat{\theta}\)依概率收敛到真值\(\theta_0\)。证明核心：当真实模型存在时，其对应的矩条件在真值处成立；EL的最大化等价于最大化Kullback-Leibler散度投影，将权重挤压到满足所有约束的流形中，且仅当\(\theta = \theta_0\)时该流形非空。
定理2（渐近正态性）：\( \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, V)\)，其中方差\(V\)等于在已知正確PS模型下进行逆概率加权估计的半参数效率界。这是因为即使使用了多余模型，EL会自适应地将权重向正确模型靠拢，渐近效率不会损失。
定理3（方差估计的一致性）：给出基于EL轮廓似然的方差估计公式，可用于构建置信区间。
需要解决的技术难点：①多组矩条件的不兼容问题：错误模型可能引入错误约束，使可行解不存在。作者证明了当样本量足够大时，存在渐近可行解邻域。②参数\((\boldsymbol{\alpha}_1,\dots,\boldsymbol{\alpha}_K)\)与\(\theta\)的联合估计需要避免非嵌套模型之间的过度参数化——采用EL的profile处理，将\(\boldsymbol{\alpha}_k\)视为不定参数，通过两步最大化消去。

证明路线与技术技巧（推断）¶

整体路线（3-5步）

建立经验似然的拉格朗日对偶：将最大化问题转化为无约束对偶问题，引入乘子\(\lambda_k\)对应于每个模型的校准约束。
固定\(\theta\)、求解给定\(\theta\)下的最优权重与PS参数：对每个固定的\(\theta\)，EL的profile值可通过解出拉格朗日乘子与PS参数得到，并证明当\(\theta\)等于真值时，profile似然得以最大化。
利用一阶条件证明\(\theta\)的相合性：证明profile得分函数在真值处等于零，且导数的范数有界，从而M-估计标准论证适用。
渐近展开与方差计算：对估计方程进行Taylor展开，得到\(\hat{\theta} - \theta_0\)的线性表达，其影响函数恰好是单一正确PS模型下的最优影响函数，因此渐近有效。
处理多个错误模型：通过“模型冗余”对偶性，证明错误模型的乘子渐近收敛到零（在正确模型包含的情况下），因而它们不增加渐近方差。

关键跳跃点
- 跳跃点1：如何保证即使存在多个错误模型，EL的可行域非空且解可渐近达到？作者应用了均匀化技巧，先证明样本矩条件在真实\(\theta\)处以概率1收敛到零（对正确模型），再利用隐函数定理证明存在局部极值点。
- 跳跃点2：多个PS模型的参数如何同时估计而不导致识别不足？通过设定每个模型有其独立的参数，但EL中的目标函数对参数\(\boldsymbol{\alpha}_k\)只通过\(\pi_k\)出现，故可将每个模型视为独立的矩条件参数。只要候选模型及参数维数之和不超过观测信息量（即\(\sum \text{dim}(\boldsymbol{\alpha}_k) < n\)），整体可识别。

技术技巧
- 经验似然（EL）的全部经典工具：对偶表示、鞍点计算、Bartlett纠正等。
- 高阶U-统计量：在方差估计中出现，但本文不是核心。
- 剖面似然（Profile Empirical Likelihood）：用于消除PS参数，建立仅关于\(\theta\)的轮廓似然比统计量。
- 秩条件与线性代数：证明乘子\(\lambda_k\)渐近行为需用到Huber–Eicker–White类的稳健方差估计。

真实例子与应用¶

数据：NHANES 2001-2006身体脂肪百分比数据。目标：估计体脂肪率的总体均值。
应用：Y是体脂肪百分比，X包括年龄、性别、BMI等。响应变量（R）为是否参与身体脂肪测量（采血/扫描）。存在大量非响应，且缺失可能不是随机的（例如高BMI者更可能不配合）。
方法实施：作者构建多个候选PS模型：逻辑回归包含不同交互作用项、常数模型、以及某种半参数形式。应用多重偏倚校准估计\(\theta\)。
结果：估计值与传统IPW及单一模型校准差异不大，但置信区间更短（更有效率）。与El的双臂比较表明，多重校准对模型选择不敏感。
例子说明：本文想展示所提方法不需要用户费力筛选正确的PS模型，且在实际数据中表现出良好的稳定性和效率。

🔎 结论是否比证明窄¶

摘要及理论部分明确假设“候选模型中包含真实模型”且“期望等于真实缺失率”。然而在真实例子中，这个假设无法验证。作者在正文中可能讨论了敏感度分析或宽松条件，但结论的限制已由这个假设完全框定。若真实PS不在候选集内，一致性不再保证。此外，论文对NINR情形的处理依赖于真实PS仅依赖于X（即MAR-like），所以“nonignorable”一词可能被弱化为“依赖可观测协变量但形态未知”，而非真正的依赖于未观测Y。若读者期望处理依赖于Y的非随机缺失，需要额外工具变量或proximal框架。这一隐含假设值得研究者核实论文具体术语定义。

四、开放问题（扎根具体语句）¶

选择候选模型的准则与覆盖率验证：本文未讨论如何确定候选模型集合足够大以包含真实模型。如果真实模型形式复杂且不可由低维参数模型逼近，则结论失效。对于实际应用，如何基于数据诊断候选集？这一缺口在摘要或实例中没有触及，属于未来工作方向。
高维协变量扩展：论文所有推导假设PS模型参数维数固定。当X高维（如\(p > n\)）时，模型选择或正则化下的多重校准如何实施？这需要与惩罚似然或交叉拟合结合。如果研究者有高维统计背景，这是一个自然的延伸。
单调性假设的放松：缺失机制被假定为随机缺失（条件于X），但原文声称处理nonignorable。若缺失确实依赖于未观测的Y，则需要更强的识别条件（如工具变量设定）。本文的框架能否与proximal causal inference中的负控制结合，将候选模型替换为代理变量构造的识别函数？这是与您自身因果推断兴趣最直接的交汇点。
计算性能与秩条件：多个模型同时引入后，拉格朗日乘子数目随K增加，低效组合可能导致计算不稳定。作者是否给出可操作的计算程序（如信赖域优化）？这在摘要中未提及，需要考察正文。

Maintained by 陈星宇 · Homepage · Source on GitHub