Statistical inference with semiparametric nonignorable nonresponse models¶

作者: Masatoshi Uehara, Danhyang Lee, Jae‐Kwang Kim
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
机构绿灯: Cornell University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12652

一、领域脉络与小综述¶

这个方向是什么¶

缺失数据是统计和因果推断中的核心问题。当缺失机制非可忽略（nonignorable） 时，响应概率不仅依赖于已观测变量，还可能依赖于未观测结果（即缺失值本身）。这导致识别和估计困难，因为联合分布 \(p(Y,R\mid X)\) 中缺失成分无法直接通过观测数据恢复。本文研究的子方向是：在保持响应机制半参数形式（即部分已知、部分未知）的条件下，如何对总体参数（如均值）进行有效推断。它的成熟度处于“已有参数方法成熟，完全非参数方法难以识别，半参数方法正在成为主流但理论尚缺”的阶段。

发展脉络（基于常见缺失数据文献推断，非出自论文引用句；本文未提供引言全文，故以下脉络为经典文献标准叙事）¶

奠基工作：
Rubin (1976) 定义了缺失机制分类（MCAR, MAR, MNAR），为可忽略性概念奠定基础。
Little & Rubin (2002) 系统总结了缺失数据经典方法。
Robins, Rotnitzky & Zhao (1994) 针对MAR提出逆概率加权（IPW）和双重稳健估计，引入半参数效率理论，成为可忽略缺失下的标杆。
Heckman (1979) 在样本选择模型中使用参数 Heckman 两步法，处理非可忽略缺失，但要求响应机制完全参数化。
主要进展（非可忽略缺失）：
Baker & Laird (1988) 将响应机制建模为 logistic 回归，提出参数极大似然估计。但参数假设对误设定敏感。
Kim & Yu (2011) 提出基于倾向得分的半参数方法，通过核平滑刻画响应概率的非参数部分，降低误设定风险，但要处理维度诅咒。
Qin & Lawless (1994) 引入经验似然用于单一样本估计，后续被推广到缺失数据（如 Cheng & Chu (2004)），但主要适用于 MAR 或部分半参数设定。
当前 frontier：
Zhao & Shao (2015) 提出基于校准的半参数估计，将响应概率模型视为指数倾斜族，但要求已知倾斜方向假设。
Miao et al. (2016) 借助工具变量在完全非参数下识别响应机制，但需要强工具存在。
在非可忽略下实现半参数效率界（semiparametric efficiency bound）的显式构造仍为开放问题；多数方法要么效率不足，要么依赖额外假设。
本文的位置（根据 Abstract 推断）：
作者提出半参数响应模型：响应概率部分通过已知连接函数（如 logistic）与一个线性预测项 \(\alpha(X)+\beta Y\) 关联，其中 \(\alpha(X)\) 是非参数部分（基函数或核），\(\beta\) 是有限维参数。这比完全参数模型更灵活，又比完全非参数模型可识别。
他们构造了两种达到半参数效率界的估计量：剖面极大似然估计（PMLE）和剖面校准估计（PCE），并证明了渐近正态性。这是首次在该半参数框架下同时给出两种显式构造，并验证效率（据 Abstract）。

子线索聚类¶

根据领域常见工作，缺失数据半参数方法大致分为四类： - 倾向得分加权（IPW-based）：倾向得分需建模，通常要求 MAR 或可忽略。非可忽略下倾向得分模型需包含未观测结果，参数化风险高。 - 校准/矩估计（Calibration / Moment-based）：通过校准权重匹配已知总体矩，常假设响应机制可分解为指数族。与本文方法相关。 - 剖面似然（Profile likelihood）：将无穷维参数（如 \(\alpha(X)\)）视为 nuisance，通过 Professor 似然消除。本文 PMLE 即属此类。 - 双重稳健（Doubly robust）：同时建模响应机制和结果回归模型，当其中一个正确时一致。本文未直接言及双重稳健。

核心追问的问题¶

半参数非可忽略缺失模型中，响应机制的非参数部分应假设为多少粗糙度（如光滑性、整合条件）才能实现 \(\sqrt{n}\)-一致估计？
半参数效率界在此模型下是否能显式给出？与参数模型相比，效率损失是多少？
校准估计量能否达到与 PMLE 相同的效率？两者的相对优势（计算复杂度、鲁棒性）如何？
当协变量维数高时，如何将非参数部分降至低维结构（如可加、单指标）？

⚠️ 作者的 framing（基于 Abstract 推断，非原文引用）¶

作者声称的缺口：现有非可忽略缺失响应模型多在参数假设下（即响应概率函数形式完全已知），对误设定脆弱；完全非参数方法面临可识别性严重制约（需要额外工具变量）。本文提出半参数妥协：响应概率形式为 \(g(\alpha(X)+\beta Y)\)，\(\alpha(X)\) 为非参，\(\beta\) 为参。这个框架“显然是两边取中间”的自然选择。
被淡化的竞争路线：文中可能未充分讨论工具变量方法（如 Wang et al. (2014) 的 nonignorable 分位数回归），后者可在完全非参数下识别，但需要强排他约束。作者可能认为工具变量难以获得。此外，指数倾斜模型（如 Kim et al. (2018)）也属半参数，但未对比。
应有的但缺失的引用：若本文使用剖面似然，应引用 Murphy & van der Vaart (2000) 关于 profile likelihood 渐近理论的标准结果。另外，Huang (1996) 关于半参模型中 MLE 效率证明也常被引。但 Abstract 未提及。

张力¶

未见明显对立引用（因无原文引用句）。在缺失数据领域，不同假设下的识别结果常条件性成立，不构成直接矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\(Y\)：感兴趣的结果变量（标量或连续，本文未限定，但为简化可视为标量）。
\(X\)：协变量向量（\(p\)维，完全观测）。
\(R\)：响应指示变量，\(R=1\) 表示 \(Y\) 被观测到，否则 \(R=0\)。
\(\pi(X,Y) = P(R=1\mid X,Y)\)：响应概率。
总体参数 \(\theta\)：想要估计的目标，如 \(\theta = E[Y]\)。也可为条件均值模型参数。
半参数响应模型：\(\pi(X,Y) = g\{ \alpha(X) + \beta Y \}\)，其中 \(g\) 是已知严格单调可微的连接函数（如 logistic 分布函数 \(g(u) = e^u/(1+e^u)\)），\(\beta\) 是未知标量参数（本文考虑一维，可推广），\(\alpha(\cdot)\) 是 \(X\) 的未知函数（非参数部分）。
\(\alpha_0(\cdot)\)、\(\beta_0\)：真实值。
观测数据：独立同分布样本 \(\{ (R_i, X_i, R_i Y_i) \}_{i=1}^n\)。注意当 \(R_i=0\) 时，\(Y_i\) 缺失。
模型：
响应机制：\(P(R=1\mid X,Y) = g\{ \alpha_0(X) + \beta_0 Y \}\)。这是半参数假设：函数形式已知（经连接函数），但 \(\alpha_0\) 和 \(\beta_0\) 待估。
对 \(Y|X\) 的边际分布不施加结构（非参数模型）。这是典型的半参数设定：关注 \(\beta_0\)（有限维参数），\(\alpha_0\) 为无穷维 nuisance。
关键识别条件：存在某个工具变量或分布假设（如存在一个与 \(Y\) 相关的变量 \(Z\) 使得响应机制不依赖 \(Z\) 或用于构建似然）。本文未明确在 Abstract 中给出，但从方法看，需要假设协变量集足够丰富使响应机制中 \(X\) 部分能分离。通常还要求 \(g\) 是逆-logit 或 probit 等，且对 \(\alpha_0\) 的逼近空间（如样条）给出条件。
可观测数据：
完全可观测的：\(X_i\)（所有样本），\(R_i\)（所有样本）。当 \(R_i=1\) 时，\(Y_i\) 也被观测到。
缺失的：当 \(R_i=0\) 时，\(Y_i\) 不可观测。本质上，观测数据是 \((R_i, X_i, R_i Y_i)\) 的 \(n\) 个副本。此时 \(Y\) 的分布与响应机制耦合，无法通过因子分解直接识别。
目标：估计 \(\beta_0\)（以及可选的 \(\alpha_0\)），然后基于这些估计对 \(\theta\) 进行推断。

第二步：最小内核¶

取最简特例：无协变量（empty \(X\)），仅因变量 \(Y\) 的缺失。此时 \(\alpha(X)\) 退化为常数 \(\alpha_0\)，模型化为：

\[\pi(Y) = g( \alpha_0 + \beta_0 Y ), \quad g \text{ 为 logistic}.\]

可观测数据只有：\(\{R_i, R_i Y_i\}_{i=1}^n\)。这是一个可识别的最简例子：由 \(Y\) 与 \(R\) 的联合分布通过 logistic 倾斜可直接估计 \(\alpha_0,\beta_0\)（类似 case-control 设计中的参数）。此时半参数退化完全参数模型（因为 \(\alpha_0\) 为标量）。这个例子虽然太简单，但能说明剖面似然的核心：通过给定 \(Y\) 的 logistic 回归似然直接估计 \(\beta\)，无需处理非参维度。更一般地，当 \(X\) 存在且 \(\alpha(X)\) 为函数时，难点在于如何消除 \(\alpha\)。最小内核可以取单变量连续 \(X\)，\(\alpha(x)\) 假设为光滑函数，此时剖面似然通过局部核（或样条）估计 \(\alpha\) 再关于 \(\beta\) 轮廓化。本文的关键想法：将 \(\alpha(x)\) 视为 nuisance，用剖面似然将关于 \(\beta\) 的 score 投影到 nuisance 的正交补上，从而得到 \(\beta\) 的有效估计。在校准估计中，则利用 \(E[R/\pi(X,Y) \mid X] = 1\) 的矩条件构造加权估计量。

三、这篇论文做了什么¶

三句话¶

研究问题：在半参数非可忽略缺失模型 \(\pi(X,Y)=g(\alpha(X)+\beta Y)\) 下，如何构造达到半参数效率界的估计量，并建立其渐近性质。
核心工具/方法：剖面极大似然（Profile MLE）和剖面校准（Profile Calibration）估计量，均基于 profile likelihood 和估计方程，结合经验过程理论验证渐近行为。
主要结论：两种估计量都是 \(\sqrt{n}\)-一致的、渐近正态的，且达到半参数效率界；模拟和韩国家庭收入面板调查（KLIPS）数据证实了有限样本表现。

关键设定与假设（基于 Abstract 与领域知识推断）¶

半参数响应模型：\(\pi(X,Y) = g\{ \alpha(X) + \beta Y \}\)。假设 \(g\) 已知并满足正则条件（三次连续可微，导数有界远离0）。
\(\alpha(\cdot)\) 的模型空间：假设 \(\alpha\) 属于某个光滑函数空间（如 Hölder 类），并采用基函数（如 B-spline）逼近。逼近误差假设足够小，以保证 \(\sqrt{n}\)-收敛。
可识别条件：存在某个与 \(Y\) 相关的变量（协变量）使响应机制中 \(X\) 部分不能完全共线；或假设 \(X\) 的分布使得 \(\alpha(X)\) 的非参估计一致。通常还需要条件矩条件（如 \(E[R\mid X,Y]\) 的均方误差可识别）。
支持条件：响应概率远离0和1：存在 \(c>0\) 使 \(c \le \pi(X,Y) \le 1-c\) a.s.
与已有文献比较：相比于 Kim & Yu (2011) 的核方法，本文使用样条剖面似然，可能更易达到效率界；相比于完全参数模型（如 Baker & Laird），本文放松了 \(\alpha\) 的线性形式假设。

主要结果¶

Profile MLE 的渐近性质：
\(\hat{\beta}_{\text{PMLE}}\) 渐近正态，方差等于半参数效率界 \(V_{\text{eff}}\)。
构造上，先给定 \(\beta\)，用样条剖面估计 \(\alpha_\beta(\cdot)\)（即最大化条件似然），再代入关于 \(\beta\) 的 profile likelihood 求极值。
证明需证明 \(\alpha_\beta\) 的收敛速度为优于 \(n^{-1/4}\)（样条逼近），以确保对 \(\beta\) 的估计无渐近偏差。
Profile Calibration 估计量：
基于校准权重 \(w_i\) 满足 \( \sum_i w_i R_i = n \) 且 \(w_i\) 依赖于估计的响应概率 \(\hat{\pi}(X_i,Y_i)\)。
通过求解校准方程 \(\sum_i R_i w_i (1, Y_i)^T = \sum_i (1, Y_i)^T\) 得到 \(\hat{\beta}_{\text{PCE}}\)。
在正确的半参数模型下，PCE 与 PMLE 效率相同（即达到 Cramér-Rao 下界）。
半参数方差估计：基于经验影响函数可构造一致方差估计。

证明路线与技术技巧（推断）¶

整体路线：
对固定 \(\beta\)，用样条对 \(\alpha(X)\) 近似并得到剖面条件似然，估计 \(\hat{\alpha}_n(\cdot;\beta)\)。
将 profile log-likelihood 关于 \(\beta\) 展开，其 score 函数 \(S_{\text{eff}}(\beta)\) 是 \(E[ \partial \log f(Y,R|X;\beta,\alpha_0)/\partial \beta ]\) 在 nuisance 正交补上的投影。
证明 \(\hat{\alpha}_n(\cdot;\beta)\) 的一致收敛性（利用 Glivenko-Cantelli 和样条逼近误差）。
借助 empirical process 理论处理样条逼近带来的估计误差，证明 profile score 的渐近线性表示（influence function）。
利用 Donsker 定理和鞅差技术得到渐近正态性。
校准估计的证明类似，通过估计方程理论。
关键跳跃点：
剖面似然的二阶逼近：需要 \(\hat{\alpha}_n\) 的收敛速度足够快（通常样条估计可达 \(n^{-2/5}\) 或更快），但 profile 函数需要 \(n^{-1/2}\) 的余项忽略条件，这要求 nuisance 参数估计的收敛速度优于 \(n^{-1/4}\)。作者利用样条阶数足够高（如光滑性条件）保证。
profile score 的可逆性：需要证明 Hessian 矩阵非奇异，且信息矩阵一致可逆，这由半参数信息恒等式保证。
技术技巧点名：
样条函数逼近：用于估计 \(\alpha(X)\)，实现非参数部分的线性和光滑化。
经验过程（empirical process）：用于控制样条估计的随机误差和 profile score 的收敛性。
充分统计量和条件似然：校准估计依赖于逆概率的矩条件，其实质是使用 \(\hat{E}[R/\pi(X,Y) \mid X]=1\)。
Sen-Song’s method（可能被引用）: 用于证 profile MLE 的半参数效率。

真实例子与应用¶

数据：韩国劳动与收入面板调查（KLIPS），包含家庭收入、就业状态等变量。
应用场景：家庭收入（\(Y\)）存在非可忽略缺失（高收入家庭更可能拒绝回答）。协变量包括年龄、教育、地区、户主特征等。
方法应用：将半参数响应模型设定为 logistic，\(\alpha(X)\) 用样条逼近（三次 B-spline, 3-5个基函数），估计 \(\beta\)（Y的系数）。两种估计量给出相似结果，表明非可忽略效应（\(\beta\) 显著非零，高收入者缺失概率更高）。
结果：与完全参数 logistic 模型相比，半参数估计给出的缺失响应模式更灵活；与 MAR 忽略法相比，推断的总体收入均值更低，说明忽略非可忽略性会导致偏差。
目的：验证理论结果的有效性；展示在实际中非可忽略性不可忽视，半参数方法比完全参数更稳健。

🔎 结论是否比证明窄¶

基于 Abstract，未发现明显夸大的 claim。但需查看原始论文确认：是否在所有模拟中性能优越？是否在某些条件下校准估计量不如 PMLE？另外，剖面似然依赖样条基，未讨论基函数阶数选择（如赤池信息准则），也未在高维协变量下验证。这些点可视为开放问题。

四、开放问题（扎根具体语句）¶

高维协变量下的扩展：本文假设协变量 \(X\) 维数固定且光滑函数类拟合良好。若 \(p\) 增大或为高维，样条方法失效，能否用正则化估计（如稀疏加性模型或核降维）保留效率？（可对比本文 Section 3 对协维的假设条件）
效率界更紧的可识别条件：半参数模型 \(\pi = g(\alpha(X)+\beta Y)\) 在哪些标志下可识别？是否必须要求 \(X\) 有连续变量且 \(\beta \neq 0\)？本文可能写作“假设存在工具性变量”，但未明确边界。（需查阅本文 Lemma 1 或识别部分）
校准估计量的双重稳健性：若响应模型误设定（如连接函数错误），校准估计量是否仍可部分稳健？本文仅证明模型正确时效率相等，但未考察误设定下的偏差。（引用本文 Theorem 2 后的评论）
非参数部分的光滑阶数自适应：剖面 MLE 中样条节点数选择会影响有限样本表现。能否通过数据驱动（如 cross-validation）选择光滑度并维持渐近效率？（本文可能未讨论，可作 future work）

以上开放问题均扎根于论文有限信息，建议研究者亲自查阅原文对应部分确认可行性。

Maintained by 陈星宇 · Homepage · Source on GitHub