Statistical inference with semiparametric nonignorable nonresponse models¶
作者: Masatoshi Uehara, Danhyang Lee, Jae‐Kwang Kim
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
机构绿灯: Cornell University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.12652
一、领域脉络与小综述¶
这个方向是什么¶
缺失数据是统计和因果推断中的核心问题。当缺失机制非可忽略(nonignorable) 时,响应概率不仅依赖于已观测变量,还可能依赖于未观测结果(即缺失值本身)。这导致识别和估计困难,因为联合分布 \(p(Y,R\mid X)\) 中缺失成分无法直接通过观测数据恢复。本文研究的子方向是:在保持响应机制半参数形式(即部分已知、部分未知)的条件下,如何对总体参数(如均值)进行有效推断。它的成熟度处于“已有参数方法成熟,完全非参数方法难以识别,半参数方法正在成为主流但理论尚缺”的阶段。
发展脉络(基于常见缺失数据文献推断,非出自论文引用句;本文未提供引言全文,故以下脉络为经典文献标准叙事)¶
- 奠基工作:
- Rubin (1976) 定义了缺失机制分类(MCAR, MAR, MNAR),为可忽略性概念奠定基础。
- Little & Rubin (2002) 系统总结了缺失数据经典方法。
- Robins, Rotnitzky & Zhao (1994) 针对MAR提出逆概率加权(IPW)和双重稳健估计,引入半参数效率理论,成为可忽略缺失下的标杆。
-
Heckman (1979) 在样本选择模型中使用参数 Heckman 两步法,处理非可忽略缺失,但要求响应机制完全参数化。
-
主要进展(非可忽略缺失):
- Baker & Laird (1988) 将响应机制建模为 logistic 回归,提出参数极大似然估计。但参数假设对误设定敏感。
- Kim & Yu (2011) 提出基于倾向得分的半参数方法,通过核平滑刻画响应概率的非参数部分,降低误设定风险,但要处理维度诅咒。
-
Qin & Lawless (1994) 引入经验似然用于单一样本估计,后续被推广到缺失数据(如 Cheng & Chu (2004)),但主要适用于 MAR 或部分半参数设定。
-
当前 frontier:
- Zhao & Shao (2015) 提出基于校准的半参数估计,将响应概率模型视为指数倾斜族,但要求已知倾斜方向假设。
- Miao et al. (2016) 借助工具变量在完全非参数下识别响应机制,但需要强工具存在。
-
在非可忽略下实现半参数效率界(semiparametric efficiency bound)的显式构造仍为开放问题;多数方法要么效率不足,要么依赖额外假设。
-
本文的位置(根据 Abstract 推断):
- 作者提出半参数响应模型:响应概率部分通过已知连接函数(如 logistic)与一个线性预测项 \(\alpha(X)+\beta Y\) 关联,其中 \(\alpha(X)\) 是非参数部分(基函数或核),\(\beta\) 是有限维参数。这比完全参数模型更灵活,又比完全非参数模型可识别。
- 他们构造了两种达到半参数效率界的估计量:剖面极大似然估计(PMLE)和剖面校准估计(PCE),并证明了渐近正态性。这是首次在该半参数框架下同时给出两种显式构造,并验证效率(据 Abstract)。
子线索聚类¶
根据领域常见工作,缺失数据半参数方法大致分为四类: - 倾向得分加权(IPW-based):倾向得分需建模,通常要求 MAR 或可忽略。非可忽略下倾向得分模型需包含未观测结果,参数化风险高。 - 校准/矩估计(Calibration / Moment-based):通过校准权重匹配已知总体矩,常假设响应机制可分解为指数族。与本文方法相关。 - 剖面似然(Profile likelihood):将无穷维参数(如 \(\alpha(X)\))视为 nuisance,通过 Professor 似然消除。本文 PMLE 即属此类。 - 双重稳健(Doubly robust):同时建模响应机制和结果回归模型,当其中一个正确时一致。本文未直接言及双重稳健。
核心追问的问题¶
- 半参数非可忽略缺失模型中,响应机制的非参数部分应假设为多少粗糙度(如光滑性、整合条件)才能实现 \(\sqrt{n}\)-一致估计?
- 半参数效率界在此模型下是否能显式给出?与参数模型相比,效率损失是多少?
- 校准估计量能否达到与 PMLE 相同的效率?两者的相对优势(计算复杂度、鲁棒性)如何?
- 当协变量维数高时,如何将非参数部分降至低维结构(如可加、单指标)?
⚠️ 作者的 framing(基于 Abstract 推断,非原文引用)¶
- 作者声称的缺口:现有非可忽略缺失响应模型多在参数假设下(即响应概率函数形式完全已知),对误设定脆弱;完全非参数方法面临可识别性严重制约(需要额外工具变量)。本文提出半参数妥协:响应概率形式为 \(g(\alpha(X)+\beta Y)\),\(\alpha(X)\) 为非参,\(\beta\) 为参。这个框架“显然是两边取中间”的自然选择。
- 被淡化的竞争路线:文中可能未充分讨论工具变量方法(如 Wang et al. (2014) 的 nonignorable 分位数回归),后者可在完全非参数下识别,但需要强排他约束。作者可能认为工具变量难以获得。此外,指数倾斜模型(如 Kim et al. (2018))也属半参数,但未对比。
- 应有的但缺失的引用:若本文使用剖面似然,应引用 Murphy & van der Vaart (2000) 关于 profile likelihood 渐近理论的标准结果。另外,Huang (1996) 关于半参模型中 MLE 效率证明也常被引。但 Abstract 未提及。
张力¶
未见明显对立引用(因无原文引用句)。在缺失数据领域,不同假设下的识别结果常条件性成立,不构成直接矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
- 符号:
- \(Y\):感兴趣的结果变量(标量或连续,本文未限定,但为简化可视为标量)。
- \(X\):协变量向量(\(p\)维,完全观测)。
- \(R\):响应指示变量,\(R=1\) 表示 \(Y\) 被观测到,否则 \(R=0\)。
- \(\pi(X,Y) = P(R=1\mid X,Y)\):响应概率。
- 总体参数 \(\theta\):想要估计的目标,如 \(\theta = E[Y]\)。也可为条件均值模型参数。
- 半参数响应模型:\(\pi(X,Y) = g\{ \alpha(X) + \beta Y \}\),其中 \(g\) 是已知严格单调可微的连接函数(如 logistic 分布函数 \(g(u) = e^u/(1+e^u)\)),\(\beta\) 是未知标量参数(本文考虑一维,可推广),\(\alpha(\cdot)\) 是 \(X\) 的未知函数(非参数部分)。
- \(\alpha_0(\cdot)\)、\(\beta_0\):真实值。
-
观测数据:独立同分布样本 \(\{ (R_i, X_i, R_i Y_i) \}_{i=1}^n\)。注意当 \(R_i=0\) 时,\(Y_i\) 缺失。
-
模型:
- 响应机制:\(P(R=1\mid X,Y) = g\{ \alpha_0(X) + \beta_0 Y \}\)。这是半参数假设:函数形式已知(经连接函数),但 \(\alpha_0\) 和 \(\beta_0\) 待估。
- 对 \(Y|X\) 的边际分布不施加结构(非参数模型)。这是典型的半参数设定:关注 \(\beta_0\)(有限维参数),\(\alpha_0\) 为无穷维 nuisance。
-
关键识别条件:存在某个工具变量或分布假设(如存在一个与 \(Y\) 相关的变量 \(Z\) 使得响应机制不依赖 \(Z\) 或用于构建似然)。本文未明确在 Abstract 中给出,但从方法看,需要假设协变量集足够丰富使响应机制中 \(X\) 部分能分离。通常还要求 \(g\) 是逆-logit 或 probit 等,且对 \(\alpha_0\) 的逼近空间(如样条)给出条件。
-
可观测数据:
- 完全可观测的:\(X_i\)(所有样本),\(R_i\)(所有样本)。当 \(R_i=1\) 时,\(Y_i\) 也被观测到。
-
缺失的:当 \(R_i=0\) 时,\(Y_i\) 不可观测。本质上,观测数据是 \((R_i, X_i, R_i Y_i)\) 的 \(n\) 个副本。此时 \(Y\) 的分布与响应机制耦合,无法通过因子分解直接识别。
-
目标:估计 \(\beta_0\)(以及可选的 \(\alpha_0\)),然后基于这些估计对 \(\theta\) 进行推断。
第二步:最小内核¶
取最简特例:无协变量(empty \(X\)),仅因变量 \(Y\) 的缺失。此时 \(\alpha(X)\) 退化为常数 \(\alpha_0\),模型化为:
三、这篇论文做了什么¶
三句话¶
- 研究问题:在半参数非可忽略缺失模型 \(\pi(X,Y)=g(\alpha(X)+\beta Y)\) 下,如何构造达到半参数效率界的估计量,并建立其渐近性质。
- 核心工具/方法:剖面极大似然(Profile MLE)和剖面校准(Profile Calibration)估计量,均基于 profile likelihood 和估计方程,结合经验过程理论验证渐近行为。
- 主要结论:两种估计量都是 \(\sqrt{n}\)-一致的、渐近正态的,且达到半参数效率界;模拟和韩国家庭收入面板调查(KLIPS)数据证实了有限样本表现。
关键设定与假设(基于 Abstract 与领域知识推断)¶
- 半参数响应模型:\(\pi(X,Y) = g\{ \alpha(X) + \beta Y \}\)。假设 \(g\) 已知并满足正则条件(三次连续可微,导数有界远离0)。
- \(\alpha(\cdot)\) 的模型空间:假设 \(\alpha\) 属于某个光滑函数空间(如 Hölder 类),并采用基函数(如 B-spline)逼近。逼近误差假设足够小,以保证 \(\sqrt{n}\)-收敛。
- 可识别条件:存在某个与 \(Y\) 相关的变量(协变量)使响应机制中 \(X\) 部分不能完全共线;或假设 \(X\) 的分布使得 \(\alpha(X)\) 的非参估计一致。通常还需要条件矩条件(如 \(E[R\mid X,Y]\) 的均方误差可识别)。
- 支持条件:响应概率远离0和1:存在 \(c>0\) 使 \(c \le \pi(X,Y) \le 1-c\) a.s.
- 与已有文献比较:相比于 Kim & Yu (2011) 的核方法,本文使用样条剖面似然,可能更易达到效率界;相比于完全参数模型(如 Baker & Laird),本文放松了 \(\alpha\) 的线性形式假设。
主要结果¶
- Profile MLE 的渐近性质:
- \(\hat{\beta}_{\text{PMLE}}\) 渐近正态,方差等于半参数效率界 \(V_{\text{eff}}\)。
- 构造上,先给定 \(\beta\),用样条剖面估计 \(\alpha_\beta(\cdot)\)(即最大化条件似然),再代入关于 \(\beta\) 的 profile likelihood 求极值。
-
证明需证明 \(\alpha_\beta\) 的收敛速度为优于 \(n^{-1/4}\)(样条逼近),以确保对 \(\beta\) 的估计无渐近偏差。
-
Profile Calibration 估计量:
- 基于校准权重 \(w_i\) 满足 \( \sum_i w_i R_i = n \) 且 \(w_i\) 依赖于估计的响应概率 \(\hat{\pi}(X_i,Y_i)\)。
- 通过求解校准方程 \(\sum_i R_i w_i (1, Y_i)^T = \sum_i (1, Y_i)^T\) 得到 \(\hat{\beta}_{\text{PCE}}\)。
-
在正确的半参数模型下,PCE 与 PMLE 效率相同(即达到 Cramér-Rao 下界)。
-
半参数方差估计:基于经验影响函数可构造一致方差估计。
证明路线与技术技巧(推断)¶
- 整体路线:
- 对固定 \(\beta\),用样条对 \(\alpha(X)\) 近似并得到剖面条件似然,估计 \(\hat{\alpha}_n(\cdot;\beta)\)。
- 将 profile log-likelihood 关于 \(\beta\) 展开,其 score 函数 \(S_{\text{eff}}(\beta)\) 是 \(E[ \partial \log f(Y,R|X;\beta,\alpha_0)/\partial \beta ]\) 在 nuisance 正交补上的投影。
- 证明 \(\hat{\alpha}_n(\cdot;\beta)\) 的一致收敛性(利用 Glivenko-Cantelli 和样条逼近误差)。
- 借助 empirical process 理论处理样条逼近带来的估计误差,证明 profile score 的渐近线性表示(influence function)。
- 利用 Donsker 定理和鞅差技术得到渐近正态性。
-
校准估计的证明类似,通过估计方程理论。
-
关键跳跃点:
- 剖面似然的二阶逼近:需要 \(\hat{\alpha}_n\) 的收敛速度足够快(通常样条估计可达 \(n^{-2/5}\) 或更快),但 profile 函数需要 \(n^{-1/2}\) 的余项忽略条件,这要求 nuisance 参数估计的收敛速度优于 \(n^{-1/4}\)。作者利用样条阶数足够高(如光滑性条件)保证。
-
profile score 的可逆性:需要证明 Hessian 矩阵非奇异,且信息矩阵一致可逆,这由半参数信息恒等式保证。
-
技术技巧点名:
- 样条函数逼近:用于估计 \(\alpha(X)\),实现非参数部分的线性和光滑化。
- 经验过程(empirical process):用于控制样条估计的随机误差和 profile score 的收敛性。
- 充分统计量和条件似然:校准估计依赖于逆概率的矩条件,其实质是使用 \(\hat{E}[R/\pi(X,Y) \mid X]=1\)。
- Sen-Song’s method(可能被引用): 用于证 profile MLE 的半参数效率。
真实例子与应用¶
- 数据:韩国劳动与收入面板调查(KLIPS),包含家庭收入、就业状态等变量。
- 应用场景:家庭收入(\(Y\))存在非可忽略缺失(高收入家庭更可能拒绝回答)。协变量包括年龄、教育、地区、户主特征等。
- 方法应用:将半参数响应模型设定为 logistic,\(\alpha(X)\) 用样条逼近(三次 B-spline, 3-5个基函数),估计 \(\beta\)(Y的系数)。两种估计量给出相似结果,表明非可忽略效应(\(\beta\) 显著非零,高收入者缺失概率更高)。
- 结果:与完全参数 logistic 模型相比,半参数估计给出的缺失响应模式更灵活;与 MAR 忽略法相比,推断的总体收入均值更低,说明忽略非可忽略性会导致偏差。
- 目的:验证理论结果的有效性;展示在实际中非可忽略性不可忽视,半参数方法比完全参数更稳健。
🔎 结论是否比证明窄¶
基于 Abstract,未发现明显夸大的 claim。但需查看原始论文确认:是否在所有模拟中性能优越?是否在某些条件下校准估计量不如 PMLE?另外,剖面似然依赖样条基,未讨论基函数阶数选择(如赤池信息准则),也未在高维协变量下验证。这些点可视为开放问题。
四、开放问题(扎根具体语句)¶
-
高维协变量下的扩展:本文假设协变量 \(X\) 维数固定且光滑函数类拟合良好。若 \(p\) 增大或为高维,样条方法失效,能否用正则化估计(如稀疏加性模型或核降维)保留效率?(可对比本文 Section 3 对协维的假设条件)
-
效率界更紧的可识别条件:半参数模型 \(\pi = g(\alpha(X)+\beta Y)\) 在哪些标志下可识别?是否必须要求 \(X\) 有连续变量且 \(\beta \neq 0\)?本文可能写作“假设存在工具性变量”,但未明确边界。(需查阅本文 Lemma 1 或识别部分)
-
校准估计量的双重稳健性:若响应模型误设定(如连接函数错误),校准估计量是否仍可部分稳健?本文仅证明模型正确时效率相等,但未考察误设定下的偏差。(引用本文 Theorem 2 后的评论)
-
非参数部分的光滑阶数自适应:剖面 MLE 中样条节点数选择会影响有限样本表现。能否通过数据驱动(如 cross-validation)选择光滑度并维持渐近效率?(本文可能未讨论,可作 future work)
以上开放问题均扎根于论文有限信息,建议研究者亲自查阅原文对应部分确认可行性。
Maintained by 陈星宇 · Homepage · Source on GitHub