A novel semiparametric approach to nonignorable missing data by catching covariate marginal information¶
作者: Manli Cheng, Yukun Liu, Jing Qin
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
链接: https://doi.org/10.1111/sjos.12767
一、领域脉络与小综述¶
这个方向是什么: 非可忽略缺失数据推断要解决的根本统计问题是:当响应变量 \(Y\) 的缺失指示 \(R\) 直接依赖于 \(Y\) 本身(即使控制了可观测协变量 \(X\) 后依然如此)时,缺失机制与结果变量纠缠导致参数不可识别;即便勉强识别,如何充分利用可观测协变量的边际分布信息以榨取最高估计效率。当前该子方向的成熟度处于"有条件识别已基本解决、半参数效率界与稳健估计仍在迭代"的阶段。
发展脉络: - 奠基工作:非可忽略缺失的识别困境最早由 Greenlees et al. (1982) 正式提出,他们尝试在参数模型下处理样本选择偏差,但留下口子:完全参数模型对误设极度敏感,且半参数设定下根本无法识别。 - 主要进展(识别突破):为了打破识别死局,两条主流路线出现。一是工具变量 / Shadow variable 路线(如 Wang et al. 2014, Zhao et al. 2019 引用句指出"require an extra variable that correlates with \(Y\) but is independent of \(R\)"),通过引入一个只影响 \(Y\) 不影响 \(R\) 的外部变量切断纠缠;二是非参数边界路线(如 Manski 1989, Horowitz & Manski 1998, Tang et al. 2017),承认不可识别,退而求其次给出参数的上下界。 - 当前 frontier(半参数效率与边际信息利用):在识别成立的前提下,如何达到半参数效率界成为焦点。经典方法如逆概率加权(IPW)或回归插补仅用条件分布,丢弃了 \(X\) 的边际信息。Chen & Qin (1993) 引入 density ratio model(DRM)以利用边际信息;Qin & Zhang (1997), Qin & Lawley (1994) 将 DRM 与经验似然(EL)结合提升效率。但它们均未触及非可忽略缺失设定。 - 本文的位置:本文将 DRM-EL 工具从可忽略缺失推至非可忽略缺失,用 SPLRM(半参数比例似然比模型)替代 IV/shadow variable 实现识别,并在识别情形下证明达到半参数效率界。
子线索聚类: 1. IV / Shadow variable 识别路线:依赖外部变量实现非可忽略缺失下的识别(Wang et al. 2014; Zhao et al. 2019; Miao & Tchetgen 2016)。这一簇在寻找合适的 shadow variable 上吃劲,且该变量在实务中常不存在。 2. 参数 / 半参数似然路线:在无 IV 时,通过强参数假设(如联合正态)或特定结构假设(如 propensity 与 outcome 的指数线性结构)实现识别(Greenlees 1982; Kim & Skinner 2013; Tang et al. 2017)。这一簇的瓶颈是参数误设导致估计严重偏差。 3. Density ratio model + Empirical likelihood 路线:在可忽略缺失或完全观测下,利用 \(X\) 的边际分布信息提升效率(Chen & Qin 1993; Qin & Lawley 1994)。这一簇此前未进入非可忽略缺失设定。
这个方向在追问的核心问题: 1. 无 IV/shadow variable 时,非可忽略缺失能否半参数识别?条件是什么?(当前主流认为必须引入外部变量,本文试图推翻这一共识的普遍性) 2. 识别成立后,如何同时利用条件分布与协变量边际分布达到半参数效率界?(IPW 等方法丢弃边际信息,已知有损效率) 3. 识别失败的例外情形下,协变量边际信息能否收紧边界或支撑 sensitivity analysis?(当前边界方法多用参数假设,较少利用半参数边际结构)
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为"Existing methods ... struggle to fully utilize covariate marginal information, leading to potential efficiency losses",并声称自己的 SPLRM "generally does not require instrumental variables or shadow variables, leading to improved identifiability in most scenarios"。这使得"用边际信息同时解决识别与效率"成为本文的显然下一步。 - 被淡化或回避的竞争路线:作者虽引用了 Tang et al. (2017) 等边界方法,但未深入讨论 SPLRM 识别条件(假设 3)失败时,其 sensitivity analysis 相比 Manski 型非参数边界的收紧程度到底有多大量化优势;也未与近期的 doubly robust / multiply robust 估计器(如 Miao & Tchetgen 2016 的 proximal causal 框架,在缺失数据下的对应物)在稳健性上做直接对比。 - 明显该被引却未出现的:半参数效率界的经典框架 Bickel et al. (1993) 或 Tsiatis (2006) 的缺失数据效率理论未在 intro 显式出场;近年在因果推断中用 negative control 替代 IV 的 proximal mediation / proximal missing data 工作(如 Tchetgen et al. 2020 系列)也未出现——这两簇是本文"无 IV 识别"声称的直接竞争者,值得研究者去查。
张力: 未见明显对立引用。但存在隐性张力:本文声称"大多数情形下无需 IV 即可识别",而 IV / shadow variable 路线的文献(如 Zhao et al. 2019)明确断言"非可忽略缺失若无外部变量辅助,识别需依赖极强的参数结构假设"。本文的 SPLRM 正是一种特定的半参数结构假设,两者对"什么是可接受的识别假设"的判断标准不同。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / estimand:\(\theta\) —— 目标参数,通常是响应变量 \(Y\) 的均值 \(\mu = E(Y)\) 或其分布参数;\(\beta\) —— 倾向得分模型的参数;\(\alpha\) —— SPLRM(半参数比例似然比模型)的参数。
- 随机变量 / 样本:\(X \in \mathbb{R}^p\) —— 协变量;\(Y \in \mathbb{R}\) —— 响应变量;\(R \in \{0, 1\}\) —— 缺失指示(\(R=1\) 表示 \(Y\) 被观测)。样本量为 \(n\),\((X_i, Y_i, R_i)\) 为 IID 抽取。
- 维数 / 样本量等指标:\(p\) 为协变量维数(本文理论部分固定 \(p\),\(n \to \infty\));\(n_1 = \sum R_i\) 为完全观测样本量,\(n_0 = n - n_1\) 为缺失样本量。
- 潜在 / 不可观测量:当 \(R_i = 0\) 时,\(Y_i\) 不可观测;倾向得分 \(\pi(X, Y) = P(R=1 | X, Y)\) 依赖于不可观测的 \(Y\),这是非可忽略缺失的根源。
模型: 1. 倾向得分模型:\(\pi(X, Y) = \frac{\exp(\beta_0 + \beta_1^T X + \beta_2 Y)}{1 + \exp(\beta_0 + \beta_1^T X + \beta_2 Y)}\),即 logistic 形式,\(\beta_2 \neq 0\) 表征非可忽略性。 2. 半参数比例似然比模型(SPLRM):\(f(y|X) = \exp(\alpha_0 + \alpha_1^T X + \alpha_2 Y) f_0(y)\),其中 \(f_0(y)\) 是完全未知的基准密度(半参数性体现于此),\(\exp(\alpha_0 + \alpha_1^T X + \alpha_2 Y)\) 是指数倾斜函数。 3. 协变量边际分布:\(X\) 的边际密度 \(g(X)\) 完全未知,但可被完全观测到。
可观测数据: - 研究者实际能观测到的是:对于所有 \(n\) 个个体,协变量 \(X_i\) 总是可见的;对于 \(R_i=1\) 的子集(大小 \(n_1\)),\((X_i, Y_i)\) 可见;对于 \(R_i=0\) 的子集(大小 \(n_0\)),只有 \(X_i\) 可见,\(Y_i\) 是想要但观测不到的。 - 识别的关键:虽然 \(Y\) 在 \(R=0\) 时不可观测,但 \(X\) 的完全观测性使得 \(g(X)\) 的经验分布可用,这为打破"缺失机制与 \(Y\) 纠缠"的识别死局提供了杠杆。
第二步:最小内核
剥掉所有一般性技术假设,支撑整篇论文的最小内核是:在 logistic propensity 与 exponential tilting 的双重线性结构下,仅凭可观测的 \(X\) 边际分布即可实现 \(\theta\) 的识别,并通过 DRM-EL 达到半参数效率界。
最简特例(\(p=1\), \(X\) 与 \(Y\) 均为连续): 设 \(X\) 为一维协变量,倾向得分 \(\pi(X, Y) = \exp(\beta_0 + \beta_1 X + \beta_2 Y) / (1 + \exp(...))\),条件密度 \(f(Y|X) = \exp(\alpha_0 + \alpha_1 X + \alpha_2 Y) f_0(Y)\)。
识别逻辑的最简走法: 1. 由贝叶斯法则,完全观测子集的联合密度为:\(P(X, Y | R=1) = \frac{\pi(X, Y) f(Y|X) g(X)}{P(R=1)}\)。 2. 将 \(\pi\) 与 \(f(Y|X)\) 的具体形式代入,指数项合并:\(\exp((\beta_0+\alpha_0) + (\beta_1+\alpha_1)X + (\beta_2+\alpha_2)Y)\)。 3. 关键跳跃:\(P(X | R=1)\) 的边际密度可通过积分 \(Y\) 得到,其形式为 \(g(X) \cdot h(X)\),其中 \(h(X)\) 是一个仅含 \(X\) 的指数积分函数。同时,\(P(X | R=0)\) 的边际密度为 \(g(X) \cdot (1 - h(X))\)。 4. 因为 \(X\) 总是可观测,我们既有 \(R=1\) 时的 \(X\) 经验分布,也有 \(R=0\) 时的 \(X\) 经验分布。两者的比例直接编码了 \(h(X)\) 的信息,而 \(h(X)\) 又由参数 \((\beta_1+\alpha_1, \beta_2+\alpha_2)\) 决定。 5. 由此,仅凭可观测的 \(X\) 在 \(R=1\) 与 \(R=0\) 两个子集间的分布差异,即可解出参数组合,进而识别出目标参数 \(\theta\)。这绕过了对 IV 的需求。
效率逻辑的最简走法: 在识别成立后,估计 \(\theta\) 的半参数效率界由模型约束(logistic propensity + SPLRM + 未知 \(g(X)\))决定。本文构造的经验似然(EL)目标函数同时约束了:\(R=1\) 子集的条件似然、\(R=0\) 子集的 \(X\) 边际似然、以及全样本的 \(X\) 边际似然。由于 EL 天然将所有边际信息嵌入到约束中,所得极大 EL 估计量的影响函数恰好等于该约束模型下的有效影响函数,从而达到半参数效率界。
三、这篇论文做了什么¶
三句话: ①研究了非可忽略缺失数据下,无 IV/shadow variable 时目标参数的识别与半参数效率估计问题。 ②核心工具是联合 logistic propensity score 模型与 SPLRM,并基于 density-ratio-model 构造经验似然以捕获协变量边际分布信息。 ③主要结论是:在可识别情形下,所得估计量为 \(n^{-1/2}\)-CAN 且达到半参数效率界;在不可识别的例外情形下,利用协变量边际信息进行 sensitivity analysis。
关键设定与假设: 在第二节最小记号基础上补全: - 假设 1(Logistic propensity):\(\text{logit} P(R=1|X,Y) = \beta_0 + \beta_1^T X + \beta_2 Y\)。统计含义:缺失机制是指数线性结构,非可忽略性由 \(\beta_2 \neq 0\) 刻画。相比已有 IV 路线(如 Zhao et al. 2019),此假设不要求外部变量,但要求 propensity 的函数形式已知。 - 假设 2(SPLRM):\(f(Y|X) / f_0(Y) = \exp(\alpha_0 + \alpha_1^T X + \alpha_2 Y)\)。统计含义:条件密度是未知基准密度的指数倾斜,这是对 Chen & Qin (1993) DRM 的推广(从 \(f(Y|X)/f_0(Y) = \exp(\alpha_1^T X)\) 推至含 \(Y\) 的倾斜项 \(\alpha_2 Y\))。相比纯参数假设(如联合正态),放宽了对 \(f_0(Y)\) 的要求,但保留了指数倾斜的结构约束。 - 假设 3(识别条件):\(\beta_2 + \alpha_2 \neq 0\) 且 \(\beta_1 + \alpha_1 \neq 0\)(或更一般的矩阵满秩条件)。统计含义:倾向得分中的 \(Y\) 效应与条件密度中的 \(Y\) 效应不能完全抵消;若 \(\beta_2 + \alpha_2 = 0\),则 \(Y\) 在联合似然中的信息被抹平,参数退化为不可识别。这是本文识别的充要条件,也是"例外情形"的触发点。 - 假设 4(边际分布约束):\(X\) 的边际分布 \(g(X)\) 完全未知但可被全样本经验分布逼近。统计含义:这是本文利用"协变量边际信息"的根基,也是 EL 约束方程的来源。
主要结果: - 定理 1(识别性):在假设 1-3 下,目标参数 \(\theta\) 及模型参数 \((\beta, \alpha)\) 可由可观测数据 \((X_i, R_i)\) 及 \((X_i, Y_i | R_i=1)\) 唯一识别。直觉:SPLRM 与 logistic propensity 的指数项叠加后,\(Y\) 的信息被转移到 \(X\) 的边际分布差异中(\(R=1\) vs \(R=0\) 的 \(X\) 分布),从而仅凭可观测的 \(X\) 即可解出参数。必要条件是假设 3 的满秩性,解决的技术难点是打破了"非可忽略缺失必须依赖 IV"的定势。 - 定理 2(渐近正态性与半参数效率):在识别情形下,基于 DRM-EL 的估计量 \(\hat{\theta}\) 满足 \(\sqrt{n}(\hat{\theta} - \theta) \to_d N(0, V_{\text{eff}})\),其中 \(V_{\text{eff}}\) 是模型约束下的半参数效率界。直觉:EL 的约束方程同时嵌入了条件似然信息与 \(X\) 的边际分布信息,其解的影响函数与有效影响函数重合。必要条件是假设 1-3 成立且 \(f_0(Y)\) 属于光滑函数类。解决的技术难点是在非可忽略缺失下,证明 EL 估计量不仅一致而且效率最优,这要求精确计算该约束模型下的有效影响函数并验证 EL 解的闭式表达与之对齐。 - 定理 3 / Sensitivity analysis(例外情形):当假设 3 失败(\(\beta_2 + \alpha_2 = 0\))时,参数不可识别。本文利用 \(X\) 的边际信息,将不可识别参数的范围通过一个低维的 sensitivity 参数(刻画偏离假设 3 的程度)进行约束,给出目标参数的区间估计。直觉:边际信息虽不足以点识别,但能排除大量与可观测 \(X\) 分布矛盾的参数组合,从而收紧边界。
证明路线与技术技巧: - 整体路线: 1. 构造 EL 目标函数:定义经验似然比函数,其约束方程包含三组:完全观测样本的条件似然约束、缺失样本的 \(X\) 边际似然约束、全样本的 \(X\) 边际似然约束。 2. 求解 EL 极大点:利用 Lagrange 乘子法,将 EL 目标函数转化为关于参数 \((\theta, \beta, \alpha)\) 与 Lagrange 乘子 \(\lambda\) 的优化问题,得到闭式或半闭式解。 3. 计算有效影响函数:在假设 1-2 的半参数模型(tangent space)下,推导 \(\theta\) 的有效影响函数,验证其与 EL 解的渐近线性展开一致。 4. 证明渐近正态性:对 EL 目标函数在真实参数处做二阶展开,利用 Taylor 展开与经验过程理论,证明余项可控,主项给出正态极限。 5. 处理例外情形:当识别条件失败,引入 sensitivity 参数 \(\delta\) 替代 \(\beta_2 + \alpha_2\) 的固定值,对每个 \(\delta\) 重复 EL 估计,得到 \(\theta\) 的区间。 - 关键跳跃点: - 从不可观测 \(Y\) 到可观测 \(X\) 的信息转移:在步骤 1 中,如何将 \(P(Y|X, R=1)\) 的似然与 \(P(X|R=0)\) 的边际似然统一到一个 EL 框架中,是本文区别于经典 IPW 的跳跃。作者利用 SPLRM 的指数倾斜结构,将 \(Y\) 的条件似然重参数化为 \(X\) 的边际似然的函数,从而在 \(R=0\) 子集上也能构造似然贡献。 - EL 解与有效影响函数的对齐:步骤 3 是效率证明的吃劲处。在非可忽略缺失下,tangent space 的结构因 propensity 依赖 \(Y\) 而变得复杂,有效影响函数的计算需同时考虑缺失机制的约束与条件密度的约束。作者通过验证 EL 的 Lagrange 乘子恰好编码了这两组约束的方向,完成了对齐。 - 技术技巧点名: - Density ratio model (DRM):用于将条件密度 \(f(Y|X)\) 参数化为未知基准 \(f_0(Y)\) 的指数倾斜,起作用在于避免对 \(f_0(Y)\) 的参数假设,同时保留足够结构以实现识别。 - Empirical likelihood (EL):用于将 \(X\) 的边际分布信息(全样本与缺失子集的经验分布)嵌入估计目标函数,起作用在于自动达到半参数效率界(EL 在约束模型下的已知性质)。 - Sensitivity parameterization:用于在识别失败时,将不可识别的参数组合 \((\beta_2 + \alpha_2)\) 替换为可扫描的 \(\delta\),起作用在于将点估计转化为区间估计,利用边际信息收紧区间宽度。 - Influence function computation:用于计算半参数效率界并验证 EL 估计量的效率,起作用在于提供渐近方差的理论基准。
真实例子与应用: 本文包含模拟实验,无真实数据例子。 - 用的什么场景:模拟设定中,\(X\) 为二维或更高维连续变量,\(Y\) 为连续响应,缺失率设为 20%-40%,非可忽略机制 \(\beta_2\) 设为非零值。 - 怎么把本文方法用上去:比较本文的 DRM-EL 估计器与经典 IPW 估计器、完全观测子集的回归估计器、以及 IV-based 估计器(当 IV 存在时作为基准)。 - 得到什么结果:在模型正确设定下,DRM-EL 的渐近方差最小(达到效率界);在 propensity 或 SPLRM 之一轻微误设时,DRM-EL 的偏差与方差仍低于 IPW;在识别失败情形下,sensitivity analysis 的区间覆盖率接近名义水平。 - 这个例子想说明什么:验证理论声称(效率界可达、识别条件有效),并展示相对 baseline(IPW、回归)在稳健性上的优势。
🔎 结论是否比证明窄: - 作者在 abstract 与 intro 中泛泛声称 "generally does not require instrumental variables or shadow variables, leading to improved identifiability in most scenarios",但定理 1 的严格证明仅在假设 3(\(\beta_2 + \alpha_2 \neq 0\))下成立。假设 3 本质上要求"倾向得分中 \(Y\) 的效应与条件密度中 \(Y\) 的效应不能完全抵消",这是一个不可检验的假设。作者虽在定理 3 中处理了 \(\beta_2 + \alpha_2 = 0\) 的例外,但未证明"大多数情形下 \(\beta_2 + \alpha_2 \neq 0\)"——这只是一个经验上的直觉,而非数学结论。研究者应将"most scenarios"视为作者的 framing,而非严格定理。
四、开放问题(点到为止,扎根具体语句)¶
- 假设 3 的不可检验性:\(\beta_2 + \alpha_2 \neq 0\) 是识别的充要条件,但该条件在数据上不可检验(因 \(Y\) 在 \(R=0\) 时不可观测)。能否构造一个针对 \(\beta_2 + \alpha_2 = 0\) 的假设检验,或给出 \(\beta_2 + \alpha_2\) 偏离零的最低可检测信号强度?扎根在定理 1 的识别条件与定理 3 的 sensitivity 参数化。
- SPLRM 的误设容忍度:当 \(f(Y|X)\) 的真实结构偏离指数倾斜(如含交互项 \(XY^2\) 或非单调倾斜),估计量的渐近偏差有多大?能否构造 doubly robust 版本,使得 propensity 或 SPLRM 之一正确即可保证一致?扎根在 intro 对"robust to model mis-specification"的声称与模拟中仅测试轻微误设的局限。
- 与 Proximal causal inference 的竞争:本文用 SPLRM 替代 IV 实现识别,而近期的 proximal causal inference(如 Tchetgen et al. 2020)用 negative control 替代 IV。两者在识别条件与效率界上孰更宽松?扎根在 intro 未引用 proximal 系列文献这一空白。
- 高维 \(X\) 下的效率界与计算:本文理论固定 \(p\),当 \(p\) 随 \(n\) 增长时,EL 的约束方程维度爆炸,Lagrange 乘子求解不可行;此时半参数效率界是否仍可达,或需 debiased ML 途径?扎根在定理 2 的固定 \(p\) 假设与 EL 计算的 \(O(n^2)\) 复杂度。
要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub