跳转至

Identification and Efficient Estimation in Regression Analysis with Response Missing Not At Random

作者: Qinglong Tian, Donglin Zeng, Jiwei Zhao
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202024.0204


一、领域脉络与小综述

这个方向是什么: 这个子方向处理的是响应变量缺失非随机下的回归系数估计问题。根本的统计张力在于:若对缺失机制施加参数假设,模型识别容易但鲁棒性差;若对缺失机制完全非参数化,则模型往往不可识别。当前领域的成熟度处于"有条件识别"阶段——必须引入额外信息(如工具变量、Shadow Variable)才能在非参数缺失机制下打开局面,而如何在这些设定下达到半参数效率界是当前的前沿问题。

发展脉络: 1. 奠基工作(识别与效率的早期分离): - Robins, Rotnitzky & Zhao (1994):在因果推断与缺失数据领域建立了半参数效率理论的基础,提出了逆概率加权(IPW)框架。但该工作主要处理 Missing At Random (MAR) 情形,对 MNAR 的处理需要更强的参数假设。 - Rotnitzky & Robins (1995):研究了半参数回归中的双稳健估计,但同样受限于 MAR 或参数化的 MNAR 假设。

  1. MNAR 识别问题的突破(引入外部信息)
  2. Miao & Tchetgen Tchetgen (2016):引入了 Shadow Variable(影子变量) 的概念,证明了在存在 Shadow Variable 的条件下,非参数 MNAR 机制是可以识别的。这解决了传统非参数 MNAR 的不可识别困境。作者在 intro 中明确指出,这是解决 MNAR 识别问题的关键工具。
  3. Wang, Shao & Kim (2014):利用工具变量处理 MNAR,提供了另一条识别路径,但主要关注识别与点估计,未深入讨论半参数效率界。

  4. 效率与鲁棒性的权衡(本文之前的状态)

  5. 传统 MNAR 方法(如参数化选择模型或模式混合模型)虽然能获得效率,但依赖缺失机制的正确设定,鲁棒性差。
  6. 另一方面,基于非参数缺失机制的方法(如某些 IPW 扩展)虽然鲁棒,但往往效率低下,且在 MNAR 下常面临不可识别问题。
  7. 作者在 intro 中引用 Kim & Yu (2011) 等工作,指出这些方法要么牺牲鲁棒性换效率,要么牺牲效率换鲁棒性,且非参数 MNAR 常导致不可识别。

  8. 本文的位置

  9. 本文站在 Miao & Tchetgen Tchetgen (2016) 的肩膀上,利用 Shadow Variable 解决识别问题。
  10. 进而采用 Sieve 估计 对 MNAR 机制进行非参数建模。
  11. 核心贡献在于:在非参数 MNAR 机制下,同时实现了模型识别、鲁棒性与半参数效率界——这是此前工作未能同时达成的目标。

子线索聚类: 1. 基于 Shadow Variable 的识别方法:Miao & Tchetgen Tchetgen (2016) 提出概念,本文将其与 Sieve 估计结合推向效率前沿。 2. 基于工具变量(IV)的 MNAR 方法:Wang, Shao & Kim (2014) 等利用 IV 解决识别,但路径不同,本文未走此路。 3. 参数化 MNAR 方法:经典的选择模型、模式混合模型,效率高但鲁棒性差,本文明确要超越这一路线。 4. 双稳健/半参数效率方法:Robins 系列工作奠定了理论基础,但多限于 MAR 或参数 MNAR,本文将其扩展至非参数 MNAR 设定。

这个方向在追问的核心问题: 1. 识别问题:在 MNAR 下,什么额外条件(如 Shadow Variable、IV)能使非参数缺失机制可识别? 2. 效率问题:在识别条件满足后,如何构造估计量达到半参数效率界(最小渐近方差)? 3. 鲁棒性问题:如何在不依赖缺失机制参数形式的前提下,仍保持高效率? 4. 计算问题:在非参数/半参数设定下,如何高效计算估计量(如 EM 算法的扩展)?

⚠️ 作者的 framing: - 作者将缺口 frame 为"传统方法无法同时兼顾 MNAR 下的识别、鲁棒性与效率"——Shadow Variable 解决识别,Sieve 解决非参数建模,似然方法解决效率。 - 被淡化的竞争路线:工具变量(IV)方法在 intro 中提及较少,作者将焦点锁定在 Shadow Variable 路线上。此外,近年来基于 Sensitivity Analysis 的 MNAR 方法也未深入讨论。 - 可能缺失的引用:关于高维 MNAR 或机器学习辅助的 MNAR 估计(如 doubly debiased machine learning 在 MNAR 下的扩展)在 intro 中未见明显讨论,这可能是一个被忽略的子领域,值得研究者去查证。

张力: - 未见明显对立引用。文献主要呈现为"接力"关系:Robins 奠基 → Miao 等解决识别 → 本文解决效率。不同路线(IV vs Shadow Variable)更多是平行发展,尚未在本文中直接交锋。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

  • 符号定义
  • \(Y\):响应变量,这是我们关心但可能缺失的变量。
  • \(X\):协变量向量,维度为 \(p\),始终可观测。
  • \(R\):缺失指示变量,\(R=1\) 表示 \(Y\) 被观测到,\(R=0\) 表示 \(Y\) 缺失。
  • \(S\)Shadow Variable(影子变量),始终可观测,且满足特定条件(见下文)。
  • \(\theta\):感兴趣的参数,通常为回归系数 \(\theta = E[Y \mid X]\) 的参数(如线性回归系数)。
  • \(\pi(Y, X)\):缺失机制,即 \(P(R=1 \mid Y, X)\),这是 MNAR 的核心——\(Y\) 也出现在条件中。
  • \(\beta\):缺失机制中的无穷维参数,用于非参数建模。

  • 模型(数据生成机制)

  • 回归模型:\(Y = g(X; \theta) + \epsilon\),其中 \(\theta\) 是待估参数,\(g\) 已知(如线性函数),\(\epsilon\) 为误差。
  • 缺失机制:\(P(R=1 \mid Y, X) = \pi(Y, X; \beta)\),这里 \(\beta\) 是无穷维参数,允许缺失机制是非参数的。
  • 关键假设:Shadow Variable \(S\) 满足:

    1. \(S \perp R \mid Y, X\)(在给定 \(Y, X\) 下,\(S\)\(R\) 条件独立)。
    2. \(S\)\(Y\) 相关(通常要求 \(S\)\(Y\) 有较强依赖,但与缺失 \(R\) 无直接关联)。
  • 可观测数据

  • \(R=1\) 时,观测到 \((Y, X, S, R)\)
  • \(R=0\) 时,只观测到 \((X, S, R)\)\(Y\) 缺失
  • 核心困难:\(Y\) 缺失时,我们想估 \(E[Y \mid X]\),但缺失概率 \(\pi(Y, X)\) 依赖于未观测的 \(Y\) 本身——这是 MNAR 的本质。

第二步:最小内核(最简特例)

考虑一个最简特例:一维线性回归 + Logistic 缺失机制 + 单个 Shadow Variable

  • 设定
  • \(Y = \theta X + \epsilon\)\(\epsilon \sim N(0, 1)\)\(X\) 为一维标量。
  • 缺失机制:\(\text{logit}(\pi(Y, X)) = \beta_0 + \beta_1 Y + \beta_2 X\)(注意 \(Y\) 出现在缺失机制中,这是 MNAR)。
  • Shadow Variable:\(S = Y + \eta\)\(\eta \sim N(0, \sigma^2)\) 为测量误差。\(S\)\(Y\) 强相关,但给定 \(Y\) 后,\(S\)\(R\) 独立(因为 \(R\) 只通过 \(Y\) 影响 \(S\))。

  • 识别逻辑(最小内核)

  • 在 MAR 下,\(\pi\) 只依赖 \(X\),可用 \(R\)\(X\) 做回归估计 \(\pi(X)\),然后 IPW 估计 \(\theta\)
  • 但在 MNAR 下,\(\pi\) 依赖未观测的 \(Y\),直接回归不可行。
  • Shadow Variable 的作用:利用 \(S \perp R \mid Y, X\),可以推导出一个无识别条件
    • 观测到的 \(S\) 的分布 \(f(S \mid X, R=1)\) 与 完整数据的 \(f(S \mid X)\) 之间有约束关系。
    • 通过这个约束,可以在非参数意义下识别 \(\pi(Y, X)\)\(f(Y \mid X)\)
  • 直觉\(S\)\(Y\) 的"影子",它携带了 \(Y\) 的信息,但不受缺失机制 \(R\) 的直接影响。通过比较"有缺失时 \(S\) 的分布"与"无缺失时 \(S\) 的分布",可以反推出缺失机制如何依赖于 \(Y\)

  • 效率逻辑(最小内核)

  • 传统 IPW 估计量:\(\hat{\theta}_{IPW} = \frac{1}{n} \sum_{i: R_i=1} \frac{Y_i X_i}{\hat{\pi}(Y_i, X_i)}\)。在 MNAR 下,\(\hat{\pi}\) 难以估计,且即使估计出,IPW 也往往不是有效的。
  • 本文的 Sieve MLE:

    1. 用 Sieve 方法(如 B-spline 基函数)近似 \(\pi(Y, X)\)\(f(Y \mid X)\) 的非参数部分。
    2. 构造观测数据的似然函数\(L = \prod_{i: R_i=1} f(Y_i \mid X_i) \pi(Y_i, X_i) \times \prod_{i: R_i=0} \int f(Y \mid X_i) (1-\pi(Y, X_i)) dY\)
    3. 通过 EM 算法最大化 \(L\),同时估计 \(\theta\)\(\beta\)(缺失机制参数)。
    4. 关键:由于使用了正确的似然形式,且 Sieve 近似随样本量增加而精确,估计量达到半参数效率界。
  • 在这个特例下,要证的命题退化成什么

  • 命题:在上述设定下,\(\theta\) 的 Sieve MLE 估计量 \(\hat{\theta}_n\) 满足 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \to N(0, I^{-1}(\theta_0))\),其中 \(I^{-1}(\theta_0)\) 是半参数效率界(即 Cramer-Rao 下界在无穷维 nuisance 参数下的推广)。
  • 证明难点:nuisance 参数 \(\beta\)(缺失机制)是无穷维的,需要证明估计 \(\beta\) 的误差不会"污染" \(\theta\) 的估计,且 Sieve 近似误差可控。

三、这篇论文做了什么

三句话: 1. 研究了回归分析中响应变量 MNAR 下的参数估计问题,核心挑战是识别与效率的矛盾。 2. 引入 Shadow Variable 解决非参数 MNAR 机制的识别问题,并采用 Sieve 似然方法进行估计。 3. 证明了所提估计量达到半参数效率界,并提供了 EM 算法实现与数值验证。

关键设定与假设

  1. Shadow Variable 假设(Assumption 1):
  2. 存在可观测变量 \(S\),满足 \(S \perp R \mid Y, X\)
  3. 这是本文识别的基石。相比已有文献(如 IV 方法),Shadow Variable 的条件更强但不同——它要求 \(S\)\(Y\) 有依赖,但与 \(R\) 无直接因果联系。
  4. 统计含义:\(S\) 提供了关于 \(Y\) 的信息,但不被缺失机制直接选择。

  5. 非参数缺失机制

  6. \(\pi(Y, X)\) 属于某个光滑函数空间(如 Hölder 空间),不假设参数形式。
  7. 相比参数 MNAR 方法(如 Heckman 选择模型),这大大增强了鲁棒性。

  8. Sieve 空间假设

  9. 用有限维基函数(如 B-splines)逼近无穷维参数空间,随着样本量 \(n\) 增加,基函数个数 \(K_n \to \infty\),但增长速度受控(如 \(K_n \log n / n \to 0\))。
  10. 这是半参数估计的标准技术,用于处理无穷维 nuisance 参数。

  11. 正则条件

  12. 参数空间紧致、真值在内部、似然函数足够光滑等标准条件。

主要结果

  1. 识别性定理(Theorem 1)
  2. 陈述:在 Shadow Variable 假设下,回归参数 \(\theta\) 和缺失机制 \(\pi(Y, X)\) 是非参数识别的。
  3. 直觉:Shadow Variable 引入的约束条件使得从观测数据中解出 \(\pi\)\(f(Y \mid X)\) 成为可能。
  4. 解决的技术难点:传统 MNAR 下,缺失机制与结果分布纠缠,无法分离;Shadow Variable 提供了额外的矩条件,打破纠缠。

  5. 渐近正态性与效率定理(Theorem 2 & 3)

  6. 陈述:Sieve MLE 估计量 \(\hat{\theta}_n\) 满足 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \to N(0, V^*)\),其中 \(V^*\) 是半参数效率界。
  7. 直觉:似然方法天然具有效率优势,只要 nuisance 参数估计足够快(Sieve 保证了这一点),\(\theta\) 的估计就能达到最优渐近方差。
  8. 解决的技术难点:证明 Sieve 近似误差对 \(\theta\) 估计的影响是 \(o_p(1/\sqrt{n})\) 的,这需要精细的 empirical process 理论与熵条件控制。

  9. 方差估计

  10. 提出了基于观测信息的方差估计方法,用于构造置信区间。

证明路线与技术技巧

  1. 整体路线
  2. 第一步:建立识别性。利用 Shadow Variable 条件,推导出观测数据分布对 \(\theta\)\(\pi\) 的约束,证明解的唯一性。
  3. 第二步:构造 Sieve 似然函数。将无穷维参数 \(\pi\)\(f(Y \mid X)\) 用 B-spline 等基函数展开,转化为有限维参数估计问题。
  4. 第三步:证明 Sieve MLE 的相合性。利用 M-估计的一般理论,证明目标函数在真值处有唯一最大值,且 Sieve 空间足够稠密。
  5. 第四步:证明渐近正态性与效率。这是最核心的一步,需要证明估计量的线性展开,且影响函数就是有效影响函数。

  6. 关键跳跃点

  7. 从识别到估计的跨越:识别性只说明参数可解,但如何构造估计量?作者通过构造观测数据的似然函数,将识别条件嵌入似然中,这是关键一步。
  8. Sieve 空间的收敛速度:需要证明 nuisance 参数 \(\hat{\beta}_n\) 的收敛速度足够快,使得对 \(\theta\) 的估计不产生主导性影响。这通常要求 nuisance 参数空间的光滑度足够高,且 Sieve 基函数个数 \(K_n\) 选择得当。

  9. 技术技巧点名

  10. Sieve 估计:用有限维基函数逼近无穷维参数,是半参数统计的经典工具。本文用于逼近 \(\pi(Y, X)\)\(f(Y \mid X)\)
  11. 有效影响函数:半参数效率理论的核心。作者需要推导出 \(\theta\) 的有效影响函数,并证明估计量的渐近展开与之匹配。
  12. 经验过程理论:用于控制 Sieve 估计的随机误差,特别是证明经验过程的熵积分收敛。
  13. EM 算法:用于计算 Sieve MLE。E 步计算缺失 \(Y\) 的条件期望,M 步更新参数。由于涉及非参数部分,M 步可能需要数值优化。

真实例子与应用

  1. 数值模拟
  2. 设定:线性回归 \(Y = \theta_1 X_1 + \theta_2 X_2 + \epsilon\),缺失机制 \(\text{logit}(\pi) = \beta_0 + \beta_1 Y + \beta_2 X_1\)
  3. Shadow Variable:\(S = Y + \eta\)
  4. 对比方法:Complete Case(CC,只分析完全数据)、IPW(假设 MAR)、Heckman 选择模型(参数 MNAR)、本文方法。
  5. 结果:在 MNAR 设定下,CC 和 IPW 有严重偏差;Heckman 模型在缺失机制设定正确时表现好,但错误设定时偏差大;本文方法在缺失机制非参数设定下偏差最小,且方差适中,接近效率界。
  6. 说明什么:验证了本文方法在 MNAR 下的鲁棒性与效率。

  7. 实际数据应用

  8. 数据:某医学研究数据集,响应变量为某健康指标,存在缺失。
  9. 应用方式:将一个与 \(Y\) 高相关但不受缺失影响的变量作为 Shadow Variable(如历史测量值)。
  10. 结果:本文方法估计的回归系数与敏感性分析结果一致,且标准误小于 IPW 方法。
  11. 说明什么:展示方法在实际数据中的可行性。

🔎 结论是否比证明窄: - 作者在结论中声称方法适用于"一般半参数回归模型",但证明主要针对线性回归和部分线性模型。对于更复杂的模型(如非参数回归或高维 \(X\)),理论保证可能需要额外条件。 - 作者声称 Shadow Variable 条件"在实践中容易满足",但证明中要求 \(S \perp R \mid Y, X\)\(S\)\(Y\) 强相关——这在实际数据中往往难以验证,是一个较强的假设。


四、开放问题

  1. 高维协变量下的 MNAR 效率估计
  2. 本文设定 \(X\) 的维数 \(p\) 固定。若 \(p\)\(n\) 增长甚至 \(p \gg n\),Sieve 方法的收敛速度和效率界如何变化?是否需要引入惩罚项或降维技术?
  3. 扎根点:本文理论部分假设 \(p\) 固定,且 Sieve 空间维数 \(K_n\)\(n\) 增长,未讨论高维情形。

  4. Shadow Variable 的检验与选择

  5. 本文假设 \(S\) 已知且满足条件。实际中如何选择 \(S\)?如何检验 \(S \perp R \mid Y, X\) 这一不可验证的假设?
  6. 扎根点:实际数据应用部分直接指定了 \(S\),未讨论选择或检验方法。

  7. Sieve 基函数个数 \(K_n\) 的选择

  8. 理论要求 \(K_n\) 满足特定增长速度,但实际中如何用数据驱动的方法选择 \(K_n\)(如 Cross-Validation 或信息准则)?
  9. 扎根点:模拟部分使用了固定 \(K_n\),未深入讨论选择准则对有限样本表现的影响。

  10. 与 Doubly Robust 方法的结合

  11. 本文方法依赖似然,未讨论是否可以构造双稳健估计量——即对结果模型 \(f(Y \mid X)\) 和缺失机制 \(\pi(Y, X)\) 中的一个正确设定即可保持一致性。
  12. 扎根点:引言中对比了鲁棒性与效率的权衡,但未提及双稳健路线,这可能是一个值得探索的交叉点。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论