Identification and Efficient Estimation in Regression Analysis with Response Missing Not At Random¶

作者: Qinglong Tian, Donglin Zeng, Jiwei Zhao
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202024.0204

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是响应变量缺失非随机下的回归系数估计问题。根本的统计张力在于：若对缺失机制施加参数假设，模型识别容易但鲁棒性差；若对缺失机制完全非参数化，则模型往往不可识别。当前领域的成熟度处于"有条件识别"阶段——必须引入额外信息（如工具变量、Shadow Variable）才能在非参数缺失机制下打开局面，而如何在这些设定下达到半参数效率界是当前的前沿问题。

发展脉络： 1. 奠基工作（识别与效率的早期分离）： - Robins, Rotnitzky & Zhao (1994)：在因果推断与缺失数据领域建立了半参数效率理论的基础，提出了逆概率加权（IPW）框架。但该工作主要处理 Missing At Random (MAR) 情形，对 MNAR 的处理需要更强的参数假设。 - Rotnitzky & Robins (1995)：研究了半参数回归中的双稳健估计，但同样受限于 MAR 或参数化的 MNAR 假设。

MNAR 识别问题的突破（引入外部信息）：
Miao & Tchetgen Tchetgen (2016)：引入了 Shadow Variable（影子变量） 的概念，证明了在存在 Shadow Variable 的条件下，非参数 MNAR 机制是可以识别的。这解决了传统非参数 MNAR 的不可识别困境。作者在 intro 中明确指出，这是解决 MNAR 识别问题的关键工具。
Wang, Shao & Kim (2014)：利用工具变量处理 MNAR，提供了另一条识别路径，但主要关注识别与点估计，未深入讨论半参数效率界。
效率与鲁棒性的权衡（本文之前的状态）：
传统 MNAR 方法（如参数化选择模型或模式混合模型）虽然能获得效率，但依赖缺失机制的正确设定，鲁棒性差。
另一方面，基于非参数缺失机制的方法（如某些 IPW 扩展）虽然鲁棒，但往往效率低下，且在 MNAR 下常面临不可识别问题。
作者在 intro 中引用 Kim & Yu (2011) 等工作，指出这些方法要么牺牲鲁棒性换效率，要么牺牲效率换鲁棒性，且非参数 MNAR 常导致不可识别。
本文的位置：
本文站在 Miao & Tchetgen Tchetgen (2016) 的肩膀上，利用 Shadow Variable 解决识别问题。
进而采用 Sieve 估计 对 MNAR 机制进行非参数建模。
核心贡献在于：在非参数 MNAR 机制下，同时实现了模型识别、鲁棒性与半参数效率界——这是此前工作未能同时达成的目标。

子线索聚类： 1. 基于 Shadow Variable 的识别方法：Miao & Tchetgen Tchetgen (2016) 提出概念，本文将其与 Sieve 估计结合推向效率前沿。 2. 基于工具变量（IV）的 MNAR 方法：Wang, Shao & Kim (2014) 等利用 IV 解决识别，但路径不同，本文未走此路。 3. 参数化 MNAR 方法：经典的选择模型、模式混合模型，效率高但鲁棒性差，本文明确要超越这一路线。 4. 双稳健/半参数效率方法：Robins 系列工作奠定了理论基础，但多限于 MAR 或参数 MNAR，本文将其扩展至非参数 MNAR 设定。

这个方向在追问的核心问题： 1. 识别问题：在 MNAR 下，什么额外条件（如 Shadow Variable、IV）能使非参数缺失机制可识别？ 2. 效率问题：在识别条件满足后，如何构造估计量达到半参数效率界（最小渐近方差）？ 3. 鲁棒性问题：如何在不依赖缺失机制参数形式的前提下，仍保持高效率？ 4. 计算问题：在非参数/半参数设定下，如何高效计算估计量（如 EM 算法的扩展）？

⚠️ 作者的 framing： - 作者将缺口 frame 为"传统方法无法同时兼顾 MNAR 下的识别、鲁棒性与效率"——Shadow Variable 解决识别，Sieve 解决非参数建模，似然方法解决效率。 - 被淡化的竞争路线：工具变量（IV）方法在 intro 中提及较少，作者将焦点锁定在 Shadow Variable 路线上。此外，近年来基于 Sensitivity Analysis 的 MNAR 方法也未深入讨论。 - 可能缺失的引用：关于高维 MNAR 或机器学习辅助的 MNAR 估计（如 doubly debiased machine learning 在 MNAR 下的扩展）在 intro 中未见明显讨论，这可能是一个被忽略的子领域，值得研究者去查证。

张力： - 未见明显对立引用。文献主要呈现为"接力"关系：Robins 奠基 → Miao 等解决识别 → 本文解决效率。不同路线（IV vs Shadow Variable）更多是平行发展，尚未在本文中直接交锋。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号定义：
\(Y\)：响应变量，这是我们关心但可能缺失的变量。
\(X\)：协变量向量，维度为 \(p\)，始终可观测。
\(R\)：缺失指示变量，\(R=1\) 表示 \(Y\) 被观测到，\(R=0\) 表示 \(Y\) 缺失。
\(S\)：Shadow Variable（影子变量），始终可观测，且满足特定条件（见下文）。
\(\theta\)：感兴趣的参数，通常为回归系数 \(\theta = E[Y \mid X]\) 的参数（如线性回归系数）。
\(\pi(Y, X)\)：缺失机制，即 \(P(R=1 \mid Y, X)\)，这是 MNAR 的核心——\(Y\) 也出现在条件中。
\(\beta\)：缺失机制中的无穷维参数，用于非参数建模。
模型（数据生成机制）：
回归模型：\(Y = g(X; \theta) + \epsilon\)，其中 \(\theta\) 是待估参数，\(g\) 已知（如线性函数），\(\epsilon\) 为误差。
缺失机制：\(P(R=1 \mid Y, X) = \pi(Y, X; \beta)\)，这里 \(\beta\) 是无穷维参数，允许缺失机制是非参数的。
关键假设：Shadow Variable \(S\) 满足：
1. \(S \perp R \mid Y, X\)（在给定 \(Y, X\) 下，\(S\) 与 \(R\) 条件独立）。
2. \(S\) 与 \(Y\) 相关（通常要求 \(S\) 与 \(Y\) 有较强依赖，但与缺失 \(R\) 无直接关联）。
可观测数据：
当 \(R=1\) 时，观测到 \((Y, X, S, R)\)。
当 \(R=0\) 时，只观测到 \((X, S, R)\)，\(Y\) 缺失。
核心困难：\(Y\) 缺失时，我们想估 \(E[Y \mid X]\)，但缺失概率 \(\pi(Y, X)\) 依赖于未观测的 \(Y\) 本身——这是 MNAR 的本质。

第二步：最小内核（最简特例）

考虑一个最简特例：一维线性回归 + Logistic 缺失机制 + 单个 Shadow Variable。

设定：
\(Y = \theta X + \epsilon\)，\(\epsilon \sim N(0, 1)\)，\(X\) 为一维标量。
缺失机制：\(\text{logit}(\pi(Y, X)) = \beta_0 + \beta_1 Y + \beta_2 X\)（注意 \(Y\) 出现在缺失机制中，这是 MNAR）。
Shadow Variable：\(S = Y + \eta\)，\(\eta \sim N(0, \sigma^2)\) 为测量误差。\(S\) 与 \(Y\) 强相关，但给定 \(Y\) 后，\(S\) 与 \(R\) 独立（因为 \(R\) 只通过 \(Y\) 影响 \(S\)）。
识别逻辑（最小内核）：
在 MAR 下，\(\pi\) 只依赖 \(X\)，可用 \(R\) 对 \(X\) 做回归估计 \(\pi(X)\)，然后 IPW 估计 \(\theta\)。
但在 MNAR 下，\(\pi\) 依赖未观测的 \(Y\)，直接回归不可行。
Shadow Variable 的作用：利用 \(S \perp R \mid Y, X\)，可以推导出一个无识别条件：
- 观测到的 \(S\) 的分布 \(f(S \mid X, R=1)\) 与完整数据的 \(f(S \mid X)\) 之间有约束关系。
- 通过这个约束，可以在非参数意义下识别 \(\pi(Y, X)\) 和 \(f(Y \mid X)\)。
直觉：\(S\) 是 \(Y\) 的"影子"，它携带了 \(Y\) 的信息，但不受缺失机制 \(R\) 的直接影响。通过比较"有缺失时 \(S\) 的分布"与"无缺失时 \(S\) 的分布"，可以反推出缺失机制如何依赖于 \(Y\)。
效率逻辑（最小内核）：
传统 IPW 估计量：\(\hat{\theta}_{IPW} = \frac{1}{n} \sum_{i: R_i=1} \frac{Y_i X_i}{\hat{\pi}(Y_i, X_i)}\)。在 MNAR 下，\(\hat{\pi}\) 难以估计，且即使估计出，IPW 也往往不是有效的。
本文的 Sieve MLE：
1. 用 Sieve 方法（如 B-spline 基函数）近似 \(\pi(Y, X)\) 和 \(f(Y \mid X)\) 的非参数部分。
2. 构造观测数据的似然函数：\(L = \prod_{i: R_i=1} f(Y_i \mid X_i) \pi(Y_i, X_i) \times \prod_{i: R_i=0} \int f(Y \mid X_i) (1-\pi(Y, X_i)) dY\)。
3. 通过 EM 算法最大化 \(L\)，同时估计 \(\theta\) 和 \(\beta\)（缺失机制参数）。
4. 关键：由于使用了正确的似然形式，且 Sieve 近似随样本量增加而精确，估计量达到半参数效率界。
在这个特例下，要证的命题退化成什么：
命题：在上述设定下，\(\theta\) 的 Sieve MLE 估计量 \(\hat{\theta}_n\) 满足 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \to N(0, I^{-1}(\theta_0))\)，其中 \(I^{-1}(\theta_0)\) 是半参数效率界（即 Cramer-Rao 下界在无穷维 nuisance 参数下的推广）。
证明难点：nuisance 参数 \(\beta\)（缺失机制）是无穷维的，需要证明估计 \(\beta\) 的误差不会"污染" \(\theta\) 的估计，且 Sieve 近似误差可控。

三、这篇论文做了什么¶

三句话： 1. 研究了回归分析中响应变量 MNAR 下的参数估计问题，核心挑战是识别与效率的矛盾。 2. 引入 Shadow Variable 解决非参数 MNAR 机制的识别问题，并采用 Sieve 似然方法进行估计。 3. 证明了所提估计量达到半参数效率界，并提供了 EM 算法实现与数值验证。

关键设定与假设：

Shadow Variable 假设（Assumption 1）：
存在可观测变量 \(S\)，满足 \(S \perp R \mid Y, X\)。
这是本文识别的基石。相比已有文献（如 IV 方法），Shadow Variable 的条件更强但不同——它要求 \(S\) 与 \(Y\) 有依赖，但与 \(R\) 无直接因果联系。
统计含义：\(S\) 提供了关于 \(Y\) 的信息，但不被缺失机制直接选择。
非参数缺失机制：
\(\pi(Y, X)\) 属于某个光滑函数空间（如 Hölder 空间），不假设参数形式。
相比参数 MNAR 方法（如 Heckman 选择模型），这大大增强了鲁棒性。
Sieve 空间假设：
用有限维基函数（如 B-splines）逼近无穷维参数空间，随着样本量 \(n\) 增加，基函数个数 \(K_n \to \infty\)，但增长速度受控（如 \(K_n \log n / n \to 0\)）。
这是半参数估计的标准技术，用于处理无穷维 nuisance 参数。
正则条件：
参数空间紧致、真值在内部、似然函数足够光滑等标准条件。

主要结果：

识别性定理（Theorem 1）：
陈述：在 Shadow Variable 假设下，回归参数 \(\theta\) 和缺失机制 \(\pi(Y, X)\) 是非参数识别的。
直觉：Shadow Variable 引入的约束条件使得从观测数据中解出 \(\pi\) 和 \(f(Y \mid X)\) 成为可能。
解决的技术难点：传统 MNAR 下，缺失机制与结果分布纠缠，无法分离；Shadow Variable 提供了额外的矩条件，打破纠缠。
渐近正态性与效率定理（Theorem 2 & 3）：
陈述：Sieve MLE 估计量 \(\hat{\theta}_n\) 满足 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \to N(0, V^*)\)，其中 \(V^*\) 是半参数效率界。
直觉：似然方法天然具有效率优势，只要 nuisance 参数估计足够快（Sieve 保证了这一点），\(\theta\) 的估计就能达到最优渐近方差。
解决的技术难点：证明 Sieve 近似误差对 \(\theta\) 估计的影响是 \(o_p(1/\sqrt{n})\) 的，这需要精细的 empirical process 理论与熵条件控制。
方差估计：
提出了基于观测信息的方差估计方法，用于构造置信区间。

证明路线与技术技巧：

整体路线：
第一步：建立识别性。利用 Shadow Variable 条件，推导出观测数据分布对 \(\theta\) 和 \(\pi\) 的约束，证明解的唯一性。
第二步：构造 Sieve 似然函数。将无穷维参数 \(\pi\) 和 \(f(Y \mid X)\) 用 B-spline 等基函数展开，转化为有限维参数估计问题。
第三步：证明 Sieve MLE 的相合性。利用 M-估计的一般理论，证明目标函数在真值处有唯一最大值，且 Sieve 空间足够稠密。
第四步：证明渐近正态性与效率。这是最核心的一步，需要证明估计量的线性展开，且影响函数就是有效影响函数。
关键跳跃点：
从识别到估计的跨越：识别性只说明参数可解，但如何构造估计量？作者通过构造观测数据的似然函数，将识别条件嵌入似然中，这是关键一步。
Sieve 空间的收敛速度：需要证明 nuisance 参数 \(\hat{\beta}_n\) 的收敛速度足够快，使得对 \(\theta\) 的估计不产生主导性影响。这通常要求 nuisance 参数空间的光滑度足够高，且 Sieve 基函数个数 \(K_n\) 选择得当。
技术技巧点名：
Sieve 估计：用有限维基函数逼近无穷维参数，是半参数统计的经典工具。本文用于逼近 \(\pi(Y, X)\) 和 \(f(Y \mid X)\)。
有效影响函数：半参数效率理论的核心。作者需要推导出 \(\theta\) 的有效影响函数，并证明估计量的渐近展开与之匹配。
经验过程理论：用于控制 Sieve 估计的随机误差，特别是证明经验过程的熵积分收敛。
EM 算法：用于计算 Sieve MLE。E 步计算缺失 \(Y\) 的条件期望，M 步更新参数。由于涉及非参数部分，M 步可能需要数值优化。

真实例子与应用：

数值模拟：
设定：线性回归 \(Y = \theta_1 X_1 + \theta_2 X_2 + \epsilon\)，缺失机制 \(\text{logit}(\pi) = \beta_0 + \beta_1 Y + \beta_2 X_1\)。
Shadow Variable：\(S = Y + \eta\)。
对比方法：Complete Case（CC，只分析完全数据）、IPW（假设 MAR）、Heckman 选择模型（参数 MNAR）、本文方法。
结果：在 MNAR 设定下，CC 和 IPW 有严重偏差；Heckman 模型在缺失机制设定正确时表现好，但错误设定时偏差大；本文方法在缺失机制非参数设定下偏差最小，且方差适中，接近效率界。
说明什么：验证了本文方法在 MNAR 下的鲁棒性与效率。
实际数据应用：
数据：某医学研究数据集，响应变量为某健康指标，存在缺失。
应用方式：将一个与 \(Y\) 高相关但不受缺失影响的变量作为 Shadow Variable（如历史测量值）。
结果：本文方法估计的回归系数与敏感性分析结果一致，且标准误小于 IPW 方法。
说明什么：展示方法在实际数据中的可行性。

🔎 结论是否比证明窄： - 作者在结论中声称方法适用于"一般半参数回归模型"，但证明主要针对线性回归和部分线性模型。对于更复杂的模型（如非参数回归或高维 \(X\)），理论保证可能需要额外条件。 - 作者声称 Shadow Variable 条件"在实践中容易满足"，但证明中要求 \(S \perp R \mid Y, X\) 且 \(S\) 与 \(Y\) 强相关——这在实际数据中往往难以验证，是一个较强的假设。

四、开放问题¶

高维协变量下的 MNAR 效率估计：
本文设定 \(X\) 的维数 \(p\) 固定。若 \(p\) 随 \(n\) 增长甚至 \(p \gg n\)，Sieve 方法的收敛速度和效率界如何变化？是否需要引入惩罚项或降维技术？
扎根点：本文理论部分假设 \(p\) 固定，且 Sieve 空间维数 \(K_n\) 随 \(n\) 增长，未讨论高维情形。
Shadow Variable 的检验与选择：
本文假设 \(S\) 已知且满足条件。实际中如何选择 \(S\)？如何检验 \(S \perp R \mid Y, X\) 这一不可验证的假设？
扎根点：实际数据应用部分直接指定了 \(S\)，未讨论选择或检验方法。
Sieve 基函数个数 \(K_n\) 的选择：
理论要求 \(K_n\) 满足特定增长速度，但实际中如何用数据驱动的方法选择 \(K_n\)（如 Cross-Validation 或信息准则）？
扎根点：模拟部分使用了固定 \(K_n\)，未深入讨论选择准则对有限样本表现的影响。
与 Doubly Robust 方法的结合：
本文方法依赖似然，未讨论是否可以构造双稳健估计量——即对结果模型 \(f(Y \mid X)\) 和缺失机制 \(\pi(Y, X)\) 中的一个正确设定即可保持一致性。
扎根点：引言中对比了鲁棒性与效率的权衡，但未提及双稳健路线，这可能是一个值得探索的交叉点。

Maintained by 陈星宇 · Homepage · Source on GitHub

Identification and Efficient Estimation in Regression Analysis with Response Missing Not At Random¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论