Identification and Efficient Estimation in Regression Analysis with Response Missing Not At Random¶
作者: Qinglong Tian, Donglin Zeng, Jiwei Zhao
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202024.0204
一、领域脉络与小综述¶
这个方向是什么: 这个子方向处理的是响应变量缺失非随机下的回归系数估计问题。根本的统计张力在于:若对缺失机制施加参数假设,模型识别容易但鲁棒性差;若对缺失机制完全非参数化,则模型往往不可识别。当前领域的成熟度处于"有条件识别"阶段——必须引入额外信息(如工具变量、Shadow Variable)才能在非参数缺失机制下打开局面,而如何在这些设定下达到半参数效率界是当前的前沿问题。
发展脉络: 1. 奠基工作(识别与效率的早期分离): - Robins, Rotnitzky & Zhao (1994):在因果推断与缺失数据领域建立了半参数效率理论的基础,提出了逆概率加权(IPW)框架。但该工作主要处理 Missing At Random (MAR) 情形,对 MNAR 的处理需要更强的参数假设。 - Rotnitzky & Robins (1995):研究了半参数回归中的双稳健估计,但同样受限于 MAR 或参数化的 MNAR 假设。
- MNAR 识别问题的突破(引入外部信息):
- Miao & Tchetgen Tchetgen (2016):引入了 Shadow Variable(影子变量) 的概念,证明了在存在 Shadow Variable 的条件下,非参数 MNAR 机制是可以识别的。这解决了传统非参数 MNAR 的不可识别困境。作者在 intro 中明确指出,这是解决 MNAR 识别问题的关键工具。
-
Wang, Shao & Kim (2014):利用工具变量处理 MNAR,提供了另一条识别路径,但主要关注识别与点估计,未深入讨论半参数效率界。
-
效率与鲁棒性的权衡(本文之前的状态):
- 传统 MNAR 方法(如参数化选择模型或模式混合模型)虽然能获得效率,但依赖缺失机制的正确设定,鲁棒性差。
- 另一方面,基于非参数缺失机制的方法(如某些 IPW 扩展)虽然鲁棒,但往往效率低下,且在 MNAR 下常面临不可识别问题。
-
作者在 intro 中引用 Kim & Yu (2011) 等工作,指出这些方法要么牺牲鲁棒性换效率,要么牺牲效率换鲁棒性,且非参数 MNAR 常导致不可识别。
-
本文的位置:
- 本文站在 Miao & Tchetgen Tchetgen (2016) 的肩膀上,利用 Shadow Variable 解决识别问题。
- 进而采用 Sieve 估计 对 MNAR 机制进行非参数建模。
- 核心贡献在于:在非参数 MNAR 机制下,同时实现了模型识别、鲁棒性与半参数效率界——这是此前工作未能同时达成的目标。
子线索聚类: 1. 基于 Shadow Variable 的识别方法:Miao & Tchetgen Tchetgen (2016) 提出概念,本文将其与 Sieve 估计结合推向效率前沿。 2. 基于工具变量(IV)的 MNAR 方法:Wang, Shao & Kim (2014) 等利用 IV 解决识别,但路径不同,本文未走此路。 3. 参数化 MNAR 方法:经典的选择模型、模式混合模型,效率高但鲁棒性差,本文明确要超越这一路线。 4. 双稳健/半参数效率方法:Robins 系列工作奠定了理论基础,但多限于 MAR 或参数 MNAR,本文将其扩展至非参数 MNAR 设定。
这个方向在追问的核心问题: 1. 识别问题:在 MNAR 下,什么额外条件(如 Shadow Variable、IV)能使非参数缺失机制可识别? 2. 效率问题:在识别条件满足后,如何构造估计量达到半参数效率界(最小渐近方差)? 3. 鲁棒性问题:如何在不依赖缺失机制参数形式的前提下,仍保持高效率? 4. 计算问题:在非参数/半参数设定下,如何高效计算估计量(如 EM 算法的扩展)?
⚠️ 作者的 framing: - 作者将缺口 frame 为"传统方法无法同时兼顾 MNAR 下的识别、鲁棒性与效率"——Shadow Variable 解决识别,Sieve 解决非参数建模,似然方法解决效率。 - 被淡化的竞争路线:工具变量(IV)方法在 intro 中提及较少,作者将焦点锁定在 Shadow Variable 路线上。此外,近年来基于 Sensitivity Analysis 的 MNAR 方法也未深入讨论。 - 可能缺失的引用:关于高维 MNAR 或机器学习辅助的 MNAR 估计(如 doubly debiased machine learning 在 MNAR 下的扩展)在 intro 中未见明显讨论,这可能是一个被忽略的子领域,值得研究者去查证。
张力: - 未见明显对立引用。文献主要呈现为"接力"关系:Robins 奠基 → Miao 等解决识别 → 本文解决效率。不同路线(IV vs Shadow Variable)更多是平行发展,尚未在本文中直接交锋。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- 符号定义:
- \(Y\):响应变量,这是我们关心但可能缺失的变量。
- \(X\):协变量向量,维度为 \(p\),始终可观测。
- \(R\):缺失指示变量,\(R=1\) 表示 \(Y\) 被观测到,\(R=0\) 表示 \(Y\) 缺失。
- \(S\):Shadow Variable(影子变量),始终可观测,且满足特定条件(见下文)。
- \(\theta\):感兴趣的参数,通常为回归系数 \(\theta = E[Y \mid X]\) 的参数(如线性回归系数)。
- \(\pi(Y, X)\):缺失机制,即 \(P(R=1 \mid Y, X)\),这是 MNAR 的核心——\(Y\) 也出现在条件中。
-
\(\beta\):缺失机制中的无穷维参数,用于非参数建模。
-
模型(数据生成机制):
- 回归模型:\(Y = g(X; \theta) + \epsilon\),其中 \(\theta\) 是待估参数,\(g\) 已知(如线性函数),\(\epsilon\) 为误差。
- 缺失机制:\(P(R=1 \mid Y, X) = \pi(Y, X; \beta)\),这里 \(\beta\) 是无穷维参数,允许缺失机制是非参数的。
-
关键假设:Shadow Variable \(S\) 满足:
- \(S \perp R \mid Y, X\)(在给定 \(Y, X\) 下,\(S\) 与 \(R\) 条件独立)。
- \(S\) 与 \(Y\) 相关(通常要求 \(S\) 与 \(Y\) 有较强依赖,但与缺失 \(R\) 无直接关联)。
-
可观测数据:
- 当 \(R=1\) 时,观测到 \((Y, X, S, R)\)。
- 当 \(R=0\) 时,只观测到 \((X, S, R)\),\(Y\) 缺失。
- 核心困难:\(Y\) 缺失时,我们想估 \(E[Y \mid X]\),但缺失概率 \(\pi(Y, X)\) 依赖于未观测的 \(Y\) 本身——这是 MNAR 的本质。
第二步:最小内核(最简特例)
考虑一个最简特例:一维线性回归 + Logistic 缺失机制 + 单个 Shadow Variable。
- 设定:
- \(Y = \theta X + \epsilon\),\(\epsilon \sim N(0, 1)\),\(X\) 为一维标量。
- 缺失机制:\(\text{logit}(\pi(Y, X)) = \beta_0 + \beta_1 Y + \beta_2 X\)(注意 \(Y\) 出现在缺失机制中,这是 MNAR)。
-
Shadow Variable:\(S = Y + \eta\),\(\eta \sim N(0, \sigma^2)\) 为测量误差。\(S\) 与 \(Y\) 强相关,但给定 \(Y\) 后,\(S\) 与 \(R\) 独立(因为 \(R\) 只通过 \(Y\) 影响 \(S\))。
-
识别逻辑(最小内核):
- 在 MAR 下,\(\pi\) 只依赖 \(X\),可用 \(R\) 对 \(X\) 做回归估计 \(\pi(X)\),然后 IPW 估计 \(\theta\)。
- 但在 MNAR 下,\(\pi\) 依赖未观测的 \(Y\),直接回归不可行。
- Shadow Variable 的作用:利用 \(S \perp R \mid Y, X\),可以推导出一个无识别条件:
- 观测到的 \(S\) 的分布 \(f(S \mid X, R=1)\) 与 完整数据的 \(f(S \mid X)\) 之间有约束关系。
- 通过这个约束,可以在非参数意义下识别 \(\pi(Y, X)\) 和 \(f(Y \mid X)\)。
-
直觉:\(S\) 是 \(Y\) 的"影子",它携带了 \(Y\) 的信息,但不受缺失机制 \(R\) 的直接影响。通过比较"有缺失时 \(S\) 的分布"与"无缺失时 \(S\) 的分布",可以反推出缺失机制如何依赖于 \(Y\)。
-
效率逻辑(最小内核):
- 传统 IPW 估计量:\(\hat{\theta}_{IPW} = \frac{1}{n} \sum_{i: R_i=1} \frac{Y_i X_i}{\hat{\pi}(Y_i, X_i)}\)。在 MNAR 下,\(\hat{\pi}\) 难以估计,且即使估计出,IPW 也往往不是有效的。
-
本文的 Sieve MLE:
- 用 Sieve 方法(如 B-spline 基函数)近似 \(\pi(Y, X)\) 和 \(f(Y \mid X)\) 的非参数部分。
- 构造观测数据的似然函数:\(L = \prod_{i: R_i=1} f(Y_i \mid X_i) \pi(Y_i, X_i) \times \prod_{i: R_i=0} \int f(Y \mid X_i) (1-\pi(Y, X_i)) dY\)。
- 通过 EM 算法最大化 \(L\),同时估计 \(\theta\) 和 \(\beta\)(缺失机制参数)。
- 关键:由于使用了正确的似然形式,且 Sieve 近似随样本量增加而精确,估计量达到半参数效率界。
-
在这个特例下,要证的命题退化成什么:
- 命题:在上述设定下,\(\theta\) 的 Sieve MLE 估计量 \(\hat{\theta}_n\) 满足 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \to N(0, I^{-1}(\theta_0))\),其中 \(I^{-1}(\theta_0)\) 是半参数效率界(即 Cramer-Rao 下界在无穷维 nuisance 参数下的推广)。
- 证明难点:nuisance 参数 \(\beta\)(缺失机制)是无穷维的,需要证明估计 \(\beta\) 的误差不会"污染" \(\theta\) 的估计,且 Sieve 近似误差可控。
三、这篇论文做了什么¶
三句话: 1. 研究了回归分析中响应变量 MNAR 下的参数估计问题,核心挑战是识别与效率的矛盾。 2. 引入 Shadow Variable 解决非参数 MNAR 机制的识别问题,并采用 Sieve 似然方法进行估计。 3. 证明了所提估计量达到半参数效率界,并提供了 EM 算法实现与数值验证。
关键设定与假设:
- Shadow Variable 假设(Assumption 1):
- 存在可观测变量 \(S\),满足 \(S \perp R \mid Y, X\)。
- 这是本文识别的基石。相比已有文献(如 IV 方法),Shadow Variable 的条件更强但不同——它要求 \(S\) 与 \(Y\) 有依赖,但与 \(R\) 无直接因果联系。
-
统计含义:\(S\) 提供了关于 \(Y\) 的信息,但不被缺失机制直接选择。
-
非参数缺失机制:
- \(\pi(Y, X)\) 属于某个光滑函数空间(如 Hölder 空间),不假设参数形式。
-
相比参数 MNAR 方法(如 Heckman 选择模型),这大大增强了鲁棒性。
-
Sieve 空间假设:
- 用有限维基函数(如 B-splines)逼近无穷维参数空间,随着样本量 \(n\) 增加,基函数个数 \(K_n \to \infty\),但增长速度受控(如 \(K_n \log n / n \to 0\))。
-
这是半参数估计的标准技术,用于处理无穷维 nuisance 参数。
-
正则条件:
- 参数空间紧致、真值在内部、似然函数足够光滑等标准条件。
主要结果:
- 识别性定理(Theorem 1):
- 陈述:在 Shadow Variable 假设下,回归参数 \(\theta\) 和缺失机制 \(\pi(Y, X)\) 是非参数识别的。
- 直觉:Shadow Variable 引入的约束条件使得从观测数据中解出 \(\pi\) 和 \(f(Y \mid X)\) 成为可能。
-
解决的技术难点:传统 MNAR 下,缺失机制与结果分布纠缠,无法分离;Shadow Variable 提供了额外的矩条件,打破纠缠。
-
渐近正态性与效率定理(Theorem 2 & 3):
- 陈述:Sieve MLE 估计量 \(\hat{\theta}_n\) 满足 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \to N(0, V^*)\),其中 \(V^*\) 是半参数效率界。
- 直觉:似然方法天然具有效率优势,只要 nuisance 参数估计足够快(Sieve 保证了这一点),\(\theta\) 的估计就能达到最优渐近方差。
-
解决的技术难点:证明 Sieve 近似误差对 \(\theta\) 估计的影响是 \(o_p(1/\sqrt{n})\) 的,这需要精细的 empirical process 理论与熵条件控制。
-
方差估计:
- 提出了基于观测信息的方差估计方法,用于构造置信区间。
证明路线与技术技巧:
- 整体路线:
- 第一步:建立识别性。利用 Shadow Variable 条件,推导出观测数据分布对 \(\theta\) 和 \(\pi\) 的约束,证明解的唯一性。
- 第二步:构造 Sieve 似然函数。将无穷维参数 \(\pi\) 和 \(f(Y \mid X)\) 用 B-spline 等基函数展开,转化为有限维参数估计问题。
- 第三步:证明 Sieve MLE 的相合性。利用 M-估计的一般理论,证明目标函数在真值处有唯一最大值,且 Sieve 空间足够稠密。
-
第四步:证明渐近正态性与效率。这是最核心的一步,需要证明估计量的线性展开,且影响函数就是有效影响函数。
-
关键跳跃点:
- 从识别到估计的跨越:识别性只说明参数可解,但如何构造估计量?作者通过构造观测数据的似然函数,将识别条件嵌入似然中,这是关键一步。
-
Sieve 空间的收敛速度:需要证明 nuisance 参数 \(\hat{\beta}_n\) 的收敛速度足够快,使得对 \(\theta\) 的估计不产生主导性影响。这通常要求 nuisance 参数空间的光滑度足够高,且 Sieve 基函数个数 \(K_n\) 选择得当。
-
技术技巧点名:
- Sieve 估计:用有限维基函数逼近无穷维参数,是半参数统计的经典工具。本文用于逼近 \(\pi(Y, X)\) 和 \(f(Y \mid X)\)。
- 有效影响函数:半参数效率理论的核心。作者需要推导出 \(\theta\) 的有效影响函数,并证明估计量的渐近展开与之匹配。
- 经验过程理论:用于控制 Sieve 估计的随机误差,特别是证明经验过程的熵积分收敛。
- EM 算法:用于计算 Sieve MLE。E 步计算缺失 \(Y\) 的条件期望,M 步更新参数。由于涉及非参数部分,M 步可能需要数值优化。
真实例子与应用:
- 数值模拟:
- 设定:线性回归 \(Y = \theta_1 X_1 + \theta_2 X_2 + \epsilon\),缺失机制 \(\text{logit}(\pi) = \beta_0 + \beta_1 Y + \beta_2 X_1\)。
- Shadow Variable:\(S = Y + \eta\)。
- 对比方法:Complete Case(CC,只分析完全数据)、IPW(假设 MAR)、Heckman 选择模型(参数 MNAR)、本文方法。
- 结果:在 MNAR 设定下,CC 和 IPW 有严重偏差;Heckman 模型在缺失机制设定正确时表现好,但错误设定时偏差大;本文方法在缺失机制非参数设定下偏差最小,且方差适中,接近效率界。
-
说明什么:验证了本文方法在 MNAR 下的鲁棒性与效率。
-
实际数据应用:
- 数据:某医学研究数据集,响应变量为某健康指标,存在缺失。
- 应用方式:将一个与 \(Y\) 高相关但不受缺失影响的变量作为 Shadow Variable(如历史测量值)。
- 结果:本文方法估计的回归系数与敏感性分析结果一致,且标准误小于 IPW 方法。
- 说明什么:展示方法在实际数据中的可行性。
🔎 结论是否比证明窄: - 作者在结论中声称方法适用于"一般半参数回归模型",但证明主要针对线性回归和部分线性模型。对于更复杂的模型(如非参数回归或高维 \(X\)),理论保证可能需要额外条件。 - 作者声称 Shadow Variable 条件"在实践中容易满足",但证明中要求 \(S \perp R \mid Y, X\) 且 \(S\) 与 \(Y\) 强相关——这在实际数据中往往难以验证,是一个较强的假设。
四、开放问题¶
- 高维协变量下的 MNAR 效率估计:
- 本文设定 \(X\) 的维数 \(p\) 固定。若 \(p\) 随 \(n\) 增长甚至 \(p \gg n\),Sieve 方法的收敛速度和效率界如何变化?是否需要引入惩罚项或降维技术?
-
扎根点:本文理论部分假设 \(p\) 固定,且 Sieve 空间维数 \(K_n\) 随 \(n\) 增长,未讨论高维情形。
-
Shadow Variable 的检验与选择:
- 本文假设 \(S\) 已知且满足条件。实际中如何选择 \(S\)?如何检验 \(S \perp R \mid Y, X\) 这一不可验证的假设?
-
扎根点:实际数据应用部分直接指定了 \(S\),未讨论选择或检验方法。
-
Sieve 基函数个数 \(K_n\) 的选择:
- 理论要求 \(K_n\) 满足特定增长速度,但实际中如何用数据驱动的方法选择 \(K_n\)(如 Cross-Validation 或信息准则)?
-
扎根点:模拟部分使用了固定 \(K_n\),未深入讨论选择准则对有限样本表现的影响。
-
与 Doubly Robust 方法的结合:
- 本文方法依赖似然,未讨论是否可以构造双稳健估计量——即对结果模型 \(f(Y \mid X)\) 和缺失机制 \(\pi(Y, X)\) 中的一个正确设定即可保持一致性。
- 扎根点:引言中对比了鲁棒性与效率的权衡,但未提及双稳健路线,这可能是一个值得探索的交叉点。
Maintained by 陈星宇 · Homepage · Source on GitHub