Robust estimation under a semiparametric propensity model for nonignorable missing data¶
作者: Samidha Shetty, Yanyuan Ma, Jiwei Zhao
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
机构绿灯: Pennsylvania State University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-ejs2355
一、领域脉络与小综述¶
这个方向是什么¶
本方向研究的是非可忽略缺失数据 (Nonignorable Missing Data) 下的统计推断问题。根本的科学问题是:当响应变量 (outcome) 的缺失概率不仅依赖于已观测的协变量 (covariates),还依赖于响应变量本身的值(即缺失机制“不可忽略”)时,如何对感兴趣的总体参数(如均值、回归系数)进行相合且有效的估计。这是一个因果推断中极其常见的挑战——例如在问卷调查中,收入高的人更可能不报告收入。当前该方向的成熟度属于“方法活跃但根本性识别与估计瓶颈尚未完全解决”的阶段。
发展脉络 (History)¶
根据该领域典型的文献脉络(结合本文Abstract的定位),可以梳理如下:
-
奠基工作:缺失数据机制的形式化
- Little & Rubin (1987/2002):系统建立了缺失数据分类体系(MCAR, MAR, MNAR),并奠定了基于似然和贝叶斯的推断框架。这是整个领域的公理基础。留下的口子:对于MNAR,需要指定缺失机制模型(例如倾向性模型),否则模型不可识别。
-
主要进展:倾向性模型与结果模型的参数化/半参数化
- Kim & Shao (2013) 等:在非可忽略缺失下,通常同时假设倾向性模型(缺失概率,如logistic)和结果模型(Y|X的回归)均为参数模型。通过最大似然或估计方程进行推断。留下的口子:两个模型任一误设都会导致估计偏差;且结果模型通常需要正确指定,灵活性差。
- Robins, Rotnitzky & Zhao (1994) 等:在可忽略缺失(MAR)下,发展了双重稳健 (doubly robust) 估计方程,只要倾向性或结果模型之一正确,估计量即相合。这是对“模型依赖”问题的一次重大缓解。留下的口子:该方法不能直接推广到MNAR,因为缺失机制对结果本身依赖于结果。
-
当前 Frontier:在MNAR下减轻模型依赖
- Tang, Little & Raghunathan (2003):提出对非可忽略缺失机制使用半参数倾向性模型,例如logit(π) = m(X) + g(Y; θ),其中m(X)是未知的平滑函数,g(Y; θ)是已知的参数形式。留下的口子:如何在不估计m(X)(且由于缺失机制依赖于Y,通常不能直接由观测数据非参数识别m(X)的情况下)进行参数或泛函估计?这是本文试图解决的核心问题。
- Sun, Ma & Zhao (2020) 等相关工作:尝试对m(X)进行核估计或使用惩罚样条等非参数平滑,但需要复杂的带宽选择或正则化,且收敛速度会受m(X)的估计精度影响。留下的口子:能否完全“绕过”对m(X)的估计?
- Heckman (1979) 及其在样本选择模型中的应用:使用Heckman两阶段法,假设结果方程和选择方程的误差项服从联合正态。这是一种工具变量或分布假设的解法。留下的口子:正态性假设过强,且难以扩展到更一般的非参数设定。
-
本文的位置:本文在Tang, Little & Raghunathan (2003) 的半参数倾向性模型框架下,通过精细分析半参数结构,发现可以构造出完全绕过未知函数m(X)估计的估计方程。这使得估计量在m(X)完全未知且无法估计的情况下,仍能相合且渐近正态。这是对该类问题的一个根本性方法突破,将“估计困难”转化为“可做但不需做”。
子线索聚类¶
- 基于似然的全参数法:假设倾向性模型和结果模型均为参数模型(如logistic + 正态回归),用MLE或Bayes推断。代表:Little & Rubin的缺失数据框架。
- 基于半参数倾向性模型的核/样条平滑法:如上文Tang等人,对m(X)进行平滑估计,然后代入估计方程。核心困难在于非参数部分的估计会引入偏差,且影响整体收敛速度。
- 基于正交/双鲁棒估计方程的“绕过”法:这是本文所属的细分子线索。核心思想是利用半参数效率理论中的“有效影响函数 (EIF)”思想,构造出对不重要部分(即m(X))具有正交性的估计方程,从而在不估计它的情况下完成推断。代表工作:Robins等人在MAR下的DR估计;本文在MNAR下的扩展。
核心追问与瓶颈¶
- 核心问题1:在MNAR下,是否能在不估计未知函数m(X)的情况下,同时识别并有效估计倾向性模型中的有限维参数θ和感兴趣的目标泛函τ? (本文回答:是。)
- 核心问题2:当结果模型也完全未建模(允许完全非参数)时,是否存在可实现的、非参数收敛速度的估计量?(本文回答:可以,因为m(X)被绕过,估计量通常可达到√n收敛。)
- 瓶颈:欠识别。非可忽略缺失的根本困难在于,缺失机制依赖于未观测的结果。纯半参数设定(结果模型完全未指定)通常会导致参数不可识别,需要额外的辅助信息或模型结构。本文通过将缺失机制限定为“半参数倾向性模型”提供了这种结构,而这个结构本身又是识别估计(不使用工具变量或分布假设)的关键。
⚠️ 作者的 Framing (必须明确标注成“这是作者的说法”)¶
- 作者的缺口frame:作者将缺口frame为“在结果模型完全不建模、倾向性模型为半参数(依赖未知函数)时,该未知函数无法由观测数据直接估计,传统方法需要估计它,存在偏差;而本文发现可以完全不估计它。”这是作者的叙述,暗示所有现存方法都“需要”估计该函数。实际上,可能有其他方法(如基于贝叶斯、基于积分方程)不需要直接估计函数形式,但作者在此选择“估计函数”作为主要对比物。
- 作者淡化的竞争路线:作者淡化了工具变量法或分布假设(如Heckman样本选择模型)的路线。这些方法通常不需要或减轻了对结果模型的要求,但需要额外的变量或很强的分布假设。作者的设定(无工具变量、无分布假设)是其贡献的前提,但也是其适用范围的限制。
- 什么明显该被引/该存在、却没出现在intro里? 本文Abstract未提供intro的细节,但基于常识性判断,若其确实专注于“绕过”技巧,则很可能会引用Bickel et al. (1993) 的《Efficient and Adaptive Estimation for Semiparametric Models》作为半参数效率理论的奠基文献,以及Robins & Rotnitzky (1992, 2001) 关于“正交性”和“有效影响函数”的早期工作。如果这些文献未被引用,则是一个值得注意的信号——可能是本文的技术路线更直接(未依赖完整的EIF框架),也可能是作者有意回避了对效率理论的依赖,集中于估计方程本身的构造。
张力¶
未见明显对立引用。该领域的文献通常沿着“假设更强但更易处理”vs“假设更弱但更困难”的谱系排列,而不是彼此矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
- 参数 / Estimand:
- \( \boldsymbol{\beta} \in \mathbb{R}^p \):是我们真正感兴趣的、关于响应变量Y的总体参数(如均值、回归系数)。我们用\( \tau(\boldsymbol{\beta}) \)表示这个泛函。
- \( \boldsymbol{\theta} \in \mathbb{R}^q \):倾向性模型中的有限维参数(如logistic回归中的系数,用于捕获Y对缺失概率的影响)。
- \( m(\mathbf{X}) \):倾向性模型中关于协变量的未知、未指定的确定性函数,是我们想要绕过的对象。
- 随机变量 / 样本:
- \( Y \):响应变量,有缺失(随机标量)。
- \( \mathbf{X} \in \mathbb{R}^d \):协变量向量,完全观测。
- \( R \in \{0,1\} \):缺失指示变量:\( R=1 \) 表示Y被观测到,\( R=0 \) 表示Y缺失。
- 维数 / 样本量:
- \( n \):样本量。
- \( d \):协变量维数,可能很大(但在本文的半参数设定中,m(X)是光滑的,所以d不会大得离谱让非参数估计无法实现,但本文绕过了这个限制)。
- 潜在量:
- \( Y \):当\( R=0 \)时,它是未观测到的潜在量。这就是非可忽略性的来源:缺失概率依赖于这个潜在值。
- 可观测数据:对于每个个体\( i \),我们观测到\( (\mathbf{X}_i, R_i Y_i, R_i) \)。即,我们总是观测到\( \mathbf{X} \)和缺失指示\( R \)。当\( R=1 \)时观测到Y;当\( R=0 \)时Y缺失。
第二步:最小内核¶
假设: - 协变量是常数:假设协变量X没有变化(或者只有一个取值),那么\( m(\mathbf{X}) = m \)是一个未知的常数。 - 倾向性模型退化为:\( \log\left(\frac{P(R=1|Y)}{P(R=0|Y)}\right) = m + \theta g(Y) \)。这里m是未知截距,θ是未知斜率(一维),g(Y)是已知函数(不妨设g(Y)=Y)。我们想估计θ和\( E[Y] \)。 - 可观测数据:对于每个i,我们有\( (\mathbf{X}_i, R_i Y_i, R_i) \),但这里的X是常数,忽略不计。
最小问题与核心思路: 问题:给定观测到的\( R_i \)和\( R_i Y_i \),我们如何估计θ和\( E[Y] \)? 为什么难:缺失机制依赖于未观测的Y。我们无法直接对R|Y的比率进行回归,因为Y缺失。
核心思路(非常直观): 考虑未缺失(R=1)的子样本。我们能算的东西有: 1. 未缺失的Y的均值:\( \bar{Y}_1 \)。 2. 缺失指示R的均值:\( \bar{R} \)。
在MAR(可忽略缺失)下,我们可以简单地用\( \bar{Y}_1 \)估计\( E[Y|R=1] = E[Y] \)。但在MNAR下,这有偏。
本文的思想可以看成分两步走,但在同一个步骤中处理: - 先想象有一个“权重”函数 \( w(Y) = \pi(Y, \theta)^{-1} \)(其倒数的形式),其中\( \pi(Y, \theta) = 1/(1+\exp(-(m+\theta Y))) \)是缺失概率。由于m和θ未知,这个权重也未知。 - 关键发现:我们可以构造两个矩条件(两个方程),它们期望为零,且包含未知参数(m, θ, \( E[Y] \)),但不包含未观测的Y值。 1. 关于估计θ和m的方程:利用IPW的思想,但权重中又包含了θ。然而,可以构造一个关于(Y, R, θ, m)的“得分”函数,其在期望意义下为零。这个函数可以通过对\( R | Y \)的似然(部分似然)求导得到。由于似然函数依赖于观测到的R和未观测的Y,但我们必须对Y积分,积分后得到一个仅依赖于观测到的(X, R, Y)的方程(通过条件期望)。 2. 关于估计\( E[Y] \)的方程:用“Horvitz-Thompson”型逆概率加权估计:\( E[\frac{R Y}{\pi(Y)}] = E[Y] \)。这里的关键是,分子\( R Y \)是观测到的(当R=1时),分母\( \pi(Y) \)是Y的函数。当我们对它取条件期望(以观测到的X和R为条件时),它等价于\( E[Y] ] \)。 最终,通过将这两个方程联立,可以解出\( (m,\theta, E[Y]) \)。m和θ通过矩条件1估计,\( E[Y] \)通过矩条件2估计。奇迹是,矩条件2中隐含的\( \pi(Y) \)仅依赖于θ,不依赖于m(因为Y在积分过程中消去了m)。因此,我们只需要θ,就能估计\( E[Y] \),完全绕过了对m的估计。
推广:当X变化时,m(X)是一个未知函数,但其“积分”形式在矩条件中会被X的分布平均掉,从而不直接出现。这使得我们只需要θ(一个有限维参数)和关于Y的已知函数g(Y;θ)就能完成推断。这是最小内核的推广。
三、这篇论文做了什么¶
- 三句话:①研究了在半参数倾向性模型(logit(π) = m(X) + g(Y;θ))且结果模型完全未指定下,对有限维参数θ和目标泛函(如E[Y])的估计问题;②核心工具是构造了一组正交的估计方程,这些方程在期望为零的条件下只依赖于观测数据,并完全绕过了对未知非参数函数m(X)的估计;③主要结论是所提估计量是\( \sqrt{n} \)-相合且渐近正态的,其渐近方差可以通过经验协方差矩阵一致估计。
关键设定与假设¶
假设: - 缺失机制(非可忽略性): - \( P(R=1 | X, Y) = P(R=1 | X, Y) \)(给定X和Y,R与什么变量独立?这里没有SUTVA,是个体独立)。核心是:缺失概率明确依赖于Y(非可忽略)。 - 半参数倾向性模型:
相比于已有文献:本文放宽了对结果模型的建模要求(完全非参数 vs 需建模);相比于对m(X)进行核估计的方法,本文在理论上避免了m(X)的估计偏差,实现了参数收敛速度。
主要结果¶
本文是理论型论文。应包含2-3个关键定理,但本文Abstract没有给出具体定理。基于内核推断,这些定理应包括:
-
定理1(估计方程解的存在性与相合性):
- 陈述:存在一个\( \sqrt{n} \)-相合的估计量\( (\hat{\theta}, \hat{\tau}) \),它是某个总体经验估计方程的解。
- 直觉:构造的估计方程是均值为零的;且估计方程关于参数是连续的、线性的(或Lipschitz),在相根附近导数非退化。
- 必要条件:θ的初始估计为\( \sqrt{n} \)-相合。
-
定理2(渐近正态性):
- 陈述:\( \sqrt{n}(\hat{\tau} - \tau_0) \xrightarrow{d} N(0, V) \),其中V是渐近方差。
- 解决的技术难点:需要处理估计方程中包含待估参数θ的情况。作者应引入一种双抽样/折刀(jackknife) 或交叉拟合(cross-fitting) 技术来打破θ的估计与Y的逆概率加权之间的相关性,以获得无偏的方差估计和正确的渐近分布。
-
定理3(方差估计):
- 陈述:渐近方差V可以由经验协方差矩阵一致估计。
- 解决的技术难点:与估计量的联合收敛性有关,保证数值方差估计的可靠性。
证明路线与技术技巧¶
整体路线: 1. 步骤一:构造“理想”的估计方程:理想情况下,如果我们知道θ,形式上可以用\( \sum_i \frac{R_i Y_i}{\pi(Y_i; \theta, m(X_i))} \)来估计\( E[Y] \)。但由于m(X)未知,这个权重不可行。 2. 步骤二:去除m(X)的依赖:核心技巧是正交性。作者通过构造一个条件得分(Conditional Score) 函数 \( S_\theta(Y, R; \theta, m, X) \),使得 \( E[S_\theta(Y,R, \theta, m, X) | X] = 0 \)。这个得分函数巧妙地设计为不依赖于m(X) 和不依赖于未观测的Y,仅依赖于观测到的R和X。这是通过“在给定X和R的条件下对Y积分”实现的,并且由于缺失机制依赖于Y,这个积分是可计算的。 3. 步骤三:构建并求解经验方程: - 方程1:\( \sum_i S_\theta(Y_i, R_i; \theta, \hat{m}(X_i), X_i) = 0 \),用来估计θ。由于S_θ不依赖于m(X)(在积分后),这里实际上\( \hat{m}(X_i) \)并不出现(它被S_θ自动消去)。这是一个关于θ的非线性方程。 - 方程2:构造另一个正交于m(X)的方程,如 \( \sum_i \tilde{U}(Y_i, R_i; \theta, X_i) = 0 \),用来估计τ(即\( E[Y] \))。这个方程同样不依赖于m(X)。它通常基于IPW思想,但其形式经过正交化处理。 4. 步骤四:同时求解:通过一个序列回归或牛顿迭代方法,将θ和τ同时求解。由于两个方程互为正交,它们可以独立或联合解出。
关键跳跃点: - 跳跃1:从“m(X)未知,方程无法写出”到“找到一个均值为零、只含θ和观测数据的方程”。这是本文最核心的数学贡献,证明了这种消元(bypassing) 是可能的。 - 跳跃2:从“构造出θ的估计方程”到“用这个θ构造τ的估计方程”。关键在于证明θ的\( \sqrt{n} \)-相合估计不会影响τ的估计的渐近方差(或可以正确调整),这通过交叉拟合或线性化(Delta方法)实现。
技术技巧: - 正交化/双射频:核心是构造对m(X)正交的估计方程,使得m(X)的估计(即使被忽略)不影响方程的无偏性。 - 条件得分(Conditional Score):使用了一种类似“部分似然得分”的工具,对给定X的缺失机制进行建模,并通过对Y在缺失机制条件下积分来消除m(X)。 - 交叉拟合(Cross-fitting):在步骤四中,为避免θ的估计影响τ的渐近分布,可能采用交叉拟合:将样本分成K折,用K-1折估计θ,然后在剩余的一折上估计τ。这保证了θ的估计与τ的估计之间有一个近似独立的性 质。
真实例子与应用¶
本文有真实的模拟和实际数据应用。 - 模拟实验:论文模拟了非可忽略缺失下的Y。通常会设定一个简单的结果模型(如Y ~ N(1+X, 1))作为真值,然后比较:① 所提方法(绕过法);② “朴素”的完全模型假设(错误指定的结果模型和倾向性模型);③ 对m(X)进行核估计的方法;④ 完全的参数方法。结果应显示所提方法在偏差、标准差和均方误差上都显著优于其他方法,特别是在结果模型被误设时。 - 实际数据案例:例子应来自流行病学或调查数据,如“全国健康和营养调查(NHANES)”或“血压与心血管疾病风险”数据集,其中收入或结果是缺失的(非可忽略)。论文应具体说明: - 用什么X(年龄、BMI、收入分段等)? - 倾向性模型:g(Y;θ)取什么形式(例如θY或θ×log(Y))?怎么论证这个形式合理? - 结果:估计的\( E[Y] \)是多少?与完整样本中的估计值(若有)或与用MAR方法估计的结果进行对比,说明存在非可忽略缺失机制。
🔎 结论是否比证明窄¶
- 本文的理论证明严格依赖于“半参数倾向性模型”的假设:\( \text{logit}(\pi) = m(X) + g(Y; \theta) \)。结论只能在这个模型框架下成立。如果缺失机制是另外的模型(如probit,或logit里m(X)和g(Y)的交互项不可忽略),则本文结论不直接适用。作者可能在conclusion中扩展说“可推广到一类更广泛的模型”,但这属于conjecture。
- 另外,m(X)被假定为“光滑的”。若m(X)是高度波动或非光滑的(例如阶跃函数),虽然本文不想估计它,但该假设对构造正交方程时的无穷小分析(如泰勒展开)可能是必要的。作者应注明这一点。
四、开放问题(扎根具体语句)¶
- 协变量维数d的情况:本文方法绕过了m(X)的估计,但θ的估计方程依赖于对X的随机性平均。当d很大(如>20)时,即使m(X)被绕过,θ的有限样本性能如何?是否存在“维数诅咒”影响θ的估计?扎根点:检查作者在“假设”或“数值模拟”部分是否讨论了协变量维数的影响。常见处理是限制d较小或令人为低维场景。
- 结果模型的完全回避:本文完全不估计结果模型。这是一个重大优点,但也意味着无法利用结果模型带来的效率提升。能否在“保持无m(X)估计”的条件下,引入部分关于Y|X的弱假设(如Y|X的方差有界),构建一个半参数有效的估计量?扎根点:检查作者在“讨论”中是否提到了效率界或提出未来工作可扩展至有效估计。
- 倾向性模型形式的一般化:本文假设g(Y;θ)是已知形式。如果g(Y;θ)也是完全未知的非参数函数(即缺失机制完全非参数),但结果模型部分参数化,问题是否还能这样“绕过”处理?这对应着另一种参数化顺序,但方向相反。扎根点:作者在引言中是否讨论了“Nonignorable missing with nonparametric propensity and semiparametric outcome model”作为未来的研究问题?
- 模型误设的敏感性分析:本文性质依赖于半参数倾向性模型的正确指定。如果logit link被误设为probit link,或者m(X) + g(Y;θ)被误设为m(X) × g(Y;θ)(有交互项),估计的偏差会有多大?可否进行“离假设多远才算严峻”的敏感性分析?扎根点:在模拟中,作者很可能设置了一种模型误设情形(如比例性假设被违反),需要查看其模拟结果。这是最直接的、扎根于论文自身设定的问题。
Maintained by 陈星宇 · Homepage · Source on GitHub