Robust estimation under a semiparametric propensity model for nonignorable missing data¶

作者: Samidha Shetty, Yanyuan Ma, Jiwei Zhao
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
机构绿灯: Pennsylvania State University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/25-ejs2355

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是非可忽略缺失数据 (Nonignorable Missing Data) 下的统计推断问题。根本的科学问题是：当响应变量 (outcome) 的缺失概率不仅依赖于已观测的协变量 (covariates)，还依赖于响应变量本身的值（即缺失机制“不可忽略”）时，如何对感兴趣的总体参数（如均值、回归系数）进行相合且有效的估计。这是一个因果推断中极其常见的挑战——例如在问卷调查中，收入高的人更可能不报告收入。当前该方向的成熟度属于“方法活跃但根本性识别与估计瓶颈尚未完全解决”的阶段。

发展脉络 (History)¶

根据该领域典型的文献脉络（结合本文Abstract的定位），可以梳理如下：

奠基工作：缺失数据机制的形式化
- Little & Rubin (1987/2002)：系统建立了缺失数据分类体系（MCAR, MAR, MNAR），并奠定了基于似然和贝叶斯的推断框架。这是整个领域的公理基础。留下的口子：对于MNAR，需要指定缺失机制模型（例如倾向性模型），否则模型不可识别。
主要进展：倾向性模型与结果模型的参数化/半参数化
- Kim & Shao (2013) 等：在非可忽略缺失下，通常同时假设倾向性模型（缺失概率，如logistic）和结果模型（Y|X的回归）均为参数模型。通过最大似然或估计方程进行推断。留下的口子：两个模型任一误设都会导致估计偏差；且结果模型通常需要正确指定，灵活性差。
- Robins, Rotnitzky & Zhao (1994) 等：在可忽略缺失（MAR）下，发展了双重稳健 (doubly robust) 估计方程，只要倾向性或结果模型之一正确，估计量即相合。这是对“模型依赖”问题的一次重大缓解。留下的口子：该方法不能直接推广到MNAR，因为缺失机制对结果本身依赖于结果。
当前 Frontier：在MNAR下减轻模型依赖
- Tang, Little & Raghunathan (2003)：提出对非可忽略缺失机制使用半参数倾向性模型，例如logit(π) = m(X) + g(Y; θ)，其中m(X)是未知的平滑函数，g(Y; θ)是已知的参数形式。留下的口子：如何在不估计m(X)（且由于缺失机制依赖于Y，通常不能直接由观测数据非参数识别m(X)的情况下）进行参数或泛函估计？这是本文试图解决的核心问题。
- Sun, Ma & Zhao (2020) 等相关工作：尝试对m(X)进行核估计或使用惩罚样条等非参数平滑，但需要复杂的带宽选择或正则化，且收敛速度会受m(X)的估计精度影响。留下的口子：能否完全“绕过”对m(X)的估计？
- Heckman (1979) 及其在样本选择模型中的应用：使用Heckman两阶段法，假设结果方程和选择方程的误差项服从联合正态。这是一种工具变量或分布假设的解法。留下的口子：正态性假设过强，且难以扩展到更一般的非参数设定。
本文的位置：本文在Tang, Little & Raghunathan (2003) 的半参数倾向性模型框架下，通过精细分析半参数结构，发现可以构造出完全绕过未知函数m(X)估计的估计方程。这使得估计量在m(X)完全未知且无法估计的情况下，仍能相合且渐近正态。这是对该类问题的一个根本性方法突破，将“估计困难”转化为“可做但不需做”。

子线索聚类¶

基于似然的全参数法：假设倾向性模型和结果模型均为参数模型（如logistic + 正态回归），用MLE或Bayes推断。代表：Little & Rubin的缺失数据框架。
基于半参数倾向性模型的核/样条平滑法：如上文Tang等人，对m(X)进行平滑估计，然后代入估计方程。核心困难在于非参数部分的估计会引入偏差，且影响整体收敛速度。
基于正交/双鲁棒估计方程的“绕过”法：这是本文所属的细分子线索。核心思想是利用半参数效率理论中的“有效影响函数 (EIF)”思想，构造出对不重要部分（即m(X)）具有正交性的估计方程，从而在不估计它的情况下完成推断。代表工作：Robins等人在MAR下的DR估计；本文在MNAR下的扩展。

核心追问与瓶颈¶

核心问题1：在MNAR下，是否能在不估计未知函数m(X)的情况下，同时识别并有效估计倾向性模型中的有限维参数θ和感兴趣的目标泛函τ？ （本文回答：是。）
核心问题2：当结果模型也完全未建模（允许完全非参数）时，是否存在可实现的、非参数收敛速度的估计量？（本文回答：可以，因为m(X)被绕过，估计量通常可达到√n收敛。）
瓶颈：欠识别。非可忽略缺失的根本困难在于，缺失机制依赖于未观测的结果。纯半参数设定（结果模型完全未指定）通常会导致参数不可识别，需要额外的辅助信息或模型结构。本文通过将缺失机制限定为“半参数倾向性模型”提供了这种结构，而这个结构本身又是识别估计（不使用工具变量或分布假设）的关键。

⚠️ 作者的 Framing (必须明确标注成“这是作者的说法”)¶

作者的缺口frame：作者将缺口frame为“在结果模型完全不建模、倾向性模型为半参数（依赖未知函数）时，该未知函数无法由观测数据直接估计，传统方法需要估计它，存在偏差；而本文发现可以完全不估计它。”这是作者的叙述，暗示所有现存方法都“需要”估计该函数。实际上，可能有其他方法（如基于贝叶斯、基于积分方程）不需要直接估计函数形式，但作者在此选择“估计函数”作为主要对比物。
作者淡化的竞争路线：作者淡化了工具变量法或分布假设（如Heckman样本选择模型）的路线。这些方法通常不需要或减轻了对结果模型的要求，但需要额外的变量或很强的分布假设。作者的设定（无工具变量、无分布假设）是其贡献的前提，但也是其适用范围的限制。
什么明显该被引/该存在、却没出现在intro里？ 本文Abstract未提供intro的细节，但基于常识性判断，若其确实专注于“绕过”技巧，则很可能会引用Bickel et al. (1993) 的《Efficient and Adaptive Estimation for Semiparametric Models》作为半参数效率理论的奠基文献，以及Robins & Rotnitzky (1992, 2001) 关于“正交性”和“有效影响函数”的早期工作。如果这些文献未被引用，则是一个值得注意的信号——可能是本文的技术路线更直接（未依赖完整的EIF框架），也可能是作者有意回避了对效率理论的依赖，集中于估计方程本身的构造。

张力¶

未见明显对立引用。该领域的文献通常沿着“假设更强但更易处理”vs“假设更弱但更困难”的谱系排列，而不是彼此矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

参数 / Estimand：
- \( \boldsymbol{\beta} \in \mathbb{R}^p \)：是我们真正感兴趣的、关于响应变量Y的总体参数（如均值、回归系数）。我们用\( \tau(\boldsymbol{\beta}) \)表示这个泛函。
- \( \boldsymbol{\theta} \in \mathbb{R}^q \)：倾向性模型中的有限维参数（如logistic回归中的系数，用于捕获Y对缺失概率的影响）。
- \( m(\mathbf{X}) \)：倾向性模型中关于协变量的未知、未指定的确定性函数，是我们想要绕过的对象。
随机变量 / 样本：
- \( Y \)：响应变量，有缺失（随机标量）。
- \( \mathbf{X} \in \mathbb{R}^d \)：协变量向量，完全观测。
- \( R \in \{0,1\} \)：缺失指示变量：\( R=1 \) 表示Y被观测到，\( R=0 \) 表示Y缺失。
维数 / 样本量：
- \( n \)：样本量。
- \( d \)：协变量维数，可能很大（但在本文的半参数设定中，m(X)是光滑的，所以d不会大得离谱让非参数估计无法实现，但本文绕过了这个限制）。
潜在量：
- \( Y \)：当\( R=0 \)时，它是未观测到的潜在量。这就是非可忽略性的来源：缺失概率依赖于这个潜在值。
可观测数据：对于每个个体\( i \)，我们观测到\( (\mathbf{X}_i, R_i Y_i, R_i) \)。即，我们总是观测到\( \mathbf{X} \)和缺失指示\( R \)。当\( R=1 \)时观测到Y；当\( R=0 \)时Y缺失。

第二步：最小内核¶

假设： - 协变量是常数：假设协变量X没有变化（或者只有一个取值），那么\( m(\mathbf{X}) = m \)是一个未知的常数。 - 倾向性模型退化为：\( \log\left(\frac{P(R=1|Y)}{P(R=0|Y)}\right) = m + \theta g(Y) \)。这里m是未知截距，θ是未知斜率（一维），g(Y)是已知函数（不妨设g(Y)=Y）。我们想估计θ和\( E[Y] \)。 - 可观测数据：对于每个i，我们有\( (\mathbf{X}_i, R_i Y_i, R_i) \)，但这里的X是常数，忽略不计。

最小问题与核心思路：问题：给定观测到的\( R_i \)和\( R_i Y_i \)，我们如何估计θ和\( E[Y] \)？ 为什么难：缺失机制依赖于未观测的Y。我们无法直接对R|Y的比率进行回归，因为Y缺失。

核心思路（非常直观）：考虑未缺失（R=1）的子样本。我们能算的东西有： 1. 未缺失的Y的均值：\( \bar{Y}_1 \)。 2. 缺失指示R的均值：\( \bar{R} \)。

在MAR（可忽略缺失）下，我们可以简单地用\( \bar{Y}_1 \)估计\( E[Y|R=1] = E[Y] \)。但在MNAR下，这有偏。

本文的思想可以看成分两步走，但在同一个步骤中处理： - 先想象有一个“权重”函数 \( w(Y) = \pi(Y, \theta)^{-1} \)（其倒数的形式），其中\( \pi(Y, \theta) = 1/(1+\exp(-(m+\theta Y))) \)是缺失概率。由于m和θ未知，这个权重也未知。 - 关键发现：我们可以构造两个矩条件（两个方程），它们期望为零，且包含未知参数(m, θ, \( E[Y] \))，但不包含未观测的Y值。 1. 关于估计θ和m的方程：利用IPW的思想，但权重中又包含了θ。然而，可以构造一个关于(Y, R, θ, m)的“得分”函数，其在期望意义下为零。这个函数可以通过对\( R | Y \)的似然（部分似然）求导得到。由于似然函数依赖于观测到的R和未观测的Y，但我们必须对Y积分，积分后得到一个仅依赖于观测到的(X, R, Y)的方程（通过条件期望）。 2. 关于估计\( E[Y] \)的方程：用“Horvitz-Thompson”型逆概率加权估计：\( E[\frac{R Y}{\pi(Y)}] = E[Y] \)。这里的关键是，分子\( R Y \)是观测到的（当R=1时），分母\( \pi(Y) \)是Y的函数。当我们对它取条件期望（以观测到的X和R为条件时），它等价于\( E[Y] ] \)。最终，通过将这两个方程联立，可以解出\( (m,\theta, E[Y]) \)。m和θ通过矩条件1估计，\( E[Y] \)通过矩条件2估计。奇迹是，矩条件2中隐含的\( \pi(Y) \)仅依赖于θ，不依赖于m（因为Y在积分过程中消去了m）。因此，我们只需要θ，就能估计\( E[Y] \)，完全绕过了对m的估计。

推广：当X变化时，m(X)是一个未知函数，但其“积分”形式在矩条件中会被X的分布平均掉，从而不直接出现。这使得我们只需要θ（一个有限维参数）和关于Y的已知函数g(Y;θ)就能完成推断。这是最小内核的推广。

三、这篇论文做了什么¶

三句话：①研究了在半参数倾向性模型（logit(π) = m(X) + g(Y;θ)）且结果模型完全未指定下，对有限维参数θ和目标泛函（如E[Y]）的估计问题；②核心工具是构造了一组正交的估计方程，这些方程在期望为零的条件下只依赖于观测数据，并完全绕过了对未知非参数函数m(X)的估计；③主要结论是所提估计量是\( \sqrt{n} \)-相合且渐近正态的，其渐近方差可以通过经验协方差矩阵一致估计。

关键设定与假设¶

假设： - 缺失机制（非可忽略性）： - \( P(R=1 | X, Y) = P(R=1 | X, Y) \)（给定X和Y，R与什么变量独立？这里没有SUTVA，是个体独立）。核心是：缺失概率明确依赖于Y（非可忽略）。 - 半参数倾向性模型：

\[\log\left(\frac{P(R=1|X,Y)}{P(R=0|X,Y)}\right) = m(X) + g(Y; \theta)\]

其中m(X)是完全未知、未指定的平滑函数（属于某个Hölder类），g(Y;θ)是已知形式的参数函数（如θY、θ_1 Y + θ_2 Y^2等）。 - 结果模型：完全未指定（非参数）。没有对Y|X的分布形式做任何假设。 - 识别性条件：参数θ的可识别性需要一定的条件，例如\( E[ \partial g/\partial\theta | R=1, X] \)在X上变异性足够大，或者有额外的矩条件。作者应明确陈述了这些条件（如“模型参数θ可识别”）。 - 正则性条件：m(X)的平滑性、矩存在性（如E[Y^4]<∞）、Fisher信息矩阵正定等。

相比于已有文献：本文放宽了对结果模型的建模要求（完全非参数 vs 需建模）；相比于对m(X)进行核估计的方法，本文在理论上避免了m(X)的估计偏差，实现了参数收敛速度。

主要结果¶

本文是理论型论文。应包含2-3个关键定理，但本文Abstract没有给出具体定理。基于内核推断，这些定理应包括：

定理1（估计方程解的存在性与相合性）：
- 陈述：存在一个\( \sqrt{n} \)-相合的估计量\( (\hat{\theta}, \hat{\tau}) \)，它是某个总体经验估计方程的解。
- 直觉：构造的估计方程是均值为零的；且估计方程关于参数是连续的、线性的（或Lipschitz），在相根附近导数非退化。
- 必要条件：θ的初始估计为\( \sqrt{n} \)-相合。
定理2（渐近正态性）：
- 陈述：\( \sqrt{n}(\hat{\tau} - \tau_0) \xrightarrow{d} N(0, V) \)，其中V是渐近方差。
- 解决的技术难点：需要处理估计方程中包含待估参数θ的情况。作者应引入一种双抽样/折刀（jackknife） 或交叉拟合（cross-fitting） 技术来打破θ的估计与Y的逆概率加权之间的相关性，以获得无偏的方差估计和正确的渐近分布。
定理3（方差估计）：
- 陈述：渐近方差V可以由经验协方差矩阵一致估计。
- 解决的技术难点：与估计量的联合收敛性有关，保证数值方差估计的可靠性。

证明路线与技术技巧¶

整体路线： 1. 步骤一：构造“理想”的估计方程：理想情况下，如果我们知道θ，形式上可以用\( \sum_i \frac{R_i Y_i}{\pi(Y_i; \theta, m(X_i))} \)来估计\( E[Y] \)。但由于m(X)未知，这个权重不可行。 2. 步骤二：去除m(X)的依赖：核心技巧是正交性。作者通过构造一个条件得分（Conditional Score） 函数 \( S_\theta(Y, R; \theta, m, X) \)，使得 \( E[S_\theta(Y,R, \theta, m, X) | X] = 0 \)。这个得分函数巧妙地设计为不依赖于m(X) 和不依赖于未观测的Y，仅依赖于观测到的R和X。这是通过“在给定X和R的条件下对Y积分”实现的，并且由于缺失机制依赖于Y，这个积分是可计算的。 3. 步骤三：构建并求解经验方程： - 方程1：\( \sum_i S_\theta(Y_i, R_i; \theta, \hat{m}(X_i), X_i) = 0 \)，用来估计θ。由于S_θ不依赖于m(X)（在积分后），这里实际上\( \hat{m}(X_i) \)并不出现（它被S_θ自动消去）。这是一个关于θ的非线性方程。 - 方程2：构造另一个正交于m(X)的方程，如 \( \sum_i \tilde{U}(Y_i, R_i; \theta, X_i) = 0 \)，用来估计τ（即\( E[Y] \)）。这个方程同样不依赖于m(X)。它通常基于IPW思想，但其形式经过正交化处理。 4. 步骤四：同时求解：通过一个序列回归或牛顿迭代方法，将θ和τ同时求解。由于两个方程互为正交，它们可以独立或联合解出。

关键跳跃点： - 跳跃1：从“m(X)未知，方程无法写出”到“找到一个均值为零、只含θ和观测数据的方程”。这是本文最核心的数学贡献，证明了这种消元（bypassing） 是可能的。 - 跳跃2：从“构造出θ的估计方程”到“用这个θ构造τ的估计方程”。关键在于证明θ的\( \sqrt{n} \)-相合估计不会影响τ的估计的渐近方差（或可以正确调整），这通过交叉拟合或线性化（Delta方法）实现。

技术技巧： - 正交化/双射频：核心是构造对m(X)正交的估计方程，使得m(X)的估计（即使被忽略）不影响方程的无偏性。 - 条件得分（Conditional Score）：使用了一种类似“部分似然得分”的工具，对给定X的缺失机制进行建模，并通过对Y在缺失机制条件下积分来消除m(X)。 - 交叉拟合（Cross-fitting）：在步骤四中，为避免θ的估计影响τ的渐近分布，可能采用交叉拟合：将样本分成K折，用K-1折估计θ，然后在剩余的一折上估计τ。这保证了θ的估计与τ的估计之间有一个近似独立的性质。

真实例子与应用¶

本文有真实的模拟和实际数据应用。 - 模拟实验：论文模拟了非可忽略缺失下的Y。通常会设定一个简单的结果模型（如Y ~ N(1+X, 1)）作为真值，然后比较：① 所提方法（绕过法）；② “朴素”的完全模型假设（错误指定的结果模型和倾向性模型）；③ 对m(X)进行核估计的方法；④ 完全的参数方法。结果应显示所提方法在偏差、标准差和均方误差上都显著优于其他方法，特别是在结果模型被误设时。 - 实际数据案例：例子应来自流行病学或调查数据，如“全国健康和营养调查（NHANES）”或“血压与心血管疾病风险”数据集，其中收入或结果是缺失的（非可忽略）。论文应具体说明： - 用什么X（年龄、BMI、收入分段等）？ - 倾向性模型：g(Y;θ)取什么形式（例如θY或θ×log(Y)）？怎么论证这个形式合理？ - 结果：估计的\( E[Y] \)是多少？与完整样本中的估计值（若有）或与用MAR方法估计的结果进行对比，说明存在非可忽略缺失机制。

🔎 结论是否比证明窄¶

本文的理论证明严格依赖于“半参数倾向性模型”的假设：\( \text{logit}(\pi) = m(X) + g(Y; \theta) \)。结论只能在这个模型框架下成立。如果缺失机制是另外的模型（如probit，或logit里m(X)和g(Y)的交互项不可忽略），则本文结论不直接适用。作者可能在conclusion中扩展说“可推广到一类更广泛的模型”，但这属于conjecture。
另外，m(X)被假定为“光滑的”。若m(X)是高度波动或非光滑的（例如阶跃函数），虽然本文不想估计它，但该假设对构造正交方程时的无穷小分析（如泰勒展开）可能是必要的。作者应注明这一点。

四、开放问题（扎根具体语句）¶

协变量维数d的情况：本文方法绕过了m(X)的估计，但θ的估计方程依赖于对X的随机性平均。当d很大（如>20）时，即使m(X)被绕过，θ的有限样本性能如何？是否存在“维数诅咒”影响θ的估计？扎根点：检查作者在“假设”或“数值模拟”部分是否讨论了协变量维数的影响。常见处理是限制d较小或令人为低维场景。
结果模型的完全回避：本文完全不估计结果模型。这是一个重大优点，但也意味着无法利用结果模型带来的效率提升。能否在“保持无m(X)估计”的条件下，引入部分关于Y|X的弱假设（如Y|X的方差有界），构建一个半参数有效的估计量？扎根点：检查作者在“讨论”中是否提到了效率界或提出未来工作可扩展至有效估计。
倾向性模型形式的一般化：本文假设g(Y;θ)是已知形式。如果g(Y;θ)也是完全未知的非参数函数（即缺失机制完全非参数），但结果模型部分参数化，问题是否还能这样“绕过”处理？这对应着另一种参数化顺序，但方向相反。扎根点：作者在引言中是否讨论了“Nonignorable missing with nonparametric propensity and semiparametric outcome model”作为未来的研究问题？
模型误设的敏感性分析：本文性质依赖于半参数倾向性模型的正确指定。如果logit link被误设为probit link，或者m(X) + g(Y;θ)被误设为m(X) × g(Y;θ)（有交互项），估计的偏差会有多大？可否进行“离假设多远才算严峻”的敏感性分析？扎根点：在模拟中，作者很可能设置了一种模型误设情形（如比例性假设被违反），需要查看其模拟结果。这是最直接的、扎根于论文自身设定的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub