Shape‐restricted statistical inference for non‐ignorable missing data under a general additive model¶

作者: Junjun Lang, Yukun Liu, Jing Qin
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: https://doi.org/10.1111/sjos.70051

一、领域脉络与小综述¶

这个方向是什么¶

非可忽略缺失数据（Non-Ignorable Missing Data, NIMD）下的识别与推断。核心统计问题是：当结局变量 \(Y\) 的缺失概率依赖于 \(Y\) 本身（即使控制了协变量 \(X\)）时，如何仅从观测到的 \((R=1, Y, X)\) 与 \((R=0, X)\) 数据中一致估计总体均值 \(\mu = \mathbb{E}[Y]\)？此问题被称为“非可忽略缺失”，因缺失机制不可由观测数据完全解释，识别必须依靠额外假设（如工具变量、参数化缺失模型（selection model）、或 shadow 变量等）。本文切入点是：在一般可加模型（general additive model）与形状约束（shape restrictions）下，借助一个工具变量（instrumental variable, IV）实现识别，并构造无需调参的估计量。

发展脉络（history）¶

奠基工作：非可忽略缺失的 IV 识别与参数模型。 Rotnitzky & Robins (1997) 在半参数框架下系统处理了非可忽略缺失与协变量缺失的识别，提出逆概率加权与双稳健估计。作者对此的引用定位是：“Missing data problems become challenging when the missingness of the outcome depends on itself, which means the data are non‐ignorable missing”（引言第一句）。 Kennickell (1999) 首次明确提出利用工具变量（IV）识别非可忽略缺失下的均值，条件是存在一个变量 \(Z\) 在给定协变量后与 \(Y\) 独立但影响缺失概率。后续工作如 Tang et al. (2003) 和 Qin et al. (2002) 将 IV 方法扩展到半参数指数族，并建立了识别与渐近推断。这是参数-半参数路线的基础——要求缺失模型（如 Logistic 回归）的函数形式完全指定。
主要进展：从完全参数到半参数与形状约束。为了解决参数模型误设带来的偏倚， Liang & Qin (2009) 提出了在 Logistic 缺失模型中用光滑函数（样条、核）近似每个协变量效应，即“一般可加模型”，同时保留 IV 识别结构。这降低了参数模型的强假设，但样本内光滑参数（bandwidth / knots）选取带来了调参问题，且光滑性假设本身缺少有应对方向的形状约束。 Diao et al. (2021) 与 Zhao & Shao (2024) 在非参数或可加模型下加入了形状约束（单调性、凸/凹性），证明了这可以改善可解释性与有限样本表现，但仍未完全排除调参环节。
当前 frontier：无需调参的形状约束推断。本文作者声称的贡献是：“We develop a shape‐restricted and tuning‐parameter‐free estimator for the population outcome mean with the help of an instrument variable.” 他们首次在一个一般可加模型（每个可加成分为形状约束函数）下构造的估计量完全不需要选择光滑参数或核函数，直接基于约束极大似然（constrained MLE）求解，并在该框架下系统证明了相合性、收敛速率与渐近正态性。
本文的位置：本文处在“非参数形状约束 + 一般可加模型 → 非可忽略缺失 IV 识别”这个交点上，是对 Llang & Qin (2009) 参数-可加模型路线的形状约束泛化，也是对 Diao et al. (2021) 单纯单变量形状约束的可加多维版本的推广，同时声称去掉调参环节。

子线索聚类¶

子线索 A：参数 / 半参数缺失模型（Selection Model）——如 Rotnitzky & Robins (1997), Qin et al. (2002), Tang et al. (2003) 。核心假设是缺失概率的函数形式（如 Logistic 线性）完全已知，只含有限维参数。优点是识别简单、渐近效率高；缺点是模型误设时严重偏倚。
子线索 B：非参数 / 半参数 IV 识别——如 Llang & Qin (2009), Wang et al. (2014), 或者利用光滑函数（样条）近似缺失概率中协变量的效应，但仍然需要调参（Bandwidth / knots）。这类工作挑战了大样本下的偏倚—方差权衡，但理论（收敛速率、正态性）通常依赖额外的光滑性假设。
子线索 C：形状约束下的统计推断（不限于缺失数据）——如 van der Laan & Lopuhaä (1997)，当被估计函数满足单调性或凸性时，可以用无调参的极大似然（Isotonic / convex regression）获得收敛速率，甚至有时是根号 n 可径的。本文把它嫁接到了缺失数据的 IV 识别场景。

这个方向在追问的核心问题¶

识别所需的 IV 假设“给定 \(X\) 后，\(Z \perp Y\)”在该缺失设定下究竟有多强？它是否被可检测或进行敏感性分析？
在非参数或形状约束下，能否达到参数化的 \(\sqrt{n}\) 收敛速率？还是因为形状约束带来非光滑目标函数，只能得到较慢的 \(n^{-1/3}\) 或 \(n^{-2/5}\) 等幂律？
形状约束下的推断是否真正“tuning-parameter-free”？形状约束本身即是一种调参（单调 vs. 凸 vs. 任意光滑），这引入了一种“定性调参”而非定量调参的抉择。
在弱 IV（即 IV 与缺失概率关联很弱）下，形状约束估计量如何退化，需否额外的条件。

⚠️ 作者的 framing¶

作者把缺口 frame 成：“参数模型太脆，非参数不可扩展，光滑参数选择繁琐——形状约束刚好在解释性与泛化之间取得平衡，而且我们可以无调参”。他们淡化的东西：

对 IV 有效性的讨论：他们在“with the help of an instrument variable”一笔带过，并未讨论 IV 的质量（弱 IV、近零关联等），而这是实际应用中常见困难。
光滑性 vs. 形状约束的关系：形状约束本身就是一种“光滑性”（单调性排除剧烈震荡），文中并未检验这种约束在实证数据中是否合理（如是否应只考单调性而不是凸凹）。该被存在但没有出现在 intro 的文献：没有引用任何关于“检测形状约束假设”的工作（如 testing monotonicity / convexity 的文献，或关于“应否假设单调的 sensitivity”）。这值得研究者去查——是否实际缺失机制的真实形状被误定为单调但仍可识别均值？这种错配是否在有限样本下造成偏倚？

张力¶

文中未见明显对立引用。所有被引工作似乎一致地认为形状约束可改善估计质量，只是在实施方式上有所差异。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

\(Y\)：结局变量（连续或离散；是目标总体均值的源头）。
\(R\)：缺失指示符，\(R = 1\) 当且仅当 \(Y\) 被观测到；否则 \(R = 0\)。
\(X = (X_1, \dots, X_p)^\top\)：协变量向量（可完全观测）。
\(Z\)：工具变量（instrumental variable），假定与 \(Y\) 在给定 \(X\) 后独立（\(Z \perp Y \mid X\)），且影响缺失概率。
\(\pi(Z, X) = \mathbb{P}(R = 1 \mid Y, X, Z)\)：缺失概率。核心假设是：
\[\pi(Z, X) = \mathbb{P}(R = 1 \mid Y, X, Z) = \frac{\exp(\psi(Y, X, Z))}{1 + \exp(\psi(Y, X, Z))},\]
其中 \(\psi(Y, X, Z) = \beta_0 + f_1(X_1) + \cdots + f_p(X_p) + \gamma Z + \delta Y\)。注意此为“非可忽略”的体现——缺失概率直接依赖 \(Y\)（通过系数 \(\delta\)）。此外识别所倚靠的是假设 \(\gamma \neq 0\)（即 \(Z\) 在给定 \((X, Y)\) 下仍影响缺失概率）且 \(Z \perp Y \mid X\)。
\(\mu = \mathbb{E}[Y]\)：待估的总体均值，是唯一的目标 estimand。

可观测数据：来自两个“类型”： - 观测到的个体（\(R_i=1\)）：\((Y_i, X_i, Z_i)\) 全观测。 - 缺失的个体（\(R_i=0\)）：只能观测到 \((X_i, Z_i)\)，\(Y_i\) 不可见。研究者知道每个样本的 \(R\) 值，可以区分这两种情况。不可观测的是缺失个体的 \(Y\) 值 \((\{Y_i: R_i=0\})\)，以及每个个体的缺失概率 \(\pi(Z_i,X_i)\)（它依赖不可观测的 \(Y\)，因而无法直接由观测数据估计）。

潜在介入量：无，这是一个“始终受缺失阻碍”的设置，不存在反事实。

第二步：讲最小内核——最简特例¶

让一切退化为单变量协变量、单调效应的情况：

设 \(p = 1\)，即只有一个协变量 \(X\)（连续）。
形状约束：\(f_1(\cdot)\) 是单调递增的已知函数（如单调非递减）。
已知 IV 的系数 \(\gamma\) 已固定为 1（不失去一般性，实际估计时可以同时估计）。
将模型简化为：
\[\mathbb{P}(R = 1 \mid Y, X, Z) = \frac{\exp(\beta_0 + f_1(X) + Z + \delta Y)}{1 + \exp(\beta_0 + f_1(X) + Z + \delta Y)},\]
其中 \(\delta\) 是常数（非零），且 \(f_1\) 是单调递增。目标是估计 \(\mu = \mathbb{E}[Y]\)。

在这个特例下，识别问题退化成什么？ 识别依赖如下事实：在给定 \(X\) 后，工具变量 \(Z\) 提供了一个额外的“重复测量”，使我们能比较两个同 \(X\) 但不同 \(Z\) 值的个体。具体策略（见于 Keyfitz & Littman (1978), 后更名为“排除因缺失的 IV 识别”）是： - 取任意两个 \(Z\) 值 \(z_1 \neq z_2\)（固定 \(X=x\)），一阶条件为

\[\frac{\mathbb{P}(R=1 \mid X=x, Z=z_1)}{1-\mathbb{P}(R=1 \mid X=x, Z=z_1)} = e^{(z_1 - z_2) + \delta \tilde{y}(x)},\]

其中 \(\tilde{y}(x)\) 是给定 \(X=x\) 的某一均值（本质上是导出缺失概率的对数比值），由此可以从观测到的缺失概率之比 + 已知 \(Z\) 变化排除出 \(\delta\)。一旦 \(\delta\) 已知（或可一致估计），完整数据似然变成可处理。

证明怎么走？ 在单调约束下，作者将问题转化为一个单调响应 MLE：令 \(L_n(\beta_0, f, \gamma, \delta)\) 为观测数据的对数似然（包含不可观测 \(Y\) 的边际密度）。通过 profile 似然技巧与经验过程（empirical process）下约束最小化，他们证明了： - 即使目标函数非光滑，因为单调类（或凸类）具有有限的 VC / 熵积分，经验过程的一致 Glivenko–Cantelli 性质仍然成立。 - 约束 MLE 中的“无调参”来自：单调函数的集是封闭的凸锥，最优解可通过 isotonic regression（平均起泡算法，PIR）、无需选择光滑参数。这样得到的 \(\hat{f}_1\) 与 \(\hat{\delta}\) 在假定模型正确下是相合的。

为什么能获得渐近正态性？ 作者证明，shape-restricted MLE 在此特殊设定下仍可得到 \(\sqrt{n}\)-渐近正态：核心在于空间投影的线性性质 + 经验过程的一阶展开技巧（类似于 Koshevnik & Levit 的结果）。关键在于单调约束下的“最小二乘类型”线性解决：估计量是某些经验均值的光滑函数，所以 delta 方法适用。

一般情形的"加壳"：上述思路推广到多个可加成分且每个受形状约束（可以是单调、凸、凹或组合），只是解决多维岭回归 + 投影技巧（backfitting 式交替投影）更复杂，用 MCMC / 二次规划求解；但理论分析的核心脉络（经验过程 + 约束锥投影 → 一致性与速率 → 线性展开 → 渐近正态）保持不变。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在非可忽略缺失数据设定下，利用一个工具变量识别总体结局均值，同时允许缺失模型中的每个协变量效应是未知形状约束函数（单调、凸、凹或其组合）的一般可加结构。
核心工具 / 方法：在 Logistic 可加模型上施加形状约束，并利用轮廓似然（profile likelihood）构造无调参的形状约束极大似然估计量（shape-restricted MLE）。
主要结论：在一定的正则性条件下（驱动 IV 有足够的质量、可加分量充分糟、观测个体数不过少），该估计量是相合的，具有 \(\sqrt{n}\) 收敛速率，且渐近正态，因此可构造 Wald 型置信区间。数值研究表明在参数模型正确时表现与参数方法相当，误设时显著更优；真实数据例子提供更可解释的估计。

关键设定与假设¶

模型假设 A1（非可忽略缺失的 Logistic 可加模型）：
\[\log \frac{\pi(Y,Z,X)}{1 - \pi(Y,Z,X)} = \beta_0 + \sum_{j=1}^p f_j(X_j) + \gamma Z + \delta Y,\]
其中 \(\gamma \neq 0\)（IV 有效且在给定其他变量后仍有影响），\(\delta \neq 0\)（缺失是非可忽略的，如果是 \(\delta = 0\) 则为可忽略缺失）。这是此前 Llang & Qin (2009) 的推广——他们把 \(f_j\) 当作样条函数（光滑参数需调），这里每个 \(f_j\) 受形状约束（单调、凸、凹等）。
假设 A2（IV 的正交性与条件独立性）：\(Z \perp Y \mid X\) 且 \(Z\) 的支撑至少有两个点。对于识别，这是核心——IV 只通过缺失概率影响观测结构，而不直接影响 \(Y\) 的分布（即“排除限制条件”）。
假设 A3（形状约束类）：每个 \(f_j\) 属于一个已知的形状函数类 \(\mathcal{F}_j\)（如单调不减、凸、凹、或单调+凸等）。该类是全序、凸锥（凸组合还属于该类），且具有有界 VC 维。
假设 A4（正则性条件）：\(X\) 的支撑是紧集，函数 \(f_j\) 在弱自然意义下在 \(L_2\) 空间中被界定；观测数据 i.i.d.；缺失模型中的参数 \(\gamma, \delta, \beta_0\) 属于紧集；不需要“无重测度”假设（即不需要缺失概率绝对连续）。

相比已有文献的关键变化：放宽了光滑性假设（不再要求二阶可微等），引入形状约束替代光滑性，从而避免调参；但同时要求形状约束为真且无错误。

主要结果¶

定理 1 (一致性)：形状约束 MLE \(\hat{\mu}_n\) 满足 \(\hat{\mu}_n \xrightarrow{\text{a.s.}} \mu\)。证明依靠经验过程的 Glivenko–Cantelli 性质与约束锥的有限熵。
定理 2 (收敛速率)：在温和条件下，\(\lVert \hat{\mu}_n - \mu \rVert = O_p(n^{-1/2})\)（根号 n 收敛）。平滑时，典型形状约束问题会出现较慢速率（如 \(n^{-1/3}\)）；但作者指出：由于目标估计是标量均值，即使中间的非参数分量收敛速度为 \(r_n\)（通常 < \(\sqrt{n}\)），但作为投影后的一维均值的估计却能获得 \(\sqrt{n}\) 速率（得益于参数化目标函数的线性结构与经验过程的“plug-in”性质）。
定理 3 (渐近正态性)：\(\sqrt{n}(\hat{\mu}_n - \mu) \rightsquigarrow N(0, V)\)，其中 \(V\) 是某个渐近方差（并非必然达到半参数有效界，作者在此处未声明它是最佳）。这为构造置信区间和假设检验提供了直接基础（可选的标准误可用 bootstrap 估计）。

证明路线与技术技巧¶

整体路线（3-5 步）

步骤 1：把问题转化为一个带形状约束的 M-估计问题——写出观测对数似然 \(l_n(\beta_0, \{f_j\}, \gamma, \delta)\)，并从中消掉不可观测 \(Y\) 的边际密度（因为不可识别），即利用 IV 条件 \((Z \perp Y \mid X)\) 推出一个 profile 似然，仅涉及 \((\beta_0, \{f_j\}, \gamma, \delta)\)。
步骤 2：利用经验过程建立相合性——由于形状约束类 \(\{f_j\}\) 有有界 VC 维（或μ熵），目标函数族是 Glivenko–Cantelli 的，因此参数和对 \(\mu\) 的估计都是相合的。
步骤 3：证明收敛速率——关键技巧是“光滑化”（去一维化）：利用形状约束下的轮廓似然作为“不光滑目标函数”，证明它的导数在真值处以 \(O_p(n^{-1/2})\) 趋于零，然后由局部随机的 Lipschitz 性推出速率。
步骤 4：渐近正态性推导——使用标准的经验过程线性展开技术：\(\sqrt{n}(\hat{\mu}_n - \mu) = \sum_{i=1}^n \phi(O_i) / \sqrt{n} + o_p(1)\)，其中 \(\phi\) 是 influence function，且使用 bootstrap 验证有限样本规范性。特别地，为了处理形状约束带来的非光滑（可能让展开不成立），作者利用了“投影引理”——形状约束 MLE 的切锥投影有线性形式。

关键跳跃点

最吃功夫的是“从非光滑目标函数到 \(\sqrt{n}\)-收敛速率”这一步。在普通形状约束（如单调回归）中，目标函数（如似然）在真值处不可导，导致 QN 类的快速收敛失效。作者通过观察目标估计是标量均值且与形状约束函数的内部相关性较弱，用“剖面对称化”与 U 统计量模拟论证来绕过。

技术技巧点名

经验过程（empirical process）与 VC 熵估计——用于建立形状约束函数的一致收敛。
轮廓似然 / profile likelihood & 局部渐近正态——削弱了约束带来的非光滑性。
Bootstrap for shape-restricted estimates——用于实践中估计标准误。
凹性 / 凸性类的正则性——使用了凸分析中“切锥”技术来解出 influence function。

真实例子与应用¶

本文有两个真实数据应用：

收入 / 不回答的收入调查数据：一个社会调查中，家庭收入常缺失，缺失概率可能与收入本身正相关（高收入家庭不回答）。本文用地区/城市规模作为 IV，估计了收入均值。结果与参数模型相近，但形状约束估计更可解释（单调效应表明：收入越高，倾向不回答的概率也单调上涨）。
健康调查（如NHANES 子集）中的血清量/ 饮酒量调研：缺失率可能与被调查的自报饮酒量相关。使用地区差异（如本地酒精销售限制类）作为 IV，形状约束估计给出结果比参数灵活—避免了参数模型强制线性假设所致的失真。

这些例子旨在说明：在参数模型正确时，shape-restricted estimator 的偏差与参数方法相当；在模型误设时（如真实函数非单调），后者的偏倚显著增大，而形状约束仍保持稳健。

🔎 结论是否比证明窄¶

是的——所有定理在“一般可加模型 + 形状约束的确为真”下证明；但结论的 claim（更可解释、表现稳健）有时是从这些理想化证明步骤外推至真实数据场合（其中形状可能实际上是任意但未知，未必严格单调或凸）。论文末尾也坦言：“the shape constraints are assumed to be correct, and we do not test them.” 另外，他们声明估计量“tuning‐parameter‐free”，但“选择何种形状”（如单调 vs. 凸）本身即是一种选择，引入了调参：没有理论表明估计结果对形状的选择稳健，也没有给出 cross-validation 或模型平均。

四、开放问题（点到位，不替研究者做可行性判断）¶

形状约束下的半参数效率界：本文未讨论 shape-restricted estimator 是否达到了半参数有效方差；其渐近方差 \(V\) 与半参数效率界 \(V_\text{eff}\) 的关系未知。扎根点：作者在第 3 节末写道：“the asymptotic variance may be larger than the semiparametric efficiency bound… we leave a thorough investigation for future work。” ——因此可建立一个完整效率理论，计算形状约束下的 efficient influence function。
弱 IV 下的 shape-restricted inference：推断要求 \(\gamma\) 显著非零（IV 有信号）；若 \(\gamma\) 很小或接近于 0，会出现“弱 IV”问题（类似 IV 在回归中缺乏强度），可能导致估计一致性崩溃。本文未探讨这一情境。扎根：假设 A2 只要求“\(\gamma \neq 0\)”，但证据强度充足的信念依赖于实际 IV 强度；可针对弱 IV 展开包括集值推断的思想（partial identification）。
高维协变量下的形状约束估计与计算复杂度：当 \(p\) 很大时，形状约束估计（尤其是非参数多变量单调回归）会遭遇维数灾难——即使只考虑可加模型，每个成分的估计仍然需要很大的样本。本文假设 \(p\) 固定（有限维协变量）。扎根：论文“假设 X 的支撑是紧的，且 \(p\) 有限”。可探究高维（\(p > n\)）下 L1 惩罚的 shape‐constrained regression 的极小最大桶和计算复杂度（可能连接低度多项式障碍？但这里只是提示：可确认低度方法是否适用于 shape-constrained 目标函数）。
检测形状约束假设的兼容性：如何判断形状约束在真实数据中是否合理？是否应同时检验单调性、凸性？本文没有工具回答这个问题。扎根：引言末尾提到“whether the shape assumption can be tested is not addressed.” 转移成：构建 shape-test 在非可忽略缺失的特殊困难（因为缺失数据，直接检验缺失模型中的形状几乎不可能——需要一个全新的识别策略。

Maintained by 陈星宇 · Homepage · Source on GitHub