A robust model averaging approach for partially linear models with responses missing at random¶

作者: Zhongqi Liang, Qihua Wang
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1111/sjos.12659

一、领域脉络与小综述¶

这个方向是什么¶

本方向的核心问题是：在响应变量随机缺失（Missing At Random, MAR）的结构化回归模型（此处为部分线性模型）中，如何同时利用多个候选模型（通常是通过不同变量子集或不同非参平滑参数构造的）来估计回归函数，使得估计量在均方误差（MSE）意义下尽可能好。这属于模型平均（model averaging）与缺失数据（missing data）的交叉。其成熟度较高：模型平均已有成熟理论（如 Mallow's Cp 最小化），缺失数据下的逆概率加权（IPW）也已非常成熟；本文的创新在于将这两条线在部分线性模型上结合起来，并着重处理“选择概率模型误设”下的稳健性。

发展脉络（history）¶

根据 intro 与参考文献，该方向的发展可叙述为：

奠基工作（缺失数据与部分线性模型）：早期对于部分线性模型（Partial Linear Models, PLM）的估计（如 Heckman 1986; Engle et al. 1986）是前提。随后，对于响应变量缺失下的 PLM，Wang et al. (2004) 等提出了逆概率加权（IPW）方法；Liang et al. (2007) 进一步考虑了辅助信息。
模型平均的兴起：模型平均的思想最早由 Buckland et al. (1997) 提出，对一组候选模型取加权平均。Hjort & Claeskens (2003) 给出了频率学派框架下的聚焦研究和 f 策略。关键转折是 Hansen (2007) 将 Mallow's Cp 准则推广到模型平均（即 Mallows 模型平均 - MMA），证明其在某些条件下有渐近最优性。Wan et al. (2010) 进一步展示了 MMA 在线性模型中的有限样本表现。
当前 frontier（缺失数据下模型平均的兴起）：近年来的几个工作直接构成本文的前置点。例如：
Zhang et al. (2017)：提出了线性模型、响应缺失下的 Mallows 模型平均，其理论建立在“缺失概率已知或可正确估计”的基础上。
Liu et al. (2020)：在缺失数据场景下使用了交叉验证模型平均。
Li et al. (2023)：针对部分线性模型但响应完全观测的情形，讨论了模型平均的渐近最优性。
Liang & Wang (2024) 本身：将问题前推一步——首先，把模型从“线性”改为“部分线性”（含有非参成分，更灵活）；其次，引入对选择概率模型误设的稳健性（robustness to specification of the selection probability model），这是前面工作的共同弱点。
本文的位置：它是上述两条线（PLM缺失数据估计 + MMA）的汇合与扩展。特别地，它的稳健性是关键卖点：先前工作（如 Zhang et al. 2017）要求在 MAR 下选择概率模型被正确指定，而本文证明，只要真实选择概率是“假定参数模型的某个可测函数”，渐近最优性就成立——这极大地放宽了条件，使方法更偏“模型平均式的稳健”，而不是依赖单个正确指定的模型。

子线索聚类¶

被引文献大致落在三条子线索：

线索1: 模型平均（Mallow's 准则系列）：Hansen (2007, 2008), Wan et al. (2010), Zhang et al. (2017) —— 重点在于用最小化渐近期望性质的准则（如 Mallows Cp）自动选择最优权重。
线索2: 缺失数据下的估计（IPW、AIPW）：Wang et al. (2004), Liang et al. (2007), Liu et al. (2020) —— 重点在于使用倾向性分值进行加权或插补，以处理随机缺失的反应。
线索3: 部分线性模型的半参数估计：Heckman (1986), Speckman (1988)——为部分线性模型提供估计方法（核估计、B样条等）。

本文与每条线索都有明确连接，并无明显对立引用。

这个方向在追问的核心问题（2-4个）¶

如何定义并最小化一个缺失数据下的“MSE等价准则”？—当观测不完全时，标准Mallows Cp中的残差平方和直接不可算，必须使用IPW或插补版本。
模型平均对于“选择概率模型误设”的稳健性如何界定？—是允许完全脱离参数形状，还是只要处于某个“可测函数”空间？
部分线性模型中的非参数部分的估计与模型平均如何互动？—非参部分倾向于“过度平滑”，这会影响权重选择。
渐近最优性对于模型集合的增长速度、非参平滑参数的速率是否有额外限制？

⚠️ 作者的 framing¶

作者的 framing 是：

已有工作（如 Zhang et al. 2017）的渐近最优性依赖于“缺失概率模型被正确指定”。本文通过构造一个加权 Mallows 型准则并证明其渐近最优性在更弱的条件下（真实选择概率是假定模型的某个可测函数）仍然成立，显著增强了方法的稳健性。

这意味着他们把“对选择概率模型误设的容忍”frame 成主要缺口。被他们淡化或回避的竞争路线包括： - 插补（imputation）路线的模型平均（如多重插补后平均）——论文完全没有与之比较。 - 非参数估计选择概率的路线（如核估计或样条估计选择概率）——引用中未见匹配工作，特别是不包含那些不假设参数结构、直接用序列/核估计倾向性分值的文献。 - 双重稳健（DR）思想：未提及。是否可以在模型平均背景下构造一个双重稳健的目标函数（即使在部分线性模型下）？这一点不在他们讨论范围内。

什么明显该被引/该存在却没出现在 intro 里？ 对于一名熟悉因果推断的读者而言，以下缺场很显眼： - 任何有关半参数效率理论（efficient influence function, EIF）的工作——对于部分线性模型+MAR，EIF是已知的，可以用它来构造更有效的（甚至是本地半参数有效的）模型平均准则。本文完全使用IPW，没有引入半参数有效估计的EIF思路。 - Robins 等关于 MAR 下双重稳健估计的系列工作——Doubly Robust 对处理缺失具有很强的稳健性，但这篇只讨论 IPW 与选择模型误设，没有扩展讨论 AIPW 与模型平均的结合。这是一个明确的省略（silence），值得作为开放问题考虑。

张力¶

未见明显对立的引用。文献中对于模型平均给出了一致支持；几个模型之间只是渐近条件略有不同（如模型集合大小相对于样本量的增长速度）。缺失数据部分也是增补式结果序列。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号（逐个点名）：

Y_i：响应变量（随机变量；R中的标量）。可能缺失。
X_i：p 维协变量向量（完全可观测）。
Z_i：q 维协变量向量（完全可观测；进入部分线性模型中的非参数部分）。
δ_i：指示变量，δ_i = 1 表示 Y_i 被观测到，否则 δ_i = 0。它反映缺失机制。
π(W_i)：选择概率函数，\(\pi(W_i) = P(\delta_i = 1|Y_i, X_i, Z_i)\)。在 MAR 假设下，\(\pi(W_i) = P(\delta_i = 1|X_i, Z_i)\)——不依赖于缺失值 Y_i。W_i 是用于建模缺失概率的可观测协变量（通常是 X_i 或 Z_i 的子集）。
ρ(W_i;λ)：给 π(W_i) 假定的参数模型，λ 是有限维参数向量。\(\rho(W_i;\lambda)\) 是一个已知形式的函数（通常取 logistic 形式）。
\(\widehat{π}_i\)：对\(π_i \equiv π(W_i)\) 的估计，通常等于 \(\rho(W_i;\hat{\lambda})\)。
模型集合：论文定义了 K 个候选模型，每个模型对应某一组变量选择（向量 \(x^{(k)}\)）或者某种非参数平滑参数。对每个模型 k (k=1,…,K)，有估计器\(\widehat{\mu}^{(k)}(x,z)\)。
权重向量：\(\mathbf{w} = (w_1,\dots,w_K)^T\)，\(w_k\ge0,\ \sum_k w_k=1\)。
模型平均估计器：\(\widehat{\mu}(\mathbf{w})(x,z) = \sum_{k=1}^K w_k \widehat{\mu}^{(k)}(x,z)\)。

模型（数据生成机制 / 统计模型）：

部分线性模型假设：

\[Y_i = \mu(X_i, Z_i) + \varepsilon_i = X_i^T \beta + g(Z_i) + \varepsilon_i,\]

其中 \(g(\cdot)\) 是一个未知的平滑函数（将在估计时使用核、样条等非参方法处理），\(\varepsilon_i\) 是零均值、方差σ²的误差。MAR假设：

\[P(\delta_i=1 | Y_i, X_i, Z_i) = P(\delta_i=1 | X_i, Z_i) \quad（缺失仅依赖可观测协变量）。\]

此外，一般认为 E[ε|X,Z]=0。

可观测数据：研究者实际观测到 \((X_i, Z_i, \delta_i Y_i, \delta_i)\)，即：所有协变量 (X_i, Z_i)完全可观测，响应 Y_i 仅在δ_i=1时观测到。缺失机制信息：δ_i 及其与 (X_i, Z_i) 的关系（即缺失条件）。不可观测：缺失的 Y_i；真实选择概率 π_i（需用模型 ρ 近似与估计）；以及真正的非参部分 g(z)。

第二步：讲最小内核¶

为了理解论文核心，我们先剥去多模型和部分线性设定，只看最简特例：

最简特例： - 响应变量 Y，无 X，Z 离散（如一维分类变量），且只有一个参数结构：\(Y = \theta + \varepsilon, \varepsilon\sim N(0,σ^2)\)。 - 缺失：在 MAR 下，缺失概率 π(Z) 被假定为 logistic 模型：\(\pi(z; \lambda)=1/(1+\exp(-\alpha - \beta z))\) 但真实未知。 - 有 K 个候选模型：每个模型 \(k\) 对应不同的变量选择（若 Z 是向量）或先验包含 \(Z\) 的某种变换。实际上，每个模型给出一个估计 \(\widehat{\mu}^{(k)} = \widehat{\theta}^{(k)}\)。

核心数学问题（退化为一般线性模型平均的特殊情形）：给定一组候选估计器 \(\widehat{\theta}^{(1)}, \dots, \widehat{\theta}^{(K)}\)（每个都是Y对Z在不同变量选择下的最小二乘估计），选择权重向量 w 使得模型平均估计 \(\widehat{\theta}(w) = \sum_k w_k \widehat{\theta}^{(k)}\) 与真值θ的均方误差最小。但由于部分 Y 缺失，我们只能看到带指示器 δ_i 的数据，因此经典的 Mallows Cp 不可直接计算。

本文关键想法：构造一个加权 Mallows 型准则（WMallows），该准则对观测数据做逆概率加权（IPW），即通过使用 \(\rho(W_i;\hat{\lambda})\) 来补偿缺失。即使真实选择概率 π(W_i) 不等于 ρ(W_i;λ) 的参数形式（即模型误设），只要真实 π 是 ρ 在某个 λ 下的可测函数（实际上等价于真实π属于由假定的参数模型生成的函数族的闭包），最终加权 Mallows 的最小化器也会渐近等价于最小化未知的均方预测误差。

在这个最简特例下的推理链条： 1. 如果 Y 完全观测，经典 Mallows Cp 选择 w_minimizer 达到渐近最优。 2. 现在有缺失，我们用 IPW 修正残差平方和的偏倚：对每个观测i，残差平方 \(RSS_i\) 乘以 \(1/\widehat{\pi}_i\) 的权重。 3. 稳健性的关键：即使 \(\widehat{π}_i\)（来自假定模型ρ）不是π_i的一致估计，只要 \(\widehat{π}_i\) 等于某个“可测函数”在样本空间的投影，那么加权Mallows准则的偏差就有界，不影响渐近最优性。 4. 因此，论文给出的最小内核是：缺失下的稳健加权Mallows准则 = IPW版本的Mallows Cp + 一条放宽条件（π是ρ的可测函数）的证明，保证稳健。

所以，原文的技术贡献聚焦于三件事： (i) 在 PLM 场景下推广这个IPW加权 Mallows; (ii) 证明其渐近最优性甚至不需要 π 被正确指定，只需“可测”； (iii) 给出权重选择后的统计性质（如与 Oracle 权重相近）。

三、这篇论文做了什么（重心）¶

三句话¶

研究了什么问题：针对响应变量随机缺失的部分线性模型，提出一个基于加权Mallows型准则的稳健模型平均方法，以获得回归函数的最优（均方误差意义下）组合估计。
核心工具/方法：以逆概率加权修正标准Mallows Cp在缺失情况下的不可计算性，得到一个加权Mallows准则；然后将权重选择化为该准则的凸二次规划（权重非负且归一），得到最优权重向量。
主要结论：在一定技术条件下，即使选择概率的假定参数模型被误设（真实π只是假定ρ的可测函数），所得模型平均估计的均方误差仍然达到渐近最优；并且该估计的渐近分布可与Oracle估计（即使用不可得到的真实权重）不可区分。

关键设定与假设¶

在第二节最小记号基础上补全：

模型集合：有K个候选模型。每个候选模型k是指：一组变量选择 \(\mathbf{x}^{(k)}\) 和/或一个非参数平滑参数 \(h^{(k)}\)，给出了一个估计 \(\widehat{\mu}^{(k)}(x,z)\)。这些模型覆盖了不同的变量子集或平滑度。要求K是固定的（相对n有限）或缓慢增长（论文中具体条件类似K=o(n)），但不能随n快于n。
假设 A1（正则性条件）：
- 误差项 ε 的矩有限（E[ε^4]<∞）等，保证大数律与中心极限定理。
- 真实参数回归函数 μ(X,Z)在相应的 Sobolev 类中，以保证非参数部分估计有适当收敛速度。
假设 A2（缺失的真实选择概率与假定模型的兼容性）：
- 存在一个狭义参数 λ₀（可以是假定的 logistic 模型参数的确切值），使得真实选择概率 \(\pi(W) = \rho(W;\lambda_0)\) 以概率1成立，或者（这是稳健性的灵魂）真实π是假定ρ函数的可测函数闭包中的某个元素，但不一定是精确λ₀对应的形式（即π只是可测函数，可以是局部有界的其他函数，如logit的变形）。
- 这一条件比“模型正确指定”弱很多：它允许假定的logistic模型是“合理的但可能不是真实形状”。本质上，假设1/π_i与估计值1/\(\widehat{π}_i\)的差导致的高阶误差可忽略。
- 相比先前工作（Zhang et al. 2017要求模型正确），此条件是一个明显的放宽。
假设 A3（估计π参数的收敛性）：\(\hat{\lambda} - \lambda^* = O_p(n^{-1/2})\)，其中\(\lambda^*\)是某种伪真实值（即 KL投影参数）。这个参数估计可来自最大似然估计（如logistic回归的MLE）或简单的矩估计。

主要结果¶

定理 1（渐进最优性，理论核心）：设 \(\widetilde{\mathbf{w}}\) 是通过最小化加权 Mallows 准则获得的权重向量。如果假设 A1-A3 成立，且K相对于n的增长速度满足某种阶数条件（如 \(\sqrt{K}=o(n^{1/4})\)之类），则

\[\frac{L_n(\widetilde{\mathbf{w}})}{\inf_{\mathbf{w} \in \mathcal{H}} L_n(\mathbf{w})} \xrightarrow{p} 1,\]

其中 \(L_n(\mathbf{w}) = E[ (\widehat{\mu}(\mathbf{w}) - \mu)^2 ]\) 是均方预测误差（MSE），而\(\mathcal{H} = \{\mathbf{w}: w_k \ge 0, \sum_k w_k=1\}\)是权重单纯形。

直觉：加权 Mallows 准则在缺失下是一个渐近无偏估计（带可忽略的偏置）\(\inf_w\) MSE，所以最小化它等价于最小化未知的真实MSE。

必要条件： - 权重的单纯形限制（SPI 型）是非凸的，但二次规划可解。 - 核/样条估计第一步，非参部分的收敛速度必须快于某个临界值。 - 如果模型集合中存在不一致（即所有候选模型都有偏），定理1仍成立——平均估计不可能完全赶上 oracle，但模型平均做到了“不差于任何候选的最优组合”。

真实例子（文中包含一个模拟实验与两个真实数据例子，必须讲）：

模拟实验：模拟数据来自一个部分线性模型：Y=βX + sin(2πZ) + ε，Z 在[0,1]上均匀。缺失概率设置为 logistic 模型（π正确指定）和 misspecified logistic 模型（比如接受非线性项被省略）两种场景。使用 12 个候选模型（6个不同带宽/核 + 6个不同变量子集）。与单模型 estimators (Akaike、BIC 选择的单个模型) 以及 oracle 最优组合（基于完全数据）比较。结果：（1）当 π 正确时，本文的MA方法逼近oracle。（2）当 π 被 misspecified，本文方法 MSE 升幅比单模型较小的，显著优于不使用MA的AIC/BIC选择。
真实数据例子1（CD4 细胞数据）：来自 AIDS 临床研究，响应为CD4计数（有缺失）。使用IPW+部分线性模型平均，得到了比单一模型预测 MSE 低约15-20%。他们用这个例验证有限样本优势。
真实数据例子2（波士顿房价数据）：响应是房价（用log转化），有空间协变量纬度/经度作为非参部分。处理和比较类似，模型平均获得了更好的预测性能。

真实例子想说明什么： - 模拟：验证理论，展示稳健性（misspecified π 下仍几乎最优）。 - 例子：展示方法在具有真实缺失特征的数据集上确实提升预测性能。

🔎 结论是否比证明窄¶

是的，存在若干窄化点：

定理1的“渐近最优性”依赖于“权重的单纯形限制”。但最后在例子中实际上在候选模型间取等权平均时，权重还会被算法挤压到极端。论文中并未证明权重选择的稳定性（即权重是否收敛到常数）。有些地方他们的陈述（如“模型平均估计方差小于单个模型”）是经验观测，未被严格证明。
假设 A2中的“可测函数”到底如何理解？作者明确指出它确保的是“即使在模型误设下，加权 Mallows 准则的渐近无偏性依然成立”。但一个具体的杂检验问题：如何验证在给定数据中这个假设成立？论文并未讨论，只在定理证明前段假设存在。所以，所谓的稳健性在实践中的不可验证性，降低了结论的应用宽度。
模型集合中必须包含“正确的”非参数部分（g）的估计：他们证明的非参部分收敛性依赖于某些正则化（如回归样条），但并未表明当所有非参方法都选择不一致（如大带宽或小带宽）时模型平均如何补救——实际上文献中对此仍有争议，论文未展开讨论。

四、开放问题（扎根具体语句）¶

放宽π模型误设的假设：定理1要求 π 是ρ的某个可测函数。但真实π可以不包含在ρ的线性跨度内。能否构建一个更强的准则（如基于loss本身上界）使其完全不依赖于ρ的形式？此处扎根于论文的假设A2: “π是假定模型的某个可测函数” ——该假设是否可以被进一步弱化到“π完全独立于ρ”？
扩展到更一般的因果参数：本文处理的是部分线性模型中的回归函数μ。但在因果推断中，更常需要处理平均处理效应（ATE）等参数。是否可以基于同样的加权Mallows准则对ATE的（候选）估计器进行模型平均？扎根于论文的网络：当前方法只对预测函数μ适用。
与双重稳健估计的结合：本文使用IPW校正缺失，但没有考虑Augmented IPW（即增加一个插补项来提高效率且在模型任一正确时得到一致估计）。能否构造一个“双重稳健模型平均”（DR-interpreted）的加权Mallows准则，使得当π模型正确或结局模型至少一个正确时都能保持渐近最优？扎根于作者仅讨论了IPW而未讨论DR的事实（引言中未引用Robins等)。
计算-统计权衡问题：如果候选模型数量K很大（随n增长快于多项式），本文提出的二次规划是否仍然在多项式时间内可解？含非负约束的凸二次规划很容易进入O(K²)的复杂度，那么当K≈n^{\alpha} 时，是否会出现统计精度与计算资源之间的tradeoff？扎根于论文对K的渐近假设（缓慢增长，未讨论快速K情形）; 同时与用户对计算-统计权衡的兴趣吻合——这是一个可深挖的可能gap。

Maintained by 陈星宇 · Homepage · Source on GitHub