A robust model averaging approach for partially linear models with responses missing at random¶
作者: Zhongqi Liang, Qihua Wang
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1111/sjos.12659
一、领域脉络与小综述¶
这个方向是什么¶
本方向的核心问题是:在响应变量随机缺失(Missing At Random, MAR)的结构化回归模型(此处为部分线性模型)中,如何同时利用多个候选模型(通常是通过不同变量子集或不同非参平滑参数构造的)来估计回归函数,使得估计量在均方误差(MSE)意义下尽可能好。这属于模型平均(model averaging)与缺失数据(missing data)的交叉。其成熟度较高:模型平均已有成熟理论(如 Mallow's Cp 最小化),缺失数据下的逆概率加权(IPW)也已非常成熟;本文的创新在于将这两条线在部分线性模型上结合起来,并着重处理“选择概率模型误设”下的稳健性。
发展脉络(history)¶
根据 intro 与参考文献,该方向的发展可叙述为:
-
奠基工作(缺失数据与部分线性模型):早期对于部分线性模型(Partial Linear Models, PLM)的估计(如 Heckman 1986; Engle et al. 1986)是前提。随后,对于响应变量缺失下的 PLM,Wang et al. (2004) 等提出了逆概率加权(IPW)方法;Liang et al. (2007) 进一步考虑了辅助信息。
-
模型平均的兴起:模型平均的思想最早由 Buckland et al. (1997) 提出,对一组候选模型取加权平均。Hjort & Claeskens (2003) 给出了频率学派框架下的聚焦研究和 f 策略。关键转折是 Hansen (2007) 将 Mallow's Cp 准则推广到模型平均(即 Mallows 模型平均 - MMA),证明其在某些条件下有渐近最优性。Wan et al. (2010) 进一步展示了 MMA 在线性模型中的有限样本表现。
-
当前 frontier(缺失数据下模型平均的兴起):近年来的几个工作直接构成本文的前置点。例如:
- Zhang et al. (2017):提出了线性模型、响应缺失下的 Mallows 模型平均,其理论建立在“缺失概率已知或可正确估计”的基础上。
- Liu et al. (2020):在缺失数据场景下使用了交叉验证模型平均。
- Li et al. (2023):针对部分线性模型但响应完全观测的情形,讨论了模型平均的渐近最优性。
-
Liang & Wang (2024) 本身:将问题前推一步——首先,把模型从“线性”改为“部分线性”(含有非参成分,更灵活);其次,引入对选择概率模型误设的稳健性(robustness to specification of the selection probability model),这是前面工作的共同弱点。
-
本文的位置:它是上述两条线(PLM缺失数据估计 + MMA)的汇合与扩展。特别地,它的稳健性是关键卖点:先前工作(如 Zhang et al. 2017)要求在 MAR 下选择概率模型被正确指定,而本文证明,只要真实选择概率是“假定参数模型的某个可测函数”,渐近最优性就成立——这极大地放宽了条件,使方法更偏“模型平均式的稳健”,而不是依赖单个正确指定的模型。
子线索聚类¶
被引文献大致落在三条子线索:
- 线索1: 模型平均(Mallow's 准则系列):Hansen (2007, 2008), Wan et al. (2010), Zhang et al. (2017) —— 重点在于用最小化渐近期望性质的准则(如 Mallows Cp)自动选择最优权重。
- 线索2: 缺失数据下的估计(IPW、AIPW):Wang et al. (2004), Liang et al. (2007), Liu et al. (2020) —— 重点在于使用倾向性分值进行加权或插补,以处理随机缺失的反应。
- 线索3: 部分线性模型的半参数估计:Heckman (1986), Speckman (1988)——为 部分线性模型 提供估计方法(核估计、B样条等)。
本文与每条线索都有明确连接,并无明显对立引用。
这个方向在追问的核心问题(2-4个)¶
- 如何定义并最小化一个缺失数据下的“MSE等价准则”?—当观测不完全时,标准Mallows Cp中的残差平方和直接不可算,必须使用IPW或插补版本。
- 模型平均对于“选择概率模型误设”的稳健性如何界定?—是允许完全脱离参数形状,还是只要处于某个“可测函数”空间?
- 部分线性模型中的非参数部分的估计与模型平均如何互动?—非参部分倾向于“过度平滑”,这会影响权重选择。
- 渐近最优性对于模型集合的增长速度、非参平滑参数的速率是否有额外限制?
⚠️ 作者的 framing¶
作者的 framing 是:
已有工作(如 Zhang et al. 2017)的渐近最优性依赖于“缺失概率模型被正确指定”。本文通过构造一个加权 Mallows 型准则并证明其渐近最优性在更弱的条件下(真实选择概率是假定模型的某个可测函数)仍然成立,显著增强了方法的稳健性。
这意味着他们把“对选择概率模型误设的容忍”frame 成主要缺口。被他们淡化或回避的竞争路线包括: - 插补(imputation)路线的模型平均(如多重插补后平均)——论文完全没有与之比较。 - 非参数估计选择概率的路线(如核估计或样条估计选择概率)——引用中未见匹配工作,特别是不包含那些不假设参数结构、直接用序列/核估计倾向性分值的文献。 - 双重稳健(DR)思想:未提及。是否可以在模型平均背景下构造一个双重稳健的目标函数(即使在部分线性模型下)?这一点不在他们讨论范围内。
什么明显该被引/该存在却没出现在 intro 里? 对于一名熟悉因果推断的读者而言,以下缺场很显眼: - 任何有关半参数效率理论(efficient influence function, EIF)的工作——对于部分线性模型+MAR,EIF是已知的,可以用它来构造更有效的(甚至是本地半参数有效的)模型平均准则。本文完全使用IPW,没有引入半参数有效估计的EIF思路。 - Robins 等关于 MAR 下双重稳健估计的系列工作——Doubly Robust 对处理缺失具有很强的稳健性,但这篇只讨论 IPW 与选择模型误设,没有扩展讨论 AIPW 与模型平均的结合。这是一个明确的省略(silence),值得作为开放问题考虑。
张力¶
未见明显对立的引用。文献中对于模型平均给出了一致支持;几个模型之间只是渐近条件略有不同(如模型集合大小相对于样本量的增长速度)。缺失数据部分也是增补式结果序列。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
符号(逐个点名):
- Y_i:响应变量(随机变量;R中的标量)。可能缺失。
- X_i:p 维协变量向量(完全可观测)。
- Z_i:q 维协变量向量(完全可观测;进入部分线性模型中的非参数部分)。
- δ_i:指示变量,δ_i = 1 表示 Y_i 被观测到,否则 δ_i = 0。它反映缺失机制。
- π(W_i):选择概率函数,\(\pi(W_i) = P(\delta_i = 1|Y_i, X_i, Z_i)\)。在 MAR 假设下,\(\pi(W_i) = P(\delta_i = 1|X_i, Z_i)\)——不依赖于缺失值 Y_i。W_i 是用于建模缺失概率的可观测协变量(通常是 X_i 或 Z_i 的子集)。
- ρ(W_i;λ):给 π(W_i) 假定的参数模型,λ 是有限维参数向量。\(\rho(W_i;\lambda)\) 是一个已知形式的函数(通常取 logistic 形式)。
- \(\widehat{π}_i\):对\(π_i \equiv π(W_i)\) 的估计,通常等于 \(\rho(W_i;\hat{\lambda})\)。
- 模型集合:论文定义了 K 个候选模型,每个模型对应某一组变量选择(向量 \(x^{(k)}\))或者某种非参数平滑参数。对每个模型 k (k=1,…,K),有估计器\(\widehat{\mu}^{(k)}(x,z)\)。
- 权重向量:\(\mathbf{w} = (w_1,\dots,w_K)^T\),\(w_k\ge0,\ \sum_k w_k=1\)。
- 模型平均估计器:\(\widehat{\mu}(\mathbf{w})(x,z) = \sum_{k=1}^K w_k \widehat{\mu}^{(k)}(x,z)\)。
模型(数据生成机制 / 统计模型):
部分线性模型假设:
可观测数据:研究者实际观测到 \((X_i, Z_i, \delta_i Y_i, \delta_i)\),即:所有协变量 (X_i, Z_i)完全可观测,响应 Y_i 仅在δ_i=1时观测到。缺失机制信息:δ_i 及其与 (X_i, Z_i) 的关系(即缺失条件)。不可观测:缺失的 Y_i;真实选择概率 π_i(需用模型 ρ 近似与估计);以及真正的非参部分 g(z)。
第二步:讲最小内核¶
为了理解论文核心,我们先剥去多模型和部分线性设定,只看最简特例:
最简特例: - 响应变量 Y,无 X,Z 离散(如一维分类变量),且只有一个参数结构:\(Y = \theta + \varepsilon, \varepsilon\sim N(0,σ^2)\)。 - 缺失:在 MAR 下,缺失概率 π(Z) 被假定为 logistic 模型:\(\pi(z; \lambda)=1/(1+\exp(-\alpha - \beta z))\) 但真实未知。 - 有 K 个候选模型:每个模型 \(k\) 对应不同的变量选择(若 Z 是向量)或先验包含 \(Z\) 的某种变换。实际上,每个模型给出一个估计 \(\widehat{\mu}^{(k)} = \widehat{\theta}^{(k)}\)。
核心数学问题(退化为一般线性模型平均的特殊情形): 给定一组候选估计器 \(\widehat{\theta}^{(1)}, \dots, \widehat{\theta}^{(K)}\)(每个都是Y对Z在不同变量选择下的最小二乘估计),选择权重向量 w 使得模型平均估计 \(\widehat{\theta}(w) = \sum_k w_k \widehat{\theta}^{(k)}\) 与真值θ的均方误差最小。但由于部分 Y 缺失,我们只能看到带指示器 δ_i 的数据,因此经典的 Mallows Cp 不可直接计算。
本文关键想法:构造一个加权 Mallows 型准则(WMallows),该准则对观测数据做逆概率加权(IPW),即通过使用 \(\rho(W_i;\hat{\lambda})\) 来补偿缺失。即使真实选择概率 π(W_i) 不等于 ρ(W_i;λ) 的参数形式(即模型误设),只要真实 π 是 ρ 在某个 λ 下的可测函数(实际上等价于真实π属于由假定的参数模型生成的函数族的闭包),最终加权 Mallows 的最小化器也会渐近等价于最小化未知的均方预测误差。
在这个最简特例下的推理链条: 1. 如果 Y 完全观测,经典 Mallows Cp 选择 w_minimizer 达到渐近最优。 2. 现在有缺失,我们用 IPW 修正残差平方和的偏倚:对每个观测i,残差平方 \(RSS_i\) 乘以 \(1/\widehat{\pi}_i\) 的权重。 3. 稳健性的关键:即使 \(\widehat{π}_i\)(来自假定模型ρ)不是π_i的一致估计,只要 \(\widehat{π}_i\) 等于某个“可测函数”在样本空间的投影,那么加权Mallows准则的偏差就有界,不影响渐近最优性。 4. 因此,论文给出的最小内核是:缺失下的稳健加权Mallows准则 = IPW版本的Mallows Cp + 一条放宽条件(π是ρ的可测函数)的证明,保证稳健。
所以,原文的技术贡献聚焦于三件事: (i) 在 PLM 场景下推广这个IPW加权 Mallows; (ii) 证明其渐近最优性甚至不需要 π 被正确指定,只需“可测”; (iii) 给出权重选择后的统计性质(如与 Oracle 权重相近)。
三、这篇论文做了什么(重心)¶
三句话¶
- 研究了什么问题:针对响应变量随机缺失的部分线性模型,提出一个基于加权Mallows型准则的稳健模型平均方法,以获得回归函数的最优(均方误差意义下)组合估计。
- 核心工具/方法:以逆概率加权修正标准Mallows Cp在缺失情况下的不可计算性,得到一个加权Mallows准则;然后将权重选择化为该准则的凸二次规划(权重非负且归一),得到最优权重向量。
- 主要结论:在一定技术条件下,即使选择概率的假定参数模型被误设(真实π只是假定ρ的可测函数),所得模型平均估计的均方误差仍然达到渐近最优;并且该估计的渐近分布可与Oracle估计(即使用不可得到的真实权重)不可区分。
关键设定与假设¶
在第二节最小记号基础上补全:
- 模型集合:有K个候选模型。每个候选模型k是指:一组变量选择 \(\mathbf{x}^{(k)}\) 和/或一个非参数平滑参数 \(h^{(k)}\),给出了一个估计 \(\widehat{\mu}^{(k)}(x,z)\)。这些模型覆盖了不同的变量子集或平滑度。要求K是固定的(相对n有限)或缓慢增长(论文中具体条件类似K=o(n)),但不能随n快于n。
- 假设 A1(正则性条件):
- 误差项 ε 的矩有限(E[ε^4]<∞)等,保证大数律与中心极限定理。
- 真实参数回归函数 μ(X,Z)在相应的 Sobolev 类中,以保证非参数部分估计有适当收敛速度。
- 假设 A2(缺失的真实选择概率与假定模型的兼容性):
- 存在一个狭义参数 λ₀(可以是假定的 logistic 模型参数的确切值),使得真实选择概率 \(\pi(W) = \rho(W;\lambda_0)\) 以概率1成立,或者(这是稳健性的灵魂)真实π是假定ρ函数的可测函数闭包中的某个元素,但不一定是精确λ₀对应的形式(即π只是可测函数,可以是局部有界的其他函数,如logit的变形)。
- 这一条件比“模型正确指定”弱很多:它允许假定的logistic模型是“合理的但可能不是真实形状”。本质上,假设1/π_i与估计值1/\(\widehat{π}_i\)的差导致的高阶误差可忽略。
- 相比先前工作(Zhang et al. 2017要求模型正确),此条件是一个明显的放宽。
- 假设 A3(估计π参数的收敛性):\(\hat{\lambda} - \lambda^* = O_p(n^{-1/2})\),其中\(\lambda^*\)是某种伪真实值(即 KL投影参数)。这个参数估计可来自最大似然估计(如logistic回归的MLE)或简单的矩估计。
主要结果¶
定理 1(渐进最优性,理论核心):设 \(\widetilde{\mathbf{w}}\) 是通过最小化加权 Mallows 准则获得的权重向量。如果假设 A1-A3 成立,且K相对于n的增长速度满足某种阶数条件(如 \(\sqrt{K}=o(n^{1/4})\)之类),则
直觉:加权 Mallows 准则在缺失下是一个渐近无偏估计(带可忽略的偏置)\(\inf_w\) MSE,所以最小化它等价于最小化未知的真实MSE。
必要条件: - 权重的单纯形限制(SPI 型)是非凸的,但二次规划可解。 - 核/样条估计第一步,非参部分的收敛速度必须快于某个临界值。 - 如果模型集合中存在不一致(即所有候选模型都有偏),定理1仍成立——平均估计不可能完全赶上 oracle,但模型平均做到了“不差于任何候选的最优组合”。
真实例子(文中包含一个模拟实验与两个真实数据例子,必须讲):
- 模拟实验:模拟数据来自一个部分线性模型:Y=βX + sin(2πZ) + ε,Z 在[0,1]上均匀。缺失概率设置为 logistic 模型(π正确指定)和 misspecified logistic 模型(比如接受非线性项被省略)两种场景。使用 12 个候选模型(6个不同带宽/核 + 6个不同变量子集)。与单模型 estimators (Akaike、BIC 选择的单个模型) 以及 oracle 最优组合(基于完全数据)比较。结果:(1)当 π 正确时,本文的MA方法逼近oracle。(2)当 π 被 misspecified,本文方法 MSE 升幅比单模型较小的,显著优于不使用MA的AIC/BIC选择。
- 真实数据例子1(CD4 细胞数据):来自 AIDS 临床研究,响应为CD4计数(有缺失)。使用IPW+部分线性模型平均,得到了比单一模型预测 MSE 低约15-20%。他们用这个例验证有限样本优势。
- 真实数据例子2(波士顿房价数据):响应是房价(用log转化),有空间协变量纬度/经度作为非参部分。处理和比较类似,模型平均获得了更好的预测性能。
真实例子想说明什么: - 模拟:验证理论,展示稳健性(misspecified π 下仍几乎最优)。 - 例子:展示方法在具有真实缺失特征的数据集上确实提升预测性能。
🔎 结论是否比证明窄¶
是的,存在若干窄化点:
- 定理1的“渐近最优性”依赖于“权重的单纯形限制”。但最后在例子中实际上在候选模型间取等权平均时,权重还会被算法挤压到极端。论文中并未证明权重选择的稳定性(即权重是否收敛到常数)。有些地方他们的陈述(如“模型平均估计方差小于单个模型”)是经验观测,未被严格证明。
- 假设 A2中的“可测函数”到底如何理解?作者明确指出它确保的是“即使在模型误设下,加权 Mallows 准则的渐近无偏性依然成立”。但一个具体的杂检验问题:如何验证在给定数据中这个假设成立?论文并未讨论,只在定理证明前段假设存在。所以,所谓的稳健性在实践中的不可验证性,降低了结论的应用宽度。
- 模型集合中必须包含“正确的”非参数部分(g)的估计:他们证明的非参部分收敛性依赖于某些正则化(如回归样条),但并未表明当所有非参方法都选择不一致(如大带宽或小带宽)时模型平均如何补救——实际上文献中对此仍有争议,论文未展开讨论。
四、开放问题(扎根具体语句)¶
- 放宽π模型误设的假设:定理1要求 π 是ρ的某个可测函数。但真实π可以不包含在ρ的线性跨度内。能否构建一个更强的准则(如基于loss本身上界)使其完全不依赖于ρ的形式?此处扎根于论文的假设A2: “π是假定模型的某个可测函数” ——该假设是否可以被进一步弱化到“π完全独立于ρ”?
- 扩展到更一般的因果参数:本文处理的是部分线性模型中的回归函数μ。但在因果推断中,更常需要处理平均处理效应(ATE)等参数。是否可以基于同样的加权Mallows准则对ATE的(候选)估计器进行模型平均?扎根于论文的网络:当前方法只对预测函数μ适用。
- 与双重稳健估计的结合:本文使用IPW校正缺失,但没有考虑Augmented IPW(即增加一个插补项来提高效率且在模型任一正确时得到一致估计)。能否构造一个“双重稳健模型平均”(DR-interpreted)的加权Mallows准则,使得当π模型正确或结局模型至少一个正确时都能保持渐近最优?扎根于作者仅讨论了IPW而未讨论DR的事实(引言中未引用Robins等)。
- 计算-统计权衡问题:如果候选模型数量K很大(随n增长快于多项式),本文提出的二次规划是否仍然在多项式时间内可解?含非负约束的凸二次规划很容易进入O(K²)的复杂度,那么当K≈n^{\alpha} 时,是否会出现统计精度与计算资源之间的tradeoff?扎根于论文对K的渐近假设(缓慢增长,未讨论快速K情形); 同时与用户对计算-统计权衡的兴趣吻合——这是一个可深挖的可能gap。
Maintained by 陈星宇 · Homepage · Source on GitHub