Empirical likelihood ratio tests for non-nested model selection based on predictive losses¶
作者: Jiancheng Jiang, Xuejun Jiang, Haofeng Wang
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.3150/23-bej1640
一、领域脉络与小综述¶
这个方向是什么¶
本子方向的核心问题是:当两个统计模型不属于嵌套关系(即一个模型无法通过约束参数成为另一个的特例)时,如何构造一个形式化、具有良好渐近性质的假设检验,来判断哪个模型更“好”? 经典模型选择工具(如 AIC、BIC、似然比检验)本质上依赖模型嵌套或正确设定(correct specification)。一旦模型是非嵌套、误设(misspecified)、重叠(overlapping)的,这些工具要么失效(名义水平失真),要么无法直接给出显著性判断。因此,该方向需要处理的核心难题是:① 定义“哪个模型更好”的准则(预测损失 vs. KL 散度 vs. 边际似然);② 构造不依赖嵌套结构且对模型误设鲁棒的检验统计量;③ 推导其在原假设(两个模型表现相当)和对立假设(一个模型显著优于另一个)下的渐近分布。
当前成熟度中等偏下——已有若干方法(Vuong 检验、DECV、基于 bootstrap 的 CvM 检验),但计算成本高、适用范围窄、对非凸损失或高维设定缺乏统一理论。本文工作试图填补的,正是“一般凸损失函数下、非参数学习模型比较”这个缺口。
发展脉络(来自 intro 与 bibliography)¶
| 阶段 | 代表工作(作者-年份) | 做了什么 | 留下的口子 |
|---|---|---|---|
| 奠基 | Vuong (1989) | 对严格嵌套/非嵌套模型,基于似然比检验和 KL 散度,给出了渐近正态检验。被本文引为“经典框架,但只适用于正确指定的模型,且要求似然函数正确设定”。 | 对模型误设(misspecified)和非似然损失(如 hinge loss, quantile loss)未触及。 |
| 扩展 | Rivers & Vuong (2002) | 将 Vuong 检验推广到“基于损失函数差异”的一般框架,允许模型误设。被本文引为“可用于比较任意两个模型的预测表现,但仍依赖似然比或特定的信息准则”。 | 只给出了渐近正态性,未考虑有限样本下固定模型复杂度的问题。 |
| 近端 | Corradi & Swanson (2006, 2007) | 基于预测误差的 bootstrap 条件检验。被本文引为“需要 bootstrap 或 subsampling 以近似检验统计量的分布,计算成本高,且过拟合控制不足”。 | bootstrap 的收敛率低、不适合大样本;也无法直接推广到分布式设定。 |
| 当前 | 本文 (Jiang, Jiang & Wang, 202x) | 提出经验似然比(ELR)检验,基于 CV 预测损失,适用于一般的凸损失函数和非参数学习模型,并给出了“一次性拟合”快速版本与分布式扩展。作者声称“相比 Vuong 检验和 DECV(Delicado & González-Manteiga, 2009),本方法对过拟合与误设更鲁棒,且计算复杂度低”。 | 未涉及高维 p>n 场景、非凸损失(如 0-1 loss)、以及检验的功效下界。 |
子线索聚类¶
-
基于似然比 / KL 散度的路线(Vuong 1989, Rivers-Vuong 2002)
核心目标:在模型正确设定下比较 KL 散度差异。限制:不能处理误设模型、损失函数必须是负对数似然。 -
基于预测损失 / 交叉验证的路线(DECV: Delicado & González-Manteiga 2009; Corradi & Swanson 2006)
核心目标:用交叉验证(CV)估计预测损失,并用 bootstrap 或 subsampling 推断两个模型损失差异的显著性。限制:计算成本高、验证分布需重抽样;过拟合时置信区间偏窄。 -
经验似然(Empirical Likelihood)在模型比较中的应用
本文是目前最直接的工作,使用 ELR 构造检验,而非差值检验。经验似然的一个优势是:它的渐近分布是卡方分布,无需估计方差,且对复杂的权重结构(如 CV 中的重叠样本)有较好的适应能力。之前的经验似然工作主要集中在单模型推断(如均值、分位数),而非模型比较。
这个方向在追问的核心问题(2-4 个)¶
-
非嵌套模型比较中的“等价”原假设如何定义才客观?
当前主流:两个模型的预测损失差异为零(或等价于损失差异的期望为零)。
瓶颈:预测损失依赖于 CV 折数、损失函数的选择;对过拟合高度敏感。 -
如何构造一个同时控制第一类错误且无需 bootstrap 的检验?
瓶颈:直接估计 CV 损失差异的方差需要高阶矩计算,且 CV 折间的相关性使方差估计复杂。经验似然可以避开方差估计,但仍需处理 CV 折间单元的相关结构。 -
计算效率与统计效率的权衡:能否只拟合一次模型、保留渐近性质?
现存解法:本文的“一次性拟合近似”——用完整样本的留一近似(LOO approximation)替代逐点再拟合,并证明误差在o_p(n^{-1/2})量级。
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)¶
作者将缺口 frame 成:“现有检验(Vuong-type、DECV)要么需要 bootstrap,要么只适用于似然损失,而我们的经验似然比检验(ELR)结合了交叉验证预测损失与经验似然的卡方渐近性质,实现了一步式检验、无需重抽样、且对一般凸损失成立。”
- 淡化的竞争路线:DECV(Delicado & González-Manteiga, 2009)被一笔带过,作者声称其 bootstrap 收敛慢、且 DECV 仅在线性模型下做了严格证明,而本文在非参数(加性模型、变系数模型)下做了理论。但 DECV 是否在更一般的平滑模型下可行?作者没有讨论。
- 明显该被引却未出现在 intro 中的工作:
- Boucheron & Massart (2011) 关于模型选择的非渐近界(oracle inequalities)——这对理解本文检验在过拟合时的行为有帮助。
- Donoho & Johnstone (1994) 的 wavelet shrinkage 曲线——虽不直接相关,但揭示预测损失在高维下与渐近正态性的偏差,可能是本文框架的一个边界。
- Koltchinskii (2011) 关于经验过程与正则化风险的专著——本文的证明广泛依赖经验过程,却只引了 van der Vaart & Wellner (1996),未提及 Koltchinskii 的局部 Rademacher 复杂度工具,可能意味着本文的收敛率不是最优的。
张力¶
未发现被引文献之间有直接的矛盾结论。不过,存在一个潜在的 “稳健性与效率”张力:
- Rivers & Vuong (2002) 和 DECV 通过 bootstrap / 近似抽样来估计损失差异的分布,费时但相对稳健。
- 本文的 ELR 通过经验似然得到卡方近似,速度更快,但文献表明经验似然在“紧密依赖”(如 CV 折间相关)时水平可能偏保守(lose power)。作者用模拟验证,但理论上未给出 power 下界。
未见明显对立的经验证据。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据交代清楚¶
符号:
- \( (X, Y) \in \mathcal{X} \times \mathcal{Y} \):可观测的随机变量对(协变量 + 响应),有联合分布 \( P \)。
- 样本:\( \{ (X_i, Y_i) \}_{i=1}^n \) 是 i.i.d. 的 np 个子样本。
- 模型:两个候选的预测函数集(模型)\( \mathcal{F}_1, \mathcal{F}_2 \),比如加性模型 vs. 变系数模型。
- 损失函数:凸损失 \( \ell(y, \hat{y}) \),如平方损失 \( \ell(y, \hat{y}) = (y - \hat{y})^2 \),或 Huber 损失。
- 预测函数:\(\hat{f}_1, \hat{f}_2\) 分别是从模型 \( \mathcal{F}_1, \mathcal{F}_2 \) 在训练集上学习到的函数。
- CV 预测损失:
- 检验问题:
可观测数据:研究者能观测到完整的 i.i.d. 样本 \( \{ (X_i, Y_i) \}_{i=1}^n \)。他们可以计算每个模型的 CV 预测损失 \( \text{CV}_1, \text{CV}_2 \)(需计算出所有留一拟合)。
不可观测量(仅存在于模型中):最优预测函数 \( f_1^*, f_2^* \) 及其期望损失 \( \mathbb{E}[\ell(Y, f_j^*(X))] \) ——这正是检验要推断的。
第二步:最小内核(最小特例推导核心思路)¶
最小特例:二元回归(\( d=1 \), 无协变量维度) + 平方损失 + 两个给定参数形状的模型(比如 f1: 常数模型 vs f2: 线性模型),且样本数 n 足够大,使我们能忽略“模型选择”只在训练集中发生的间接影响。
在这个特例下,因为两个模型都是参数化的(不是非参数的),留一拟合的复杂度降到“解析可解”(常数模型:\( \hat{f}_1^{(-i)} = \bar{Y}_{(-i)} \); 线性模型:\( \hat{f}_2^{(-i)} \) 是去掉第 i 点后的 OLS 预测)。这时 CV 损失退化成简单的 leave-one-out 残差平方和。
核心思路(用这个特例展示 ELR 检验如何工作):
-
定义“残差差异”向量:对每个样本点 \( i \),定义
\[\epsilon_i = \ell(Y_i, \hat{f}_1^{(-i)}(X_i)) - \ell(Y_i, \hat{f}_2^{(-i)}(X_i)),\]在平方损失下,\( \epsilon_i = (Y_i - \hat{f}_1^{(-i)}(X_i))^2 - (Y_i - \hat{f}_2^{(-i)}(X_i))^2 \)。
原假设 \( H_0: \mathbb{E}[\ell(Y, f_1^*(X))] = \mathbb{E}[\ell(Y, f_2^*(X))] \) 等价于 \( \mathbb{E}[\epsilon_i] = 0 \)(在渐进意义下,由于 CV 偏置随着 n 增大趋于 0)。 -
经验似然比(ELR)统计量:考虑对向量 \( \{ \epsilon_i \}_{i=1}^n \) 构造经验似然。设 \( p_i \) 为第 i 个样本点的经验权重(\( \sum_{i}p_i=1, p_i>0 \))。经验似然比检验最大化
\[R(\boldsymbol{p}) = \prod_{i=1}^n n p_i,\]在约束 \( \sum_{i} p_i \epsilon_i = 0 \) 下的值,并与无约束(\( p_i=1/n \))相比得:\[\text{ELR}_n = 2 \sum_{i=1}^n \log \left( 1 + \lambda \epsilon_i \right),\]其中 \( \lambda \) 由 \( \sum_i \frac{\epsilon_i}{1+\lambda \epsilon_i} = 0 \) 确定,是 Lagrange 乘子。 -
渐近分布:若 \( \mathbb{E}[\epsilon_i] = 0 \) 且 \( \epsilon_i \) 二阶矩有限,则
ELR_n → χ²(1)(卡方 1 自由度)。不需要估计方差——Lagrange 乘子 λ 可以自动缩放信号;卡方近似来自经验似然比在零假设下的 Wilks 定理。
这个最小内核要说明的核心数学事实是:只要 \( \epsilon_i \) 定义稳健(用留一预测损失,以避免过拟合偏置),并且只依赖 i 个观测(确保独立性近似成立),那么经验似然比统计量就能“自动”地将检验问题的尺度(方差)吸收进去,以卡方分布逼近真实分布。原论文的“一般凸损失 + 非参数模型”情况,只是在此基础上增加了:① \( \epsilon_i \) 的渐近正态性需要用经验过程理论建立;② 留一拟合的近似精度控制需要用 U-统计量 / 霍夫丁投影来论证。
三、这篇论文做了什么¶
三句话¶
- 研究问题:构造一个形式化假设检验,用于比较任意两个监督学习模型(嵌套、非嵌套、重叠、误设或正确设定)的预测表现,基于交叉验证预测损失。
- 核心工具:经验似然比(ELR) + 留一交叉验证(LOO-CV) + 一次性拟合近似(one-step LOO 近似,用 o(p(1)) 误差替代逐点拟合)。
- 主要结论:
- ELR 检验在一般凸损失与非参数学习模型下的渐近零分布为卡方(自由度为 1)。
- “一次性拟合”版本(只拟合一次模型,用完整样本拟合 + 留一解析近似)与原版本渐近等价。
- 分布式 ELR 检验(大规模数据,分块计算+合并)给出变量组重要性检验的卡方分布。
关键设定与假设¶
补充记号(在第二节基础上)¶
- \( \mathcal{A} \):从训练样本 \( \{(X_i,Y_i)\}_{i=1}^n \) 学习预测函数的学习算法(如加性模型拟合、变系数模型拟合)。
- \( \hat{f}_{\mathcal{A}, \mathcal{S}} \):算法 \( \mathcal{A} \) 在样本集 \( \mathcal{S} \) 上拟合到的函数。
- \( \text{CV}_{n,1}, \text{CV}_{n,2} \):两个模型的 CV 预测损失(公式见第二节)。
- ELR 检验统计量(见第二节最小内核的
ELR_n)。 - 一次性拟合近似版本(称为
ELR_OS):用完整样本的拟合 \( \hat{f}_j^{\text{full}} \) 和留一近似 \( \hat{f}_j^{(-i)} \approx \hat{f}_j^{\text{full}} \circ \) 替代精确留一拟合。
主要假设(从论文第 2, 3, 4 节提取)¶
| 假设编号 | 内容 | 含义 | 对比已有文献的宽松/收紧 |
|---|---|---|---|
| (A1) | 损失函数 \( \ell(y, \hat{y}) \) 关于第二个参数凸、连续,且在紧集上有有界二阶导。 | 保证凸优化可解,且影响函数有界(该假设排除了 0-1 loss 等非凸损失)。 | 比 Vuong (1989) 宽松(后者要求似然函数可微),但比 Rivers-Vuong (2002) 的“任何 Lipschitz 损失”收紧(因为凸+有界二阶导比 Lipschitz 更强)。 |
| (A2) | 学习算法 \( \mathcal{A} \) 是 稳定 的(stable):去掉任意一个观测,预测函数的变化在某种范数下是 \( o_p(1) \)。 | 确保留一预测损失 \( \epsilon_i \) 之间的相关性可控,是 LOO-CV 理论的核心条件。 | 比一般理论(如 Bousquet & Elisseeff 2002 的 uniform stability)稍弱,因为只要求平均稳定性。 |
| (A3) | 真实分布 \( P \) 有紧支撑;两个模型的估计函数都在某个 Sobolev 球或 RKHS 球内(模型复杂度有界)。 | 控制经验过程的熵数,使 uniform CLT 成立。 | 对于加性模型(本文的真实例子),这是自然假设。但若模型是随机森林(不光滑),则不满足。 |
| (A4) | 对于分布式 ELR:数据均匀分块到 K 个机器,每个分块 i.i.d.。 | 保证块内方差可加。 | 这是标准分布式推断设定(Zhang et al., 2013)。 |
主要结果(理论型,挑 2 个最关键)¶
定理 1(精确版本 ELR 的渐近零分布)
- 直觉:在零假设下,残差差异向量 \( \{\epsilon_i\} \) 渐近是 i.i.d. 均值为 0 且方差有限的随机变量(因为 LOO-CV 消除了过拟合偏置,且稳定性假设使留一依赖可忽略)。经验似然比在这种“似 i.i.d.”设定下的卡方渐近性已被 Qin & Lawless (1994) 证明;这里的主要技术贡献是验证 \( \{\epsilon_i\} \) 可以“像 i.i.d. 一样”处理。
- 必要条件:(A1)-(A3);以及两个学习算法在积分度量下的收敛率足够快(即 \( \sup_f |\hat{f} - f^*| = o_p(1) \))。
- 解决的技术难点:LOO-CV 产生的 \( \epsilon_i \) 之间有 \( O(1/n) \) 的相关性,不能直接使用标准经验似然理论(后者要求独立或弱依赖)。作者使用 二阶 U-统计量投影 + 经验过程理论,证明了
Cov(ε_i, ε_j) = O(1/n), 因此由 U-统计量的 Hoeffding 分解,\(\sum_i \epsilon_i\) 的方差可以近似为 \( n \sigma^2 \)(忽略相关项),且检验统计量仍收敛到卡方。
定理 2(一次性拟合版本 ELR_OS 与原版本的渐近等价性)
ELR_OS 用“完整样本拟合 + 留一解析近似”替代精确逐点拟合。
- 直觉:对稳定算法,去掉一个点对预测函数的影响可用影响函数的一阶 Taylor 展开近似。因此,
ELR_OS与ELR的差异是O_p(1/n)阶,不影响卡方极限。 - 必要条件:学习算法的影响函数(influence function)存在且一致有界——对于非参数模型,这需要在模型复杂度与光滑性上有额外正则性假设(如 Newey (1994b) 中的路径wise 可微)。作者在文中写的是“对于大多数光滑学习算法(如核回归、样条回归、加性模型),该近似成立”,但没有给出一个覆盖所有算法的统一充分条件——这是证明中一个“软”点。
证明路线与技术技巧(理论型必写)¶
整体路线(证明定理 1):
-
Step 1(渐近线性表示):证明 LOO-CV 损失差异 \( \epsilon_i \) 可以写作
\[\epsilon_i = \Delta_i + r_i,\]其中 \( \Delta_i = \ell(Y_i, \hat{f}_1^{(-i)}(X_i)) - \ell(Y_i, \hat{f}_2^{(-i)}(X_i)) \) 是原项,而 \( r_i \) 是通过投影得到的一阶 U-统计量表示。实际操作中,作者将 \( \epsilon_i \) 分解为“期望损失差异的估计”+“影响函数项”+“剩余项(渐近可忽略)”。 -
Step 2(相关性控制):用 Hoeffding 分解(U-统计量理论)将 \( \epsilon_i \) 写成核函数的和:
\[\epsilon_i = \mu + U_i + V_i,\]其中 \( U_i \) 是独立同分布主项,\( V_i \) 是 U-统计量投影中的高阶项(涉及对角项与双样本交叉项)。关键是证明 \( \|V_i\|_{L^2} = O(1/\sqrt{n}) \),因此不影响 CLT。 -
Step 3(经验似然比的一致性):使用 Qin-Lawless 的 Lagrange 乘子理论,在零假设下
\[\lambda = \frac{\sum_i \epsilon_i}{\sum_i \epsilon_i^2} + o_p(1/\sqrt{n}),\]然后代入 ELR 公式得
\[\text{ELR}_n = \frac{(\sum_i \epsilon_i)^2}{\sum_i \epsilon_i^2} + o_p(1) \xrightarrow{d} \chi^2_1,\]其中 \(\sum_i \epsilon_i^2\) 充当方差的稳健估计量。 -
Step 4(
ELR_OS的近似):对每种学习算法,使用 influence function 的一阶展开(或更一般地,留一近似公式;如对于核回归,\( \hat{f}^{(-i)}(X_i) = \hat{f}^{full}(X_i) + O_p(1/n) \)),证明ELR_OS与ELR之差为o_p(1)。 -
Step 5(分布式 ELR):将数据分成 K 块,每块计算“局部”的 \( \epsilon_i^{(k)} \) 和经验似然比。作者证明“全球”ELR 可以写作:
\[\text{ELR}_n^{\text{dist}} = \sum_{k=1}^K \text{ELR}_n^{(k)} + o_p(K),\]并在 \( K = O(n^{1/2}) \) 以下保持渐近卡方。
关键跳跃点:
- 对留一拟合之间的相关性进行 U-统计量投影这一步,是证明中最精巧的部分。
难点:\( \epsilon_i \) 依赖于删除第 i 个观测后的整个拟合过程,因此 \( \epsilon_i \) 和 \( \epsilon_j \) 以所有 n−1 个其他点为桥梁相关。
解法:利用 Hoeffding 分解将相关性分解到 U-统计量核的对角与交叉项上,并证明交叉项是 o(1/(n)) 量级,从而可忽略。
- 对非参数模型的留一近似(一次性拟合版本),作者使用的是 Newey (1994a) 的“路径wise 可微”技巧,对损失函数的 Gateaux 导数求积分。这是技术上的“资深”技巧,对于非参数因果推断(如
DML)社区已较熟知。
技术技巧点名:
- 经验过程理论(uniform LLN & CLT for empirical processes over ℱ_1, ℱ_2)——用于控制 \(\hat{f}_j^{(-i)}\) 的收敛。
- U-统计量的 Hoeffding 投影与高阶项界——用于相关性控制。
- 经验似然比的 Lagrange 乘子展开——用于 ELR 到 t-test 形式之间的一步转换。
- 留一近似公式(leave-one-out lemma for kernel / additive / spline estimators)——用于一次性拟合版本。
真实例子与应用¶
本文末尾使用美国马萨诸塞州波士顿地区的 房屋价格(Hedonic price)数据集 来展示方法。
- 数据:n ≈ 600, 协变量 Z (房间数、犯罪率等) 与响应 Y (log(房价))。
- 模型比较:模型 1(加性模型:各协变量以平滑可加函数影响房价) vs 模型 2(变系数模型:房间数的效应可随着其他协变量变化,即房间数与协变量乘积项)。两种模型在文献中通常是不可比较的(一个假设加性,一个允许交互)。
- 应用流程:
- 每个模型做 10 折交叉验证,计算损失差异
ε_i。 - 用一次性拟合版本(
ELR_OS)计算统计量,得 p 值。 - 结果:p 值 ≈ 0.03,因此拒绝
H_0(两个模型预测表现相当),认为变系数模型显著优于加性模型(在平方损失意义下)。 - 说明:作者用这个例子说明本文方法可操作,并提供一个核心量化结果(差异显著),同时也验证了
ELR_OS与精确 LOO-CV 结果在定性上一致。
🔎 结论是否比证明窄的地方¶
第 4 节(分布式 ELR)中,作者声明“分布式 ELR 检验可用于可能误设的加性模型中变量组重要性检验”。但:
- 证明部分只展示了“在加性模型下,当协变量维数 d 固定且 n/k → ∞ 时”成立。
- 在 simulation 部分,作者只模拟了 d ≤ 5 的情况。结论中的“变量组重要性”是对任意 d 的高维推广,但证明中没有控制 d 随 n 增长时的诅咒——因此这个结论可能比证明窄,实际上是“维数固定下的变量组检验”。
- 分布式部分的渐近性要求 K = O(√n),这在大数据场景(n ~ 10^6, K ~ n^{1/2} 易满足)中是合理的,但算法复杂度部分被跳过——每个机器做 LOOCV 的计算成本未讨论。
四、开放问题(扎根具体语句,最多 4 条)¶
-
高维 d>>n 下的 ELR 检验存在性
本文假设维数 d 固定。若 p = dim(X) 随 n 增长(如 p ≈ n^{1/2}),非参数模型的留一拟合误差可能导致 U-统计量投影项无法忽略。扎根点:论文 Assumption (A1)−(A3) 中要求“模型在某个有界复杂度集内”,未应对 p>n 情形。一个开放问题是:在稀疏加性模型下(densenet)如何构造保留卡方渐近性的 ELR 检验。 -
非凸损失(如 0-1 loss 或 hinge loss)下 ELR 检验的渐近分布
作者框架要求损失函数凸且二次可微。这排除了分类问题中最常用的 hinge loss 和 0-1 loss。扎根点:论文第 2 节第一段:“We assume the loss function is convex and twice continuously differentiable...” ——按现有证明,非凸损失的 LOO-CV 留一拟合可能不唯一或是不连续,经验似然比的双阶展开无法复用。 -
如何改进一次性拟合近似的误差与稳定性?
作者使用了一阶留一近似(ELR_OS),但未给出一般条件下的误差上界。扎根点:论文 Theorem 4 的证明中只给出了ELR_OS − ELR = o_p(1),未给收敛速率。一个开放问题是:对于不光滑算法(如决策树),是否有更优的留一近似(如二阶展开或带权重 stein-like lemma)能保持o_p(1/√n)精度? -
模型误设下的最优加权 ELR 检验
作者比较“等权损失差异”(即 CV1 - CV2),但若一个模型在某个协变量子空间上表现更优,加权(如倾向得分加权)检验可能提高 power。扎根点:论文第 5 节模拟中虽展示了 power 曲线,但在一个真实例子中只比较了简单加权(未推导最优权重)。开放问题是:如何将协变量平衡加权(如 IPW 或 AIPW)嵌入 ELR 框架以构造更高效的检验。
Maintained by 陈星宇 · Homepage · Source on GitHub