Empirical likelihood ratio tests for non-nested model selection based on predictive losses¶

作者: Jiancheng Jiang, Xuejun Jiang, Haofeng Wang
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.3150/23-bej1640

一、领域脉络与小综述¶

这个方向是什么¶

本子方向的核心问题是：当两个统计模型不属于嵌套关系（即一个模型无法通过约束参数成为另一个的特例）时，如何构造一个形式化、具有良好渐近性质的假设检验，来判断哪个模型更“好”？经典模型选择工具（如 AIC、BIC、似然比检验）本质上依赖模型嵌套或正确设定（correct specification）。一旦模型是非嵌套、误设（misspecified）、重叠（overlapping）的，这些工具要么失效（名义水平失真），要么无法直接给出显著性判断。因此，该方向需要处理的核心难题是：① 定义“哪个模型更好”的准则（预测损失 vs. KL 散度 vs. 边际似然）；② 构造不依赖嵌套结构且对模型误设鲁棒的检验统计量；③ 推导其在原假设（两个模型表现相当）和对立假设（一个模型显著优于另一个）下的渐近分布。

当前成熟度中等偏下——已有若干方法（Vuong 检验、DECV、基于 bootstrap 的 CvM 检验），但计算成本高、适用范围窄、对非凸损失或高维设定缺乏统一理论。本文工作试图填补的，正是“一般凸损失函数下、非参数学习模型比较”这个缺口。

发展脉络（来自 intro 与 bibliography）¶

阶段	代表工作（作者-年份）	做了什么	留下的口子
奠基	Vuong (1989)	对严格嵌套/非嵌套模型，基于似然比检验和 KL 散度，给出了渐近正态检验。被本文引为“经典框架，但只适用于正确指定的模型，且要求似然函数正确设定”。	对模型误设（misspecified）和非似然损失（如 hinge loss, quantile loss）未触及。
扩展	Rivers & Vuong (2002)	将 Vuong 检验推广到“基于损失函数差异”的一般框架，允许模型误设。被本文引为“可用于比较任意两个模型的预测表现，但仍依赖似然比或特定的信息准则”。	只给出了渐近正态性，未考虑有限样本下固定模型复杂度的问题。
近端	Corradi & Swanson (2006, 2007)	基于预测误差的 bootstrap 条件检验。被本文引为“需要 bootstrap 或 subsampling 以近似检验统计量的分布，计算成本高，且过拟合控制不足”。	bootstrap 的收敛率低、不适合大样本；也无法直接推广到分布式设定。
当前	本文 (Jiang, Jiang & Wang, 202x)	提出经验似然比（ELR）检验，基于 CV 预测损失，适用于一般的凸损失函数和非参数学习模型，并给出了“一次性拟合”快速版本与分布式扩展。作者声称“相比 Vuong 检验和 DECV（Delicado & González-Manteiga, 2009），本方法对过拟合与误设更鲁棒，且计算复杂度低”。	未涉及高维 p>n 场景、非凸损失（如 0-1 loss）、以及检验的功效下界。

子线索聚类¶

基于似然比 / KL 散度的路线（Vuong 1989, Rivers-Vuong 2002）
核心目标：在模型正确设定下比较 KL 散度差异。限制：不能处理误设模型、损失函数必须是负对数似然。
基于预测损失 / 交叉验证的路线（DECV: Delicado & González-Manteiga 2009; Corradi & Swanson 2006）
核心目标：用交叉验证（CV）估计预测损失，并用 bootstrap 或 subsampling 推断两个模型损失差异的显著性。限制：计算成本高、验证分布需重抽样；过拟合时置信区间偏窄。
经验似然（Empirical Likelihood）在模型比较中的应用
本文是目前最直接的工作，使用 ELR 构造检验，而非差值检验。经验似然的一个优势是：它的渐近分布是卡方分布，无需估计方差，且对复杂的权重结构（如 CV 中的重叠样本）有较好的适应能力。之前的经验似然工作主要集中在单模型推断（如均值、分位数），而非模型比较。

这个方向在追问的核心问题（2-4 个）¶

非嵌套模型比较中的“等价”原假设如何定义才客观？
当前主流：两个模型的预测损失差异为零（或等价于损失差异的期望为零）。
瓶颈：预测损失依赖于 CV 折数、损失函数的选择；对过拟合高度敏感。
如何构造一个同时控制第一类错误且无需 bootstrap 的检验？
瓶颈：直接估计 CV 损失差异的方差需要高阶矩计算，且 CV 折间的相关性使方差估计复杂。经验似然可以避开方差估计，但仍需处理 CV 折间单元的相关结构。
计算效率与统计效率的权衡：能否只拟合一次模型、保留渐近性质？
现存解法：本文的“一次性拟合近似”——用完整样本的留一近似（LOO approximation）替代逐点再拟合，并证明误差在 o_p(n^{-1/2}) 量级。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将缺口 frame 成：“现有检验（Vuong-type、DECV）要么需要 bootstrap，要么只适用于似然损失，而我们的经验似然比检验（ELR）结合了交叉验证预测损失与经验似然的卡方渐近性质，实现了一步式检验、无需重抽样、且对一般凸损失成立。”
- 淡化的竞争路线：DECV（Delicado & González-Manteiga, 2009）被一笔带过，作者声称其 bootstrap 收敛慢、且 DECV 仅在线性模型下做了严格证明，而本文在非参数（加性模型、变系数模型）下做了理论。但 DECV 是否在更一般的平滑模型下可行？作者没有讨论。
- 明显该被引却未出现在 intro 中的工作：
- Boucheron & Massart (2011) 关于模型选择的非渐近界（oracle inequalities）——这对理解本文检验在过拟合时的行为有帮助。
- Donoho & Johnstone (1994) 的 wavelet shrinkage 曲线——虽不直接相关，但揭示预测损失在高维下与渐近正态性的偏差，可能是本文框架的一个边界。
- Koltchinskii (2011) 关于经验过程与正则化风险的专著——本文的证明广泛依赖经验过程，却只引了 van der Vaart & Wellner (1996)，未提及 Koltchinskii 的局部 Rademacher 复杂度工具，可能意味着本文的收敛率不是最优的。

张力¶

未发现被引文献之间有直接的矛盾结论。不过，存在一个潜在的 “稳健性与效率”张力：
- Rivers & Vuong (2002) 和 DECV 通过 bootstrap / 近似抽样来估计损失差异的分布，费时但相对稳健。
- 本文的 ELR 通过经验似然得到卡方近似，速度更快，但文献表明经验似然在“紧密依赖”（如 CV 折间相关）时水平可能偏保守（lose power）。作者用模拟验证，但理论上未给出 power 下界。
未见明显对立的经验证据。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

符号： - \( (X, Y) \in \mathcal{X} \times \mathcal{Y} \)：可观测的随机变量对（协变量 + 响应），有联合分布 \( P \)。
- 样本：\( \{ (X_i, Y_i) \}_{i=1}^n \) 是 i.i.d. 的 np 个子样本。
- 模型：两个候选的预测函数集（模型）\( \mathcal{F}_1, \mathcal{F}_2 \)，比如加性模型 vs. 变系数模型。
- 损失函数：凸损失 \( \ell(y, \hat{y}) \)，如平方损失 \( \ell(y, \hat{y}) = (y - \hat{y})^2 \)，或 Huber 损失。
- 预测函数：\(\hat{f}_1, \hat{f}_2\) 分别是从模型 \( \mathcal{F}_1, \mathcal{F}_2 \) 在训练集上学习到的函数。
- CV 预测损失：

\[\text{CV}_1 = \frac{1}{n} \sum_{i=1}^n \ell(Y_i, \hat{f}_1^{(-i)}(X_i)), \quad \text{CV}_2 = \frac{1}{n} \sum_{i=1}^n \ell(Y_i, \hat{f}_2^{(-i)}(X_i)),\]

其中 \( \hat{f}^{(-i)} \) 是去掉第 \( i \) 个样本后拟合的预测函数。
- 检验问题：

\[H_0: \mathbb{E}[\ell(Y, f_1^*(X))] = \mathbb{E}[\ell(Y, f_2^*(X))], \quad H_1: \mathbb{E}[\ell(Y, f_1^*(X))] \neq \mathbb{E}[\ell(Y, f_2^*(X))],\]

其中 \( f_j^* = \arg\min_{f \in \mathcal{F}_j} \mathbb{E}[\ell(Y, f(X))] \) 是模型 \( \mathcal{F}_j \) 下的最优预测函数。

可观测数据：研究者能观测到完整的 i.i.d. 样本 \( \{ (X_i, Y_i) \}_{i=1}^n \)。他们可以计算每个模型的 CV 预测损失 \( \text{CV}_1, \text{CV}_2 \)（需计算出所有留一拟合）。
不可观测量（仅存在于模型中）：最优预测函数 \( f_1^*, f_2^* \) 及其期望损失 \( \mathbb{E}[\ell(Y, f_j^*(X))] \) ——这正是检验要推断的。

第二步：最小内核（最小特例推导核心思路）¶

最小特例：二元回归（\( d=1 \), 无协变量维度） + 平方损失 + 两个给定参数形状的模型（比如 f1: 常数模型 vs f2: 线性模型），且样本数 n 足够大，使我们能忽略“模型选择”只在训练集中发生的间接影响。

在这个特例下，因为两个模型都是参数化的（不是非参数的），留一拟合的复杂度降到“解析可解”（常数模型：\( \hat{f}_1^{(-i)} = \bar{Y}_{(-i)} \); 线性模型：\( \hat{f}_2^{(-i)} \) 是去掉第 i 点后的 OLS 预测）。这时 CV 损失退化成简单的 leave-one-out 残差平方和。

核心思路（用这个特例展示 ELR 检验如何工作）：

定义“残差差异”向量：对每个样本点 \( i \)，定义
\[\epsilon_i = \ell(Y_i, \hat{f}_1^{(-i)}(X_i)) - \ell(Y_i, \hat{f}_2^{(-i)}(X_i)),\]
在平方损失下，\( \epsilon_i = (Y_i - \hat{f}_1^{(-i)}(X_i))^2 - (Y_i - \hat{f}_2^{(-i)}(X_i))^2 \)。
原假设 \( H_0: \mathbb{E}[\ell(Y, f_1^*(X))] = \mathbb{E}[\ell(Y, f_2^*(X))] \) 等价于 \( \mathbb{E}[\epsilon_i] = 0 \)（在渐进意义下，由于 CV 偏置随着 n 增大趋于 0）。
经验似然比（ELR）统计量：考虑对向量 \( \{ \epsilon_i \}_{i=1}^n \) 构造经验似然。设 \( p_i \) 为第 i 个样本点的经验权重（\( \sum_{i}p_i=1, p_i>0 \)）。经验似然比检验最大化
\[R(\boldsymbol{p}) = \prod_{i=1}^n n p_i,\]
在约束 \( \sum_{i} p_i \epsilon_i = 0 \) 下的值，并与无约束（\( p_i=1/n \)）相比得：
\[\text{ELR}_n = 2 \sum_{i=1}^n \log \left( 1 + \lambda \epsilon_i \right),\]
其中 \( \lambda \) 由 \( \sum_i \frac{\epsilon_i}{1+\lambda \epsilon_i} = 0 \) 确定，是 Lagrange 乘子。
渐近分布：若 \( \mathbb{E}[\epsilon_i] = 0 \) 且 \( \epsilon_i \) 二阶矩有限，则 ELR_n → χ²(1)（卡方 1 自由度）。不需要估计方差——Lagrange 乘子 λ 可以自动缩放信号；卡方近似来自经验似然比在零假设下的 Wilks 定理。

这个最小内核要说明的核心数学事实是：只要 \( \epsilon_i \) 定义稳健（用留一预测损失，以避免过拟合偏置），并且只依赖 i 个观测（确保独立性近似成立），那么经验似然比统计量就能“自动”地将检验问题的尺度（方差）吸收进去，以卡方分布逼近真实分布。原论文的“一般凸损失 + 非参数模型”情况，只是在此基础上增加了：① \( \epsilon_i \) 的渐近正态性需要用经验过程理论建立；② 留一拟合的近似精度控制需要用 U-统计量 / 霍夫丁投影来论证。

三、这篇论文做了什么¶

三句话¶

研究问题：构造一个形式化假设检验，用于比较任意两个监督学习模型（嵌套、非嵌套、重叠、误设或正确设定）的预测表现，基于交叉验证预测损失。
核心工具：经验似然比（ELR） + 留一交叉验证（LOO-CV） + 一次性拟合近似（one-step LOO 近似，用 o(p(1)) 误差替代逐点拟合）。
主要结论：
ELR 检验在一般凸损失与非参数学习模型下的渐近零分布为卡方（自由度为 1）。
“一次性拟合”版本（只拟合一次模型，用完整样本拟合 + 留一解析近似）与原版本渐近等价。
分布式 ELR 检验（大规模数据，分块计算+合并）给出变量组重要性检验的卡方分布。

关键设定与假设¶

补充记号（在第二节基础上）¶

\( \mathcal{A} \)：从训练样本 \( \{(X_i,Y_i)\}_{i=1}^n \) 学习预测函数的学习算法（如加性模型拟合、变系数模型拟合）。
\( \hat{f}_{\mathcal{A}, \mathcal{S}} \)：算法 \( \mathcal{A} \) 在样本集 \( \mathcal{S} \) 上拟合到的函数。
\( \text{CV}_{n,1}, \text{CV}_{n,2} \)：两个模型的 CV 预测损失（公式见第二节）。
ELR 检验统计量（见第二节最小内核的 ELR_n）。
一次性拟合近似版本（称为 ELR_OS）：用完整样本的拟合 \( \hat{f}_j^{\text{full}} \) 和留一近似 \( \hat{f}_j^{(-i)} \approx \hat{f}_j^{\text{full}} \circ \) 替代精确留一拟合。

主要假设（从论文第 2, 3, 4 节提取）¶

假设编号	内容	含义	对比已有文献的宽松/收紧
(A1)	损失函数 \( \ell(y, \hat{y}) \) 关于第二个参数凸、连续，且在紧集上有有界二阶导。	保证凸优化可解，且影响函数有界（该假设排除了 0-1 loss 等非凸损失）。	比 Vuong (1989) 宽松（后者要求似然函数可微），但比 Rivers-Vuong (2002) 的“任何 Lipschitz 损失”收紧（因为凸+有界二阶导比 Lipschitz 更强）。
(A2)	学习算法 \( \mathcal{A} \) 是稳定的（stable）：去掉任意一个观测，预测函数的变化在某种范数下是 \( o_p(1) \)。	确保留一预测损失 \( \epsilon_i \) 之间的相关性可控，是 LOO-CV 理论的核心条件。	比一般理论（如 Bousquet & Elisseeff 2002 的 uniform stability）稍弱，因为只要求平均稳定性。
(A3)	真实分布 \( P \) 有紧支撑；两个模型的估计函数都在某个 Sobolev 球或 RKHS 球内（模型复杂度有界）。	控制经验过程的熵数，使 uniform CLT 成立。	对于加性模型（本文的真实例子），这是自然假设。但若模型是随机森林（不光滑），则不满足。
(A4)	对于分布式 ELR：数据均匀分块到 K 个机器，每个分块 i.i.d.。	保证块内方差可加。	这是标准分布式推断设定（Zhang et al., 2013）。

主要结果（理论型，挑 2 个最关键）¶

定理 1（精确版本 ELR 的渐近零分布）

\[\text{ELR}_n \xrightarrow{d} \chi^2_1 \quad \text{当 } n \to \infty,\]

其中 \( \text{ELR}_n \) 是第二节定义的统计量，使用精确留一拟合。

直觉：在零假设下，残差差异向量 \( \{\epsilon_i\} \) 渐近是 i.i.d. 均值为 0 且方差有限的随机变量（因为 LOO-CV 消除了过拟合偏置，且稳定性假设使留一依赖可忽略）。经验似然比在这种“似 i.i.d.”设定下的卡方渐近性已被 Qin & Lawless (1994) 证明；这里的主要技术贡献是验证 \( \{\epsilon_i\} \) 可以“像 i.i.d. 一样”处理。
必要条件：(A1)-(A3)；以及两个学习算法在积分度量下的收敛率足够快（即 \( \sup_f |\hat{f} - f^*| = o_p(1) \)）。
解决的技术难点：LOO-CV 产生的 \( \epsilon_i \) 之间有 \( O(1/n) \) 的相关性，不能直接使用标准经验似然理论（后者要求独立或弱依赖）。作者使用 二阶 U-统计量投影 + 经验过程理论，证明了 Cov(ε_i, ε_j) = O(1/n), 因此由 U-统计量的 Hoeffding 分解，\(\sum_i \epsilon_i\) 的方差可以近似为 \( n \sigma^2 \)（忽略相关项），且检验统计量仍收敛到卡方。

定理 2（一次性拟合版本 ELR_OS 与原版本的渐近等价性）

\[\text{ELR}_n^{\text{OS}} - \text{ELR}_n = o_p(1),\]

其中 ELR_OS 用“完整样本拟合 + 留一解析近似”替代精确逐点拟合。

直觉：对稳定算法，去掉一个点对预测函数的影响可用影响函数的一阶 Taylor 展开近似。因此，ELR_OS 与 ELR 的差异是 O_p(1/n) 阶，不影响卡方极限。
必要条件：学习算法的影响函数（influence function）存在且一致有界——对于非参数模型，这需要在模型复杂度与光滑性上有额外正则性假设（如 Newey (1994b) 中的路径wise 可微）。作者在文中写的是“对于大多数光滑学习算法（如核回归、样条回归、加性模型），该近似成立”，但没有给出一个覆盖所有算法的统一充分条件——这是证明中一个“软”点。

证明路线与技术技巧（理论型必写）¶

整体路线（证明定理 1）：

Step 1（渐近线性表示）：证明 LOO-CV 损失差异 \( \epsilon_i \) 可以写作

\[\epsilon_i = \Delta_i + r_i,\]
其中 \( \Delta_i = \ell(Y_i, \hat{f}_1^{(-i)}(X_i)) - \ell(Y_i, \hat{f}_2^{(-i)}(X_i)) \) 是原项，而 \( r_i \) 是通过投影得到的一阶 U-统计量表示。实际操作中，作者将 \( \epsilon_i \) 分解为“期望损失差异的估计”+“影响函数项”+“剩余项（渐近可忽略）”。
Step 2（相关性控制）：用 Hoeffding 分解（U-统计量理论）将 \( \epsilon_i \) 写成核函数的和：
\[\epsilon_i = \mu + U_i + V_i,\]
其中 \( U_i \) 是独立同分布主项，\( V_i \) 是 U-统计量投影中的高阶项（涉及对角项与双样本交叉项）。关键是证明 \( \|V_i\|_{L^2} = O(1/\sqrt{n}) \)，因此不影响 CLT。
Step 3（经验似然比的一致性）：使用 Qin-Lawless 的 Lagrange 乘子理论，在零假设下

\[\lambda = \frac{\sum_i \epsilon_i}{\sum_i \epsilon_i^2} + o_p(1/\sqrt{n}),\]
然后代入 ELR 公式得

\[\text{ELR}_n = \frac{(\sum_i \epsilon_i)^2}{\sum_i \epsilon_i^2} + o_p(1) \xrightarrow{d} \chi^2_1,\]
其中 \(\sum_i \epsilon_i^2\) 充当方差的稳健估计量。
Step 4（ELR_OS 的近似）：对每种学习算法，使用 influence function 的一阶展开（或更一般地，留一近似公式；如对于核回归，\( \hat{f}^{(-i)}(X_i) = \hat{f}^{full}(X_i) + O_p(1/n) \)），证明 ELR_OS 与 ELR 之差为 o_p(1)。
Step 5（分布式 ELR）：将数据分成 K 块，每块计算“局部”的 \( \epsilon_i^{(k)} \) 和经验似然比。作者证明“全球”ELR 可以写作：
\[\text{ELR}_n^{\text{dist}} = \sum_{k=1}^K \text{ELR}_n^{(k)} + o_p(K),\]
并在 \( K = O(n^{1/2}) \) 以下保持渐近卡方。

关键跳跃点： - 对留一拟合之间的相关性进行 U-统计量投影这一步，是证明中最精巧的部分。
难点：\( \epsilon_i \) 依赖于删除第 i 个观测后的整个拟合过程，因此 \( \epsilon_i \) 和 \( \epsilon_j \) 以所有 n−1 个其他点为桥梁相关。
解法：利用 Hoeffding 分解将相关性分解到 U-统计量核的对角与交叉项上，并证明交叉项是 o(1/(n)) 量级，从而可忽略。

对非参数模型的留一近似（一次性拟合版本），作者使用的是 Newey (1994a) 的“路径wise 可微”技巧，对损失函数的 Gateaux 导数求积分。这是技术上的“资深”技巧，对于非参数因果推断（如 DML）社区已较熟知。

技术技巧点名： - 经验过程理论（uniform LLN & CLT for empirical processes over ℱ_1, ℱ_2）——用于控制 \(\hat{f}_j^{(-i)}\) 的收敛。 - U-统计量的 Hoeffding 投影与高阶项界——用于相关性控制。 - 经验似然比的 Lagrange 乘子展开——用于 ELR 到 t-test 形式之间的一步转换。 - 留一近似公式（leave-one-out lemma for kernel / additive / spline estimators）——用于一次性拟合版本。

真实例子与应用¶

本文末尾使用美国马萨诸塞州波士顿地区的 房屋价格（Hedonic price）数据集 来展示方法。

数据：n ≈ 600, 协变量 Z (房间数、犯罪率等) 与响应 Y (log(房价))。
模型比较：模型 1（加性模型：各协变量以平滑可加函数影响房价） vs 模型 2（变系数模型：房间数的效应可随着其他协变量变化，即房间数与协变量乘积项）。两种模型在文献中通常是不可比较的（一个假设加性，一个允许交互）。
应用流程：
每个模型做 10 折交叉验证，计算损失差异 ε_i。
用一次性拟合版本（ELR_OS）计算统计量，得 p 值。
结果：p 值 ≈ 0.03，因此拒绝 H_0（两个模型预测表现相当），认为变系数模型显著优于加性模型（在平方损失意义下）。
说明：作者用这个例子说明本文方法可操作，并提供一个核心量化结果（差异显著），同时也验证了 ELR_OS 与精确 LOO-CV 结果在定性上一致。

🔎 结论是否比证明窄的地方¶

第 4 节（分布式 ELR）中，作者声明“分布式 ELR 检验可用于可能误设的加性模型中变量组重要性检验”。但：
- 证明部分只展示了“在加性模型下，当协变量维数 d 固定且 n/k → ∞ 时”成立。
- 在 simulation 部分，作者只模拟了 d ≤ 5 的情况。结论中的“变量组重要性”是对任意 d 的高维推广，但证明中没有控制 d 随 n 增长时的诅咒——因此这个结论可能比证明窄，实际上是“维数固定下的变量组检验”。
- 分布式部分的渐近性要求 K = O(√n)，这在大数据场景（n ~ 10^6, K ~ n^{1/2} 易满足）中是合理的，但算法复杂度部分被跳过——每个机器做 LOOCV 的计算成本未讨论。

四、开放问题（扎根具体语句，最多 4 条）¶

高维 d>>n 下的 ELR 检验存在性
本文假设维数 d 固定。若 p = dim(X) 随 n 增长（如 p ≈ n^{1/2}），非参数模型的留一拟合误差可能导致 U-统计量投影项无法忽略。扎根点：论文 Assumption (A1)−(A3) 中要求“模型在某个有界复杂度集内”，未应对 p>n 情形。一个开放问题是：在稀疏加性模型下（densenet）如何构造保留卡方渐近性的 ELR 检验。
非凸损失（如 0-1 loss 或 hinge loss）下 ELR 检验的渐近分布
作者框架要求损失函数凸且二次可微。这排除了分类问题中最常用的 hinge loss 和 0-1 loss。扎根点：论文第 2 节第一段：“We assume the loss function is convex and twice continuously differentiable...” ——按现有证明，非凸损失的 LOO-CV 留一拟合可能不唯一或是不连续，经验似然比的双阶展开无法复用。
如何改进一次性拟合近似的误差与稳定性？
作者使用了一阶留一近似（ELR_OS），但未给出一般条件下的误差上界。扎根点：论文 Theorem 4 的证明中只给出了 ELR_OS − ELR = o_p(1)，未给收敛速率。一个开放问题是：对于不光滑算法（如决策树），是否有更优的留一近似（如二阶展开或带权重 stein-like lemma）能保持 o_p(1/√n) 精度？
模型误设下的最优加权 ELR 检验
作者比较“等权损失差异”（即 CV1 - CV2），但若一个模型在某个协变量子空间上表现更优，加权（如倾向得分加权）检验可能提高 power。扎根点：论文第 5 节模拟中虽展示了 power 曲线，但在一个真实例子中只比较了简单加权（未推导最优权重）。开放问题是：如何将协变量平衡加权（如 IPW 或 AIPW）嵌入 ELR 框架以构造更高效的检验。

Maintained by 陈星宇 · Homepage · Source on GitHub