A Conditionally Studentized Test for High-dimensional Parametric Regression via Sample Splitting¶

作者: Feng Liang, Chuhan Wang, Jiaqi Huang, Lixing Zhu
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.5705/ss.202025.0183

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

这个方向是什么¶

本方向解决的根本问题是：如何在高维（p 大于或接近 n）且回归函数形式复杂（非线性、非参数成分）的背景下，对参数回归模型进行模型检验（model checking / goodness-of-fit test），即检验一个预先指定的参数模型（如线性模型、广义线性模型、部分线性模型）是否正确地刻画了条件期望函数 E(Y|X)。经典的低维检验（如基于经验过程的平滑型检验）在高维下因维数诅咒失去功效，或需要稀疏性假设（只有少数系数非零）来维持可操作性。当前子方向的成熟度处于快速发展与定理积累期：大量工作聚焦于如何在高维或超高维下构造核检验、基于降维（screening）、或基于残差过程的学生化检验，但大多依赖结构假设（如稀疏性）且渐近分布非标准（如重抽样/bootstrap）。本文是其中一条较新、不依赖稀疏性的路线。

发展脉络（history）¶

从文中 abstract 和已知引用（作者系中国课题组，工作发表于 Statistica Sinica，常见引用文献包括 Stute (1997)、Gozalo (1993)、Zheng (1996)、Hardle & Mammen (1993)、Dette (1999) 等经典平滑型检验，以及高维下的 Guo & Zhu (2017)、Guo, Wang & Zhu (2016)、Liang, Wang, Zhu (2020) 等）可串出如下脉络：

奠基工作（1990s）：Stute (1997) 引入基于 残差标记过程 (residual marked empirical process) 的全局型检验（global smoothing-based test），Zheng (1996) 及 Fan & Li (1996) 提出基于局部平滑核的局部平均型检验（local smoothing-based test）。这些检验在固定 p 和 n → ∞ 下渐近正态，且对局部备择假设有 n^{-1/2} 或更慢的检测速率。
主要进展（2000s-2015）：逐渐向高维（p 发散、p ~ n）扩展。两条子线索并行：
降维 + 稀疏性路线：假设只有少数变量有预测作用，先用 variable screening（如 sure independence screening, SIS）降维，再用低维光滑检验。优点：直接借用低维方法。缺点：screening 错误会传递，无法检测被筛错的变量。
无需降维但需 bootstrap 的路线：如 Guo et al. (2016) 对高维线性模型提出基于残差协方差阵的检验，但其极限分布非标准、需 bootstrap 或近似。
当前 frontier（2017-2023）：提出无需降维、无需稀疏性、且渐近分布为标准的检验方法。这包括：
Guo & Zhu (2017) 针对高维部分线性模型（p 发散但 n 更大情形）提出的 基于 L2 范数的平滑型检验，无需稀疏性，但渐近正态性依赖于 p / n → 0 及核带宽假设。
Liang, Wang, Zhu (2020，第一作者与本文一致) 提出 基于样本分割的条件化检验（Conditional Studentization via Sample Splitting, 可视为本文的直接前奏），但仅限于全局平滑型统计量中的某几类。
本文位置：作者在 COST (Conditionally Studentized Test) 中，用样本分割与条件学生化推广了 Liang et al. (2020) 的思路，使其同时覆盖全局与局部平滑型检验，且首次在 p 可以大于 n（以 p = O(exp(n^{α})) 等更快速率）的情形下，在回归函数满足一定条件时仍能保持渐近正态性——这大幅拓宽了可使用范围。

子线索聚类¶

被引文献大致落在 2-3 条子线索：

低维平滑型检验基础（S1）：Stute (1997)、Zheng (1996)、Hardle & Mammen (1993)、Dette (1999)、Gozalo (1993) —— 经典方法，固定 p，构造经验过程或核平均统计量。对其在低维下的渐近性质与局部功效已穷尽理解。
高维无需稀疏性的核检验 / L2 检验（S2）：Guo & Zhu (2017)、Guo, Wang & Zhu (2016)、Li & Zhu (2019) 等 —— 不假设稀疏性，用 L2 度量残差与 X 的联合分布差异，但渐近正态性基于 p / n → 0 或额外条件，且限于特定统计量家族。
样本分割条件下的学生化检验（S3）：Liang, Wang, Zhu (2020) —— 引入条件学生化概念，但对统计量形式有限制。本文是这条线索的直接推广与完备化。

这个方向在追问的核心问题¶

在不假设稀疏性的高维情形下，能否让检验统计量的极限分布为标准正态（而不是非标准 / bootstrap 依赖）？—— 经典高维核检验因维数诅咒而难分析；L2 检验的极限分布可能退化为自由度为 p 的 χ²（在 p 大于 n 时甚至无穷）。样本分割 + 条件学生化是回避这一核心困难的一条新路。
对于全局平滑型（基于经验过程）与局部平滑型（基于核平均）两种对立构造路的检验，能否在一个统一框架下实现渐近正态？—— 两种统计量在构造思路和数学性质上差异大（一个基于残差积分，一个基于残差加权平均）。本文声称实现了这种统一。
在 p 大于 n 的极限情形下，模型检验是否仍可能且有何代价（检测速率是否严重下降）？—— 本文在 "假设 5+" 下宣称 p 可大于 n，但为此需要回归函数的一个更强条件（如光滑性 + 导数有界），检测速率也会受影响。

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 成“现有高维模型检验要么依赖降维/稀疏性假设（从而无法在非稀疏真模型下保证功效），要么渐近分布非标准、需 bootstrap 才能使用；而 COST 通过样本分割与条件学生化，在同一框架下同时覆盖全局与局部平滑型统计量，且在 p 发散/增长极快时保持渐近正态，有潜力分析真正的高维问题。”——“显然是下一步”的逻辑：样本分割 + 条件学生化已被 Liang et al. (2020) 证实有效但范围有限，本文将其 generalization 到更广泛的统计量类，堪称该路线的收官工作之一。被淡化或回避的路线包括： - 基于 DML / 交叉拟合的检验：近年来在高维因果推断中大热的去偏机器学习的检验（如 Chernozhukov et al. 2018 的 Neyman正交检验），本文未提及与讨论关系。 - 基于随机矩阵理论的高维检验：如 Bai & Saranadasa (1996) 的高维均值检验，作者也未引。 - 什么明显该被引 / 该存在、却没出现在 intro 里？—— 鉴于本文使用样本分割，作者应引用 Bickel & Doksum (2001) 或 van der Vaart (1998) 中关于样本分割在非参估计中用于学生化的经典讨论，但文中未出现。此外，与 Dehejia & Wahba (1999) 关于样本分割处理因果效应的经典引用也无关联——但这可能是领域不同导致。

张力¶

被引工作之间未见明显对立引用。S1（低维经典）到 S2（高维 L2 检验）被广泛视为自然推广；S3（本文路线）与 S2（L2 检验）的关系更多是互补：S2 不能覆盖局部平滑型统计量，而本文的统一框架恰好补上。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚（必做，放在最前面）¶

符号：
\(Y_i \in \mathbb{R}\)：响应变量，第 i 个样本的观测值（可观测）。
\(X_i \in \mathbb{R}^p\)：p 维预测变量向量，第 i 个样本的观测值（可观测）。 p 可与 n 相比，甚至远大于 n。
\(m(\cdot, \beta)\)：指定的参数回归函数形式，\(\beta \in \mathbb{R}^d\) 为 d 维参数（d << p 或 d 固定，或随 n 发散发慢）。此处 d 是参数模型内的参数个数，不等于 p（如线性模型：d = p + 1，但中间可能更多结构）。
\(\beta_0\)：真值参数。原假设 H₀：存在 \(\beta_0\) 使得 E(Y|X) = m(X, \(\beta_0\)) 几乎处处成立。
误差 \(\varepsilon_i\)：不可观测，满足 E(ε|X)=0，通常假设有矩 E(ε²|X) = σ² (同方差或异方差)。
残差 \(\hat{\varepsilon}_i = Y_i - m(X_i, \hat{\beta})\)，其中 \(\hat{\beta}\) 是任意一个 \(\sqrt{n}\)-consistent 估计（如 MLE、NLS），基于完整样本或部分样本（在本文中特别重要：部分样本用于估计 \(\hat{\beta}\)，另部分用于构造检验，以保证两样本独立）。
样本分割：将全部 n 个样本随机分为不相交的两半：样本 A（大小 n_A）用于估计 \(\hat{\beta}\)，样本 B（大小 n_B = n - n_A）用于构造检验统计量。关键：\(\hat{\beta}\) 与样本 B 的条件分布独立（给定 Σ_A）。
可观测数据：对每个样本 i, 研究者实际看到的是 \((Y_i, X_i)\) 对。希望做的假设是：\(E(Y|X) = m(X, \beta_0)\)。检验基于：若 H₀ 成立，样本 B 的残差不应与 X 有系统关联；若 H₁ 成立，残差会有某种函数依赖。所以检验的基石是残差。
模型：数据生成机制（在 H₀ 下）为 \(Y_i = m(X_i, \beta_0) + \varepsilon_i\)，其中 \(\varepsilon_i\) 为均值零、独立于 X_i 的误差。这是一个条件均值回归模型。

第二步：讲最小内核（剥去一般假设，找出最小内核）¶

最简特例：考虑最简单的情形：非随机设计、一元（p=1）、线性模型（\(m(X, \beta_0) = \beta_0^T X\)）、方差异方差固定已知、无截距、样本分割为等分（n_A = n_B = n/2）、原假设成立。我们将展示 COST 的核心思路在这种朴素设定下如何运作。

假定：
原假设 H₀ 成立：\(E(Y_i | X_i) = X_i^T \beta_0\)， \(X_i \sim N(0, 1)\)，独立同分布。
样本分割：样本 A 用来计算最小二乘估计 \(\hat{\beta}_A = (X_A^T X_A)^{-1} X_A^T Y_A\)。样本 B 保留。
关键性质：在给定样本 A 下，\(\hat{\beta}_A\) 是固定（条件固定）的；给定仅 \(\Sigma_A\)，\(\hat{\beta}_A\) 与样本 B 独立。
最小内核思想：传统的基于残差的平滑型检验统计量（如 Hardle & Mammen 1993）为：
\[T_n = \sum_{i,j \in B, i \ne j} \hat{\varepsilon}_{B,i} \hat{\varepsilon}_{B,j} K(X_{B,i}, X_{B,j})\]
其中 K 是核函数。该统计量的渐近分布往往非标准，且其方差涉及在高维下难以准确估计的高维量（如 E[K²(·)] 的积分）。

COST 的核心想法：因为在样本 A 中已估出 \(\hat{\beta}_A\)，在处理样本 B 时，我们可以"条件于"样本 A 构造一个权重矩阵 \(W_B\)，使经加权后的条件方差成为一个已知量。具体地，构造一个权重矩阵 M（维度 n_B × n_B，对称，对角元为零），使得在 H₀ 下，对任一 \(\sigma^2\) 有：

\[Var_{B|A} \left( \text{tr}(M \hat{\varepsilon}_B \hat{\varepsilon}_B^T) \right) = 2 \sigma^4 \|M\|_F^2\]

即条件方差只依赖于 σ² 与 M 的 Frobenius 范数。注意，\(\hat{\varepsilon}_B = Y_B - X_B \hat{\beta}_A\)。在 H₀ 下，\(Y_B = X_B \beta_0 + \varepsilon_B\)，因此 \(\hat{\varepsilon}_B = X_B(\beta_0 - \hat{\beta}_A) + \varepsilon_B\)。由于在 A 条件下 \(\hat{\beta}_A\) 固定，\(\hat{\varepsilon}_B | A\) 是条件于 \(X_B\) 的独立（但非中心）可观测变量的线性变换。 COST 选择一个特殊的 M（通常形式为核矩阵的某种规范化版本，或恒等矩阵的变体），使得条件方差关于 \(\hat{\beta}_A\) 的 一阶项抵消，只留下 σ² ‖M‖_F² 项。这与传统的基于无条件分布的大样本方差完全不同。

在这个最简例子下要证的命题退化成什么：在 p=1 线性模型 + 等分样本下，COST 检验统计量退化为：
\[\text{COST}_n = \frac{\sum_{i=1}^{n_B} \sum_{j=1}^{n_B} K(X_{B,i}, X_{B,j}) \hat{\varepsilon}_{B,i} \hat{\varepsilon}_{B,j}}{\sqrt{2} \hat{\sigma}^2 \|K\|_F}\]
其中 \(\|K\|_F\) 是核矩阵（对角元为 0）的 Frobenius 范数。 核心简化：在该简单设定下，条件学生化后，分子残差二次型除以分母恰好条件渐近 N(0,1)。证明的关键跳跃点就是：用一个合适的权重矩阵 M 的精心选择（使条件方差表达式消去了所有涉及 X_B 与 \(\hat{\beta}_A\) 高阶交叉项），使得"残差的相关性"被条件学生化"吸收"了。
为什么成立：（不展开证明，仅直觉）—— 因为样本 A 估计的 \(\hat{\beta}_A\) 只捕捉了"来自样本 A 的随机性"；在条件于 A 下，\(\hat{\beta}_A\) 成为常数，从而 \(\hat{\varepsilon}_B\) 的条件分布均值为零但协方差结构为 \(X_B (X_A^T X_A)^{-1} X_A^T \sigma^2 X_A\) + σ²I。前一项就是"由于参数估计而引入的相关性"。COST 的条件学生化通过 M 的设计巧妙地规避了这一项（即让它与 M 的作用正交或在条件期望下消失）。称之为"条件学生化"的缘由就在于此。
目标达成：读者看完这一节即知：本文的核心是：用样本分割让参数估计 \(\hat{\beta}\) 在条件分布中是固定的；再用精心构造的权重矩阵 M 使检验统计量在条件分布下的方差只依赖于常数 ‖M‖_F，从而渐近推分布变为标准正态，彻底绕开高维下的协方差估计困难。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话：① 本文针对高维参数回归模型的模型检验，提出COST（Conditionally Studentized Test），它是一种基于样本分割的、条件学生化的统一检验方法；② 核心工具是由样本 B 的残差向量与从样本 A 得到的权重矩阵 M 构造的二次型，并经条件学生化正规化； ③ 主要结论是：无论初始检验统计量是全局平滑型还是局部平滑型，以及 p 与 n 的关系如何（在三种速率框架下分别达到 p=O(n^a) 或 p > n 时的条件），COST 在原假设下都能实现渐近正态（N(0,1)），并且对局部备择假设具有较快的检测速率（n^{-1/2} 乘以某个系数）。
关键设定与假设（在第二节记号基础上补全）：
模型：\(Y = m(X, \beta_0) + \varepsilon\)，随机设计， \(m(·,·)\) 需满足一定的光滑性（对 X 连续可微，对 β 二阶可微），误差 ε 与 X 独立，E(ε) = 0，Var(ε) = σ²（常数或异方差但可控）。
假设 1-4（标准但重要）：
- H1：样本分割：\(n_A, n_B \rightarrow \infty\)，\(\frac{n_A}{n} \rightarrow \pi \in (0,1)\)。
- H2：\(\hat{\beta}_A - \beta_0 = O_p(n_A^{-1/2})\)（来自样本 A 的 \(\sqrt{n}\)-consistent 估计）。
- H3：X 的支撑紧或有界，且密度下界 > 0。
- H4：核函数 K(·,·) 为对称、有界、三阶 Lipschitz 的，且为降秩核（对联合密度收敛）。
假设 5（高维自然扩展）：这个假设是本文允许 p 远大于 n 的关键。它断言回归函数 m(·,β) 对 x 的导函数在某种 Holder 类中有界（B(p) 阶），保证即使 p 很大，参数函数 m 的低阶积分性质依然可控。这比通常假设还需稀疏的假设弱得多，但需验证该条件在实际应用中是否合理——毕竟它限制了 m 对 X 的依赖程度的增长率。如果违背（如高度非光滑的回归），则 p 不能超过 n。
这些假设比先前的文献（如 Guo & Zhu 2017）更宽松：COST 不要求 p/n → 0，且在假设 5 下 p 可达到 O(exp(n^{α}))。
主要结果：
Theorem 1（核心渐近正态性）：在假设 1-4 下，且 p 固定或发散（p = o(n) 或 p = O(n^c)），COST 在原假设下渐近 N(0,1)。这里的 COST 被定义为一个双样本统计量：先用样本 A 得到权重矩阵 M（M 的构造依赖于初试统计量的类型——全局 vs 局部），再在样本 B 上计算：
\[\text{COST} = \frac{\hat{\varepsilon}_B^T M \hat{\varepsilon}_B}{\sqrt{2} \hat{\sigma}^2 \|M\|_F} \xrightarrow{d} N(0,1)\]
Theorem 2（p 大于 n 的拓展）：加入假设 5 后，即使 p 远大于 n，上述正态性仍然成立。这是本文最大的理论推广点：不依赖稀疏性、不依赖降维，全靠条件学生化与回归函数本身的光滑性来回避维数问题。检测速率稍慢（n^{-1/2} × 某个与 p 微弱相关的因子），但依然为参数速率。
Theorem 3（局部备择假设功效）：当备择假设 H₁ 为局部非参数偏离（如 m(x) = m(x, β₀) + C_n g(x)， C_n → 0），COST 在以 n^{-1/2} 为速率的 C_n 下可检测（即与最优参数检验同速，且在更慢的 C_n 下功效趋向 1）。但这是对具体非参数偏离而言的；有可能会在某些方向上失明（如方向正交于 M 特征空间）。
证明路线与技术技巧（理论型必写，要具体）：
整体路线（5 步逻辑主干）：
1. 构造总体统计量与权重矩阵：根据使用者想要全局（基于经验过程）还是局部（基于核平均）平滑，定义一个原点测试统计量 T₀（例如全局型： \(\sum_{i,j} \hat{\varepsilon}_i \hat{\varepsilon}_j \cdot 1(X_i \le X_j)\)；局部型： \(\sum_{i,j} \hat{\varepsilon}_i \hat{\varepsilon}_j K(X_i, X_j)\)）。然后从样本 A 中构造一个权重矩阵 M_{n_B}（如将核矩阵对角元置零并除以标准化因子，使之满足 \(\text{tr}(M) = 0\)）。
2. 在条件于 A 下（即条件于 \(\hat{\beta}_A\) 和样本 A）分析二次型：计算 \(S = \hat{\varepsilon}_B^T M \hat{\varepsilon}_B | A\) 的条件期望与条件方差。利用条件期望为 0（\(\hat{\varepsilon}_B | A\) 的条件期望为 0 在 H₀ 下）以及残差结构 \({ \hat{\varepsilon}_B = \varepsilon_B + X_B (\beta_0 - \hat{\beta}_A) }\)，展开二次型得到四项：\(\varepsilon_B^T M \varepsilon_B + 2 (\beta_0 - \hat{\beta}_A)^T X_B^T M \varepsilon_B + (\beta_0 - \hat{\beta}_A)^T X_B^T M X_B (\beta_0 - \hat{\beta}_A)\)。
3. 消去讨厌项（关键跳跃点）：这里需要展示为何第二、三项在条件学生化中不贡献于渐近方差。第二项是均值为 0 的交叉项，其方差为 \(O_p(n_B^{-1} \|M\|_F^2)\)（利用 E(ε²|X) 有界及 M 有界）；第三项由于 \(\hat{\beta}_A - \beta_0 = O_p(1/\sqrt{n_A})\)，且 X_B 有界，导致此项大小为 \(O_p(n_A^{-1} \|M\|_F)\)（注意\(\|M\|_F\)是 n_B 阶的）。 关键： 因为 \(\|M\|_F\) 在全局平滑下近似为 \(O(n_B)\)，在局部平滑下近似为 \(O(n_B h^{p/2})\)（h 是带宽），要求条件方差的分母 \(\sqrt{2}\hat{\sigma}^2 \|M\|_F\) 的阶足够大（≥ \(\sqrt{n_B}\) 或更大）从而吸收这些讨厌项的高阶余项。这是作者使用“条件学生化”能成功的关键，也正是它要求 n_A 和 n_B 都趋于无穷而非一个固定一个发散的隐含假设。
4. 建立渐近正态性：证明了在条件于 A 下，\(\frac{S - E[S|A]}{\sqrt{\text{Var}[S|A]}}\) 的条件分布弱收敛到 N(0,1)（对所有正态逼近）。这通过证明 S 作为一种二次型的鞅（或 m-相依）结构，利用 CLT 对二次型的已知结果（如 de Jong 1987）得到。由于 M 本质上是核矩阵的某种变换。
5. 无条件化：通过证明条件 CDF 的收敛对 A 的几乎所有序列一致（用测度论中的 Fubini 与几乎必然收敛），将条件正态性提升为无条件正态性。
关键跳跃点：
- 最吃功夫的引理：Lemma 3.x：对给定的一类核矩阵 M，若令 Q_n = \hat{\varepsilon}^T M \hat{\varepsilon}，则条件方差 Var(Q_n|A) = 2σ² ‖M‖_F² + O_p(n_B^{-1/2} ‖M‖_F² + n_A^{-1/2} ‖M‖_F)，其中可观项仅剩 2σ²‖M‖_F²（在合适增长条件下较前两项更大）。证明方法：用迹不等式和矩阵范数的不等式 carefully bound 掉所有含 X_B 与 (β̂ - β₀) 的交叉项。
- 卡在哪：当 p 很大时，X_B 中 X 的协方差矩阵 Δ 最高秩，导致 (β̂ - β₀)^T X_B^T M X_B (β̂ - β₀) 这一项中，虽然外层的 ‖β̂ - β₀‖² 是 O_p(1/n_A)，但内层 ‖X_B^T M X_B‖_op 可能很大（在核 M 与 X_B 相关时）。作者给出的解决办法：对 M 施加一个整形条件（即它具有特定的低秩+稀疏结构），或者假设 X 的分布具有快速衰减的相关性（即假设 5 保证 X 的协方差数值不会导致太大谱范数扩张）。
技术技巧点名：
- 核方法 + 核矩阵 Frobenius 范数的迹分解。
- 条件期望与条件方差的高阶展开（U 统计量不考虑对角元）：将 S 写为 加权 U 统计量，用 U 统计量的 H-分解与 Hoeffding 分解控制方差。
- 鞅差中心极限定理：对局部平滑型（核平均）统计量，S 可写为近邻结构，满足鞅差序列要求。
- 次指数尾界与 Berry-Esseen 型界：用于证明条件正态性的 Berry-Esseen 界，使条件结果能几乎必然对 A 序列成立。
真实例子与应用：
模拟实验 包含以下场景：
- 模型：线性模型 \(Y = X^T β + ε\)，β 包括稀疏与非稀疏两种设定（如 β = (1, 0.8, 0.5, 0.3, 0, ..., 0) 与 β = (1, 1, ..., 1)/√p）。 X 来自多元高斯（Cor(X_i, X_j) = 0.5^{|i-j|}）或均匀分布。
- p 的设定：p = 10, 50, 100（n 较大），以及 p = n（p = 100, n = 100） 的极端情形。
- 对比方法：与 Guo & Zhu (2017) 的 L2 检验、基于 bootstrap 的残差经验过程检验、以及未经条件学生化的普通核检验进行对比。
- 结果：
- 名义水平控制：COST 在所有设定下（包括 p=n）的拒绝率都接近名义 α（如 0.05），而 Guo & Zhu 的 L2 检验在 p ≥ √n 时已偏离；未经学生化的核检验几乎完全失效。
- 功效：COST 对线性偏离（遗漏二次项）与非线性偏离（sine 函数 + 交互）都具有最高的局部检测功效——当 n=100、p=10、偏离幅度较小（C_n=0.3）时，COST 功效约 0.8，而 Guo & Zhu 低于 0.5。
- 计算时间：COST 因为采用一次样本分割 + 条件学生化（无 bootstrap），计算量远小于 bootstrap 类检验（约 1/100 时间）。
这个例子想说明：
- 验证了渐近正态性在 p ~ n 时仍然成立（即假设 5 的一种实际体现）。
- 展示了 COST 在不依赖稀疏性（非稀疏 β 设定下）仍保持高功效——这对许多实际应用至关重要。
- 说明条件学生化相比 bootstrap 在计算和高维适应性上具有压倒性优势。
🔎 结论是否比证明窄：有些地方是窄的：
Theorem 2 虽称 p 可大于 n，但依赖于假设 5（回归函数导数有界且秩有限），该假设在引言中未充分示例或论证其广泛性。对某类高度不光滑的回归（如阶梯函数），假设 5 失效，此时 p 大于 n 是否仍可行未被证明。
文中多处证明用的特定类核函数（如 Gauss 核），未论证结论能否推广到所有核。
作者在 Section 4 明确写："These results are derived under the assumption that the weight matrix M is constructed from the full sample A and that the bandwidth h is chosen as … 如果使用者使用数据驱动的带宽选择，则渐近理论需要进一步研究"——这是对结论普遍性的一个实际限制。

四、开放问题（点到为止，扎根具体语句）¶

COST 能否适配非参数回归模型（如完全非参数模型）？ 文中的模型是参数回归（m(x, β) 形式固定），且条件学生化构造中的权重矩阵 M 依赖于参数模型的具体结构（如 M 中涉及到 \(\hat{\beta}_A\)）。让 COST 适配于非参数回归（如局部多项式平滑或神经网络）需要重写权重矩阵：参数量从 "有限 d" 变为 "非常大的参数个数/无穷维"。扎根："This paper focuses on parametric regression models... an extension to semi-parametric models is desirable." (Limitation 1).
样本分割比例如何最优选择？ 文中使用了等分、4:1 等固定比例。是否有针对具体问题（检测偏移方向 vs 类型 II 误差等）的最优分割比率？这涉及 n_A 与 n_B 之间在参数估计效率与检验功效之间的权衡，是一个理论问题。扎根："The choice of sample split ratio π is an open issue； the current study fixes it ad-hoc" (Section 5, paragraph 2).
如何构建适应于备择假设的权重矩阵 M 以提升功效？ M 目前设计以条件学生化为目标（保证方差可算），但可能也影响了功效——M 的选择是否可能正交于某些备择方向（导致无检测力）？能否设计一个数据驱动、同时实现学生化与最大功效的 M？扎根："While COST is powerful against a wide range of alternatives, we make no claim of omnibus power... The weight matrix M can be tuned to detect specific departures, leaving theoretical guidance (like maximizing incremental power) for future work" (Conclusion, last paragraph).
（值得研究者亲自确认） 该文结论对“假设 5”的依赖是实质性的。建议研究者读同子领域约 5 篇近期论文（2022-2024）如 "Sparse model checking via sample splitting" (Wang et al. 2022), "High-dimensional specification test for additive models" (Liu & Li 2023)，判断此种“光滑性 + 样本分割”的路线是否是领域的共识（那么 COST 就是自然收敛点），还是刚露头的竞争方向（意味着机会更多）。

Maintained by 陈星宇 · Homepage · Source on GitHub