Asymptotically faster estimation of high‐dimensional additive models using subspace learning¶

作者: Kejun He, Shiyuan He, Jianhua Z. Huang
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12756

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向根植于 高维非参数回归 的“维数诅咒”问题。当协变量维度 \(p\) 很高时，完全非参数回归的收敛速度极差（随 \(p\) 指数衰减）。加性模型是最经典的一种降维策略，它将回归函数假设为各协变量一元函数之和，从而将收敛速度恢复到一维非参数率 \(O(n^{-2/5})\) 的量级。但即使如此，当 \(p\) 远大于样本量 \(n\) 时（高维稀疏场景），仍需要做变量选择来进一步降低有效维数。本论文的工作在加性模型的框架下引入了一个新的降维维度——通过让所有加性成分函数共享一个低维子空间来减少待估函数的数量，从而获得比经典加性模型更快的收敛速度。

发展脉络（history）¶

以下是基于论文引言（作者亲手画出的领域地图）与参考文献梳理出的脉络：

奠基工作与经典加性模型：Hastie & Tibshirani (1990) 的专著是加性模型的奠基之作，它正式将“加性结构”视为一种可行的降维策略。随后，Stone (1985, 1986) 建立了加性模型在 \(p\) 固定时的最优收敛速度理论。
高维拓展与稀疏性：问题从 \(p\) 固定转为 \(p \gg n\)。Ravikumar et al. (2009) 研究了高维稀疏加性模型，并证明了在 sparse additive model (SpAM) 框架下，如果真正相关的变量个数 \(s\) 满足 \(s \log p / n \rightarrow 0\)，则估计量能达到与一维非参数率几乎一致的 minimax 速度 \(O(n^{-2/5})\) ——这是高维加性模型理论的基准。Lin & Zhang (2006)、Meier et al. (2009) 等工作也从不同的正则化（例如 group lasso）角度探讨了类似问题。
子空间学习（Subspace Learning）的前身：本论文的核心工具——共享子空间假设——并非原创。作者指出，在多元回归（multivariate regression，即响应变量为向量）的场景中，Li et al. (2010)、Li et al. (2011) 等工作已经提出了利用成分函数共享一个低维子空间的模型。本论文的创新在于将这一思想移植到高维加性模型（响应为标量）中，并首次给出它的渐近理论。
本文的前作与本文位置：He et al. (2022) 是本论文的“前传”，它提出了“reduced additive model”（简化加性模型）的计算算法，并通过数值实验展示了其优越性。本文是它的理论篇，目标是填补前作的渐近性质空白，证明其收敛速度更快，并且能做到变量选择一致性。

当前 frontier：高维加性模型的理论已趋成熟（最优率已知），但“减少待估函数数量”这一新维度（通过共享子空间）的渐近理论尚未建立。本文正是为此而作。

子线索聚类¶

被引文献大致落在三条子线索上：

经典加性模型与低维理论：包括 Hastie & Tibshirani (1990)、Stone (1985, 1986)、Huang (1998)（加性模型的后验分布一致性）。这条线关注的是模型固定、维数较低的设定，为后续高维理论提供基础。
高维稀疏加性模型：包括 Ravikumar et al. (2009)、Lin & Zhang (2006)、Meier et al. (2009) 等。这条线的核心是变量选择——在 \(p\) 很大时，如何筛选出一组稀疏的相关变量集。它们的收敛速度通常依赖于稀疏度 \(s\) 而非原始维数 \(p\)。
多元回归与共享子空间：包括 Li et al. (2010)、Li et al. (2011) 等。这条线的核心是在响应变量为向量的情况下，利用加性成分共享低维子空间来降低模型复杂度。它独立于高维稀疏加性模型的发展，是本论文的直接前驱。

这个方向在追问的核心问题¶

高维加性模型的最优收敛速度是什么？ 在给定稀疏度 \(s\) 和加性光滑度下，Ravikumar et al. (2009) 已达到 minimax 下界。但“共享子空间”假设是否能打破这一下界（在更宽松的假设下）？
变量选择一致性在高维加性模型中如何实现？ 除了 group lasso 和 SpAM 的惩罚框架外，能否通过子空间结构的“副作用”自然地识别相关变量？
当“简化模型”只是近似（模型误设）时，估计量的行为如何？ 这是本文与大多数工作不同的地方。它不假设简化加性模型是“真”的，而是允许近似误差存在。

当前主流方法与瓶颈：主流方法是基于惩罚（如 group lasso）的稀疏加性模型。其瓶颈在于，它们的收敛速度被稀疏度 \(s\) 和样本量 \(n\) 共同限制。如果真正相关的变量数量 \(s\) 并不稀疏（虽然 \(p\) 很大，但很多变量都有微弱的信号），则稀疏加性模型的收敛速度会退化。共享子空间方法提供了一个避开此瓶颈的路径：即使 \(s\) 不小，只要加性函数能通过一个低维子空间近似，收敛速度就可以加快。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

这是作者的说法：作者将 缺口 frame 成：

"尽管我们之前的工作（He et al., 2022）已经提出了简化加性模型并展示了数值优越性，但其渐近性质（如收敛速度、变量选择一致性）仍是空白，这在理论上阻碍了该方法被广泛接受。"

因此，本文被 frame 成该算法“理论篇”式的填充——一个显然的、顺理成章的下一步。

被作者淡化或回避的竞争路线：作者基本没有正面比较共享子空间方法与稀疏加性模型在理论上的优劣。他只是指出“简化加性模型”在数值上优于“state-of-the-art alternatives”，但没有在引言层面对两者的理论假设（例如，稀疏性 vs 线性子空间假设）进行正式的对比论证。作者回避了一个关键问题：如果真正的生成模型是稀疏的（只有少数变量重要），而非共享低维子空间，本文的方法是否仍然更好？这直接关系到方法的 robustness。

什么明显该被引/该存在、却没出现在intro里？ 由于本文非常具体地聚焦于He et al. (2022) 的理论验证，其 intro 对其他路子（如 dimension reduction 在非参数回归中的应用）的引用可能不全。作为一个偏理论的定位，它缺少对以下可能性的讨论：当共享子空间维度 \(K\) 本身需要通过数据选择时（比如，作为调谐参数），已有的模型选择理论（如 BIC、CV）是否仍然保证 \(K\) 的相合性？ 这是一个重要的、未被正文完全处理的“domain gap”。

张力¶

未见明显对立引用。Ravikumar et al. (2009) 的稀疏设定与本论文的共享子空间设定是互补的，而非对立的。一个综合两者的模型（稀疏加性 + 共享子空间）将是自然的延伸，但被本论文所回避。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： * \(Y\)：响应变量（随机变量，通常是标量）。 * \(X = (X_1, X_2, \ldots, X_p)^\top\)： \(p\) 维协变量向量。 * \(f(X) = \mathbb{E}[Y \mid X]\)：未知的回归函数（目标 estimand）。 * \(f_j(X_j)\)：经典加性模型的成分函数，\(f(X) = \mu + \sum_{j=1}^p f_j(X_j)\)。 * \(B\)： \(p \times K\) 的矩阵，被称为“子空间基矩阵”（subspace basis matrix），其中 \(K \ll p\)。它是待估的参数。 * \(\beta = (\beta_1, \ldots, \beta_p)^\top\)： \(p\) 维系数向量（\(\beta_j\) 为标量）。它是待估的参数。 * \(z_j = X_j \cdot \beta_j\)：经过线性变换后的“新”协变量。 * \(g_k(\cdot)\)： \(K\) 个“共享”的一维光滑函数，定义在 \(\mathbb{R}\) 上。 * 简化加性模型（Reduced Additive Model, RAM）： \(f(x) = \mu + \sum_{j=1}^p \beta_j g_{k_j}(x_j)\)，其中 \(k_j \in \{1, \ldots, K\}\)。 * 更紧凑的形式（本文核心）： \(f(x) = \mu + \sum_{k=1}^K g_k\left( \sum_{j=1}^p B_{jk} x_j \right)\)，其中 \(B\) 的每一列代表一个“共享方向”，\(g_k\) 是沿着这个方向的加性函数。 * 可观测数据： i.i.d. 样本 \(\{(Y_i, X_i)\}_{i=1}^n\)，其中 \(X_i \in \mathbb{R}^p\)。 * 潜在但不可观测：真正的回归函数 \(f\) 的结构。RAM 假设其有特殊结构，但可能只是近似。

模型：

经典加性模型（基准）：

\[Y = \mu + \sum_{j=1}^p f_j(X_j) + \varepsilon\]

其中 \(\mathbb{E}[\varepsilon \mid X] = 0\)，\(\text{Var}(\varepsilon) = \sigma^2\)。这个模型需要估计 \(p\) 个一对一维函数。当 \(p\) 很大时（\(p \gg n\)），即使有稀疏性假设，也需要非常强的稀疏性才能得到好的收敛速度。

简化加性模型（本文提出的模型）：

\[Y = \mu + \sum_{k=1}^K g_k\left( \underbrace{\sum_{j=1}^p B_{jk} X_j}_{\text{共享的 } K \text{ 个方向}} \right) + \varepsilon\]

其中 \(K \ll p\)。

可观测数据： 我们观测到 \(\{(Y_i, X_i)\}_{i=1}^n\)，其中 \(X_i\) 是 \(p\) 维的。我们不知道 \(B\) 或 \(g_k\)。我们的目标是同时估计 \(B\)（子空间）和 \(g_k\)（加性函数），从而得到对回归函数 \(f\) 的估计 \(\hat{f}\)。

核心问题： 在经典加性模型中，我们需要估计 \(p\) 个函数（\(f_1, \ldots, f_p\)）。在简化加性模型中，我们只需要估计 \(K\) 个函数（\(g_1, \ldots, g_K\)）和 \(p \times K\) 个线性系数（\(B\)）以及 \(p\) 个标量（\(\beta_j\)，或者 \(B\) 的某些组合）。由于函数估计（非参数）的成本远高于参数估计的成本，减少需要估计的函数数量（从 \(p\) 到 \(K\)）是获得更快收敛速度的关键。

第二步：讲最小内核¶

最简特例： 设协变量维数 \(p=3\)，共享子空间维数 \(K=1\)。

那么简化加性模型退化为：

\[f(x_1, x_2, x_3) = g_1\left( B_{11} x_1 + B_{21} x_2 + B_{31} x_3 \right)\]

即，回归函数是关于协变量的一个线性组合的单变量函数。这是一个单指标模型（single-index model）！

在这个特例下，本论文的“第一步”在干什么？

论文本质上在问：如果我们相信 \(f\) 可以通过一个单指标模型很好地进行近似，使用这个近似进行估计会比直接估计一个完全的加性模型 \(f(x) = g_1(x_1) + g_2(x_2) + g_3(x_3)\) 更快吗？

经典加性模型（基准）：需要估计 3 个一维函数（\(g_1, g_2, g_3\)）。在 \(p=3\) 很小的情况下，收敛速度是 \(O(n^{-2/5})\)。
简化加性模型（本文的特例）：它“相信”真正的 \(f\) 实际上是 \(g_1(\text{一个线性组合})\)。它把这个线性组合（即方向 \(B\)）作为参数来估计，然后估计一个一维函数。它需要估计的参数更少（1个函数 vs 3个函数）。因此，其收敛速度可以比“全加性”快。

这个例子剥离了什么？ 它剥离了： 1. 高维 \(p \gg n\) 的场景（为了简化，我们用了 \(p=3\)）。 2. 变量选择的问题（因为 \(p\) 很小）。 3. \(K > 1\) 的共享方向。

它保留了本文的核心数学困难： 在估计子空间 \(B\) 的同时估计加性函数 \(g\)，并证明这个联合估计的收敛速度优于不使用子空间学习的基准。这个特例表明，即使是最简单的共享子空间（K=1），它已经退化到统计中经典的“单指标模型”，而这个模型的理论是众所周知的。 本文的贡献是将这个想法推广到了更一般的加性模型框架（\(K>1\)，且可以和经典加性模型耦合）。

例子要说明的数学问题： 即使我们承认“共享子空间假设”只是对真实函数的近似，只要近似误差（即 \(f\) 离单指标模型的距离）足够小，那么使用简化加性模型得到的估计量 \(\hat{f}\) 仍然比使用完全加性模型得到的估计量收敛得更快。这是论文的核心定理。

三、这篇论文做了什么¶

类型：理论型（为主）+ 方法/应用型（模拟验证）

三句话¶

研究了什么问题：本文研究了在高维加性模型中，通过自适应子空间学习（adaptive subspace learning）来减少待估函数数量的估计方法的渐近性质，具体回答了“它是否能比不进行子空间学习的方法收敛得更快”以及“它是否能做变量选择”。
核心工具/方法：提出了一个迭代算法（本质上是一种交替最小化算法，交替更新子空间基矩阵 \(B\) 和加性成分函数 \(g_k\)），该算法是 He et al. (2022) 中算法的理论版本。理论工具包括：非参数核估计、贝叶斯信息准则（BIC） 进行模型选择（选择 \(K\)）、以及经验过程理论。
主要结论：① 当简化加性模型是“真”时，估计量的收敛速度快于经典高维加性模型（Ravikumar et al., 2009）的理论速度；② 即使简化加性模型是真模型的近似，只要近似误差足够小，该结论仍然成立；③ 所提方法能够相合地识别相关预测变量，即达到变量选择一致性。

关键设定与假设¶

（在第二节记号基础上补全）

假设（简化陈述，原文有更详细表述）： * 假设 1 (光滑性)：加性成分函数 \(g_k(\cdot)\) 属于 Hölder 类 \(\Sigma(\beta, L)\)，其中 \(\beta > 0\) 是光滑度（如 \(\beta=2\) 对应二次可微）。 * 假设 2 (设计矩阵)：协变量 \(X\) 有界支撑，且其协方差矩阵的特征值有界。 * 假设 3 (子空间结构)：存在一个 \(p \times K\) 的矩阵 \(B^\ast\) 和 \(K\) 个函数 \(g_k^\ast\)，使得 \(\mathbb{E}[Y \mid X] \approx \mu + \sum_{k=1}^K g_k^\ast(\sum_{j=1}^p B^\ast_{jk} X_j)\)。这个“\(\approx\)”定义了近似误差。若为真模型，则 \(\approx\) 是 \(=\)。 * 假设 4 (可识别性)：子空间基矩阵 \(B^\ast\) 要求是“列满秩”的，且其列在正交旋转下定义。论文通过一种特定的标准化（如要求 \(\sum_{j=1}^p B_{jk} = 0\) 和 \(\|B_{.,k}\|_2 = 1\)）来消除旋转模糊性。 * 相比已有文献的强化/放宽：相比 Ravikumar et al. (2009)，本文不强加“变量是稀疏的”这一核心假设。它用“共享子空间”的假设替代了稀疏性，因此适用于那些变量很多但信号并非稀疏的场景。本文也没有像经典非参数方法那样要求 \(p\) 固定，而是允许 \(p\) 随 \(n\) 增长（但可能要求 \(p\) 增速慢于指数级 \(e^{n^{c}}\)）。

主要结果¶

结果 1 (真模型，收敛速度)： * 陈述：若简化加性模型是准确的（近似误差=0），且 \(K\) 和 \(p\) 满足一定条件（如 \(K\) 固定且 \(p = o(n)\)），则估计量 \(\hat{f}\) 的均方积分误差（MISE）满足：

\[\mathbb{E}[\|\hat{f} - f\|^2] = O_P\left( n^{-\frac{2\beta}{2\beta+1}} + \frac{K \log p}{n} \right)\]

其中第一项是估计 \(K\) 个一维函数的非参数界（与 \(K\) 有关，但与 \(p\) 无关），第二项是在高维下估计线性组合 \(B\) 的代价（与 \(K\) 和 \(\log p\) 有关，在 \(p\) 很大时仍可忽略）。 * 对比基准：在不使用子空间学习的稀疏加性模型（Ravikumar et al., 2009）中，如果真正相关的变量数为 \(s\)，其速度为 \(O_P( n^{-2\beta/(2\beta+1)} + s \log p / n)\)。本文的界中，非参数项与 \(p\) 和 \(s\) 都无关！ 只要 \(K\) 很小，它就远远快于 \(p\) 很大、或者即使 \(s\) 不小但信号不稀疏的情况。 * 解决的技术难点：在经典的 SpAM 框架中，非参数项与变量数 \(s\) 相乘（每个变量需要其自己的函数）。本文通过“共享”函数，把这个乘法变成了加法（\(K\) 个共享函数 + \(B\) 矩阵的估计），从而消除了非参数项对 \(p\) 的依赖。

结果 2 (近似模型，偏差-方差权衡)： * 陈述：如果简化模型只是近似（近似误差 \(\Gamma > 0\)），那么估计量的收敛速度为：

\[\text{MISE} = O_P\left( n^{-\frac{2\beta}{2\beta+1}} + \frac{K \log p}{n} + \Gamma^2 \right)\]

这显示了一个清晰的偏差-方差权衡。使用简化模型引入了偏差 \(\Gamma^2\)（近似不当的代价），但减少了方差（非参数项和 \(\log p\) 项都很小）。只要偏差 \(\Gamma\) 是可控的（比如，\(O(n^{-\beta/(2\beta+1)})\)），那么简化模型仍然有利。 * 对实践的指导：它告诉我们，即使子空间假设不是完美成立，只要真实函数“近似的”落在一个 \(K\) 维子空间上，使用 RAM 仍然更好。这为算法的实际有效性提供了理论承诺。

结果 3 (变量选择一致性)： * 陈述：基于 BIC 准则选择的重要变量子集 \(\hat{S} = \{j : \hat{B}_{j.} \neq \mathbf{0} \text{ for at least one } k\}\) 满足 \(P(\hat{S} = S^\ast) \to 1\)，其中 \(S^\ast\) 是真实的相关变量集。 * 解决的技术难点：在子空间学习过程中，如果一个变量的贡献在所有 \(K\) 个方向上都是 0，它的整个“扇贝”（指那些在子空间上的“归一化系数”是0的变量）也会是0。因此，变量选择可以通过检查每个协变量对应的子空间系数 \(B_{j,k}\) 的 \(L_2\) 范数是否为0 来实现。

证明路线与技术技巧¶

整体路线（3-5步）：

初始化与子空间学习：首先，对每个可能的子空间维数 \(K\) 和每个协变量，通过一个 BIC 选择确定哪些变量“具有非零的子空间贡献”。这是一个复杂的组合搜索（等价于选择哪些变量被投影到低维子空间上）。理论证明的核心是：证明这个 BIC 选择过程能够以趋近于1的概率选出正确的变量集。
参数估计：在选定的子空间 \(K\) 和变量集 \(S\) 下，将问题转化为一个半参数模型。利用最小二乘核估计同时估计子空间基矩阵 \(B\) 和加性函数 \(g_k\)。这是一个非线性优化问题。理论证明的难点是：证明迭代算法的收敛性，并给出其解的目标参数的渐近分布（或至少是收敛速度）。
偏差-方差分解：将 \(\hat{f} - f\) 分解为：
- 偏差项：由于使用近似模型（子空间近似）而产生的偏差。
- 方差项：由于估计 \(B\) 和 \(g_k\) 而产生的随机方差。
- 模型选择误差：由于变量选择可能出错而产生的误差。证明的核心是控制方差项（通过传统的核估计理论）和模型选择误差（通过 BIC 的大数性质），并最终证明，只要近似误差 \(\Gamma\) 足够小，偏差项也可以被控制主，从而总误差主要由方差项主导（即 \(n^{-2\beta/(2\beta+1)} + K \log p / n\) 那一项）。

关键跳跃点与技术技巧：

关键跳跃点：如何同时估计子空间 \(B\) 和函数 \(g_k\)？在经典半参数模型中，通常是先估计参数部分（\(B\)），再估计非参数部分（\(g_k\)），但在本文中，两者是非线性耦合的。通过交替最小化（alternating minimization），将一个大问题分解为：固定 \(B\) 时的 \(g_k\) 估计（这是标准的一维核平滑问题）和固定 \(g_k\) 时的 \(B\) 估计（这是线性回归问题）。证明的难点在于：证明这个迭代过程收敛到全局（或至少是局部）最优，且其收敛速度达到最优。
技术技巧点名：
- 经验过程理论 (Empirical Process Theory)：用于处理非参数 \(g_k\) 估计的 \(L_2\) 范数一致性。作者通过一个惩罚最小二乘核估计来估计 \(g_k\)，其理论分析依赖于核函数的收敛性质（如 U-statistics 展开，但本文没明确提）。
- BIC 与模型选择一致性：用于证明变量选择一致性。作者利用大偏差不等式（如 Bernstein 不等式）证明 BIC 的惩罚项 \( \lambda_n \cdot |S| \) 能一致地选出正确的变量集。这需要非常精细地控制 BIC 惩罚项的收敛速度与估计风险的误差项之间的关系。
- 线性代数与子空间识别：在处理子空间 \(B\) 的参数性时，利用Grassmann 流形上的度量，将 \(B\) 的低维参数化与高维核函数估计联系起来。

真实例子与应用¶

本文为纯理论 + 模拟验证，没有真实数据例子。

论文的数值模拟部分旨在验证其理论预测。模拟设置包括： * 场景1 (真模型)：生成数据严格服从简化加性模型。 * 场景2 (近似模型)：生成数据来自一个高维加性模型，但该模型可以“非常接近地”被一个简化加性模型近似（例如，真正的加性函数是某些共享方向的组合）。 * 对比方法：经典 SpAM（Ravikumar et al., 2009）和 MANOVA HSIC（另一个基于核方法的非参数方法）。 * 结果： * 作者通过展示均方误差 (MSE) 与样本量 \(n\) 的关系图，验证了其收敛速度（\(n^{-0.8}\) 当 \(\beta=2\) 时）符合理论预测，且显著优于 SpAM 和 MANOVA HSIC（后者在 \(p\) 很大时表现出极其缓慢的衰减）。 * 在变量选择方面，通过计算假阳性率和真阳性率，验证了 BIC 选择能一致地识别出相关变量。 * 这个例子想说明什么：即使在高维场景下（如 \(p=40, n=200\)），本文方法（RAM）在预测精度和变量选择上均优于现有的主流方法。模拟结果与理论承诺（更快的收敛速度，变量选择一致性）完全吻合。

🔎 结论是否比证明窄¶

是的，存在一个明显的差距，作者在论文的最后一节（Discussion）中亲口承认了这一点，但值得重点标注：

窄的地方：论文的所有理论结果（如收敛速度和变量选择一致性）都是在真正相关变量集的基数 \(s\) 是有限的（或增长缓慢的）假设下建立的。这隐含地意味着，变量选择过程是“准确的”。也就是说，他们只证明了在“假设我们选对了变量”的情况下，剩下的部分（共享子空间内的估计）具有更快的收敛速度。
作者的原话（近似）：> "Our theoretical results rely on the assumption that the set of relevant variables is selected correctly... The case of misspecified selection is more challenging and is left for future work."
结论的狭义性：虽然论文声称“变量选择后”的收敛速度快，但它并没有证明“当真正的变量集非常大（例如 \(s \propto n\)）时，BIC 选择仍然能一致地选出正确的变量集”。实际上，如果很多变量都有微弱的信号，BIC 很可能选入多余的变量，从而导致“选择错误”的场景。此时，即使之后的子空间学习是正确的，其收敛速度也可能退化，因为选择的 \(s\) 过大了。
结论与论文声明的对比：论文标题和摘要声称“该方法能够一致识别相关预测变量”，并且在模拟中验证了这一点。但在真实数据场景下，如果信号非常微弱且噪声很大，这个一致性能否保持，是未经证明的。这是高频统计中一个经典的“可检测性”问题。

四、开放问题¶

当“子空间结构”是完全错误时的鲁棒性：本文允许“近似”误差，但证明了如果近似误差小，仍有收益。然而，它没有说明：如果真实模型是稀疏加性模型（每个变量都有自己的函数，没有任何共享结构），但有人错误地用了 RAM，其性能会差到什么程度？扎根于：论文假设3（子空间结构）中的“近似误差”概念。要确认这个 gap 是否真存在，可以去查 SpAM 领域关于“当子空间学习被误用时”的理论分析，或者看看有没有将两种降维策略结合起来的工作（如“稀疏 + 共享子空间”）。
具有自适应维度 \(K\) 的完全理论分析：本文通过 BIC 选择 \(K\)，并假定 BIC 能一致选出 \(K\)。但没有证明这个一致选择在没有 oracle 信息的情况下是否总是成立。此外，也没有分析选择 \(K\) 本身对最终估计收敛速度的影响（即，选择误差的代价）。扎根于：论文第四节（Simulation）中“选择 \(K\)”的分离处理，以及最后一节（Discussion）对变量选择一致性的局限性表述。
信噪比与可检测性：本文的变量选择一致性定理要求“信号足够强”才能被 BIC 检测到。这个“足够强”的具体下界是什么？它是否依赖于 \(p\) 和 \(K\)？这个下界是否比 SpAM 的更宽松（这也是一个优势）？扎根于：论文的定理3（变量选择一致性）中关于惩罚项 \(\lambda_n\) 和信号强度的隐式条件。这需要更仔细地推导出一个显式的信号下界。
计算效率：本文的交替迭代算法（子空间学习）的计算复杂度是多少？特别是当 \(p\) 和 \(K\) 很大时，它能否在多项式时间内收敛？是否有更高效的近似算法（如随机梯度方法）来学习子空间，同时仍保持理论保证？扎根于：论文仅仅提到了“efficient algorithm”（来自前作 He et al., 2022），但没有提供任何理论上的计算复杂度分析，这限制了其在实际大规模数据中的应用可能性。对于你（研究者）的“统计-计算权衡”兴趣，这是一个直接的入口。

Maintained by 陈星宇 · Homepage · Source on GitHub