High-dimensional variable selection with heterogeneous signals: A precise asymptotic perspective¶

作者: Saptarshi Roy, Ambuj Tewari, Ziwei Zhu
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：高维稀疏线性回归中的精确支撑恢复，即在 \(p \gg n\) 且真实系数向量极度稀疏的设定下，如何从带噪观测中零误差地找出所有非零系数的下标。这个子方向要解决的根本统计问题是：在信号可能极弱、极稀、且大小不一（异质）时，信息论到底允许我们恢复到什么程度，而多项式时间算法又能逼近这个极限到什么程度。当前成熟度：信息论阈值（必要与充分条件）已在 2007-2009 年间被精确刻画；多项式时间算法（Lasso、IHT 等）的统计性质已有大量结果；但在异质信号与精确渐近视角下，统计最优与计算可行的 gap 仍存在未被完全缝合的口子。

发展脉络： - 奠基工作（信息论极限）：Wainwright (2007) 与 Wang et al. (2008) 建立了高维支撑恢复的信息论极限，指出任何算法（不计算复杂度）要实现精确恢复，样本量 \(n\) 必须满足 \(n \ge 2k \log(p-k)\)；反之，最大似然（穷搜）在此样本量下即可成功。Fletcher et al. (2008) 与 Rad (2009) 进一步在非渐近与一般设计矩阵下给出了必要与充分条件的精确常数。留下的口子：这些奠基工作大多假设信号是同质的（非零系数大小相近），或者只考虑最小信号强度的下界，没有精细刻画异质性对具体算法的杀伤力。 - 主要进展（凸松弛与多项式时间算法）：Lasso 及其变体（SLOPE 等）成为计算可行的主力。Bühlmann & van de Geer (2009) 系统梳理了 Lasso 所需的设计矩阵条件（Restricted Eigenvalue 等）。Su et al. (2015) 与 Wang et al. (2022) 利用 AMP 理论在特定渐近设定下证明：Lasso 在线性稀疏度下永远无法同时压低假阳与假阴，真特征与空特征在 Lasso path 上必然交织。留下的口子：Lasso 的失败被归咎于凸松弛的偏置，但异质性在其中扮演什么角色未被单独抽提；同时，IHT 等非凸硬阈值算法虽有计算优势，其精确恢复的渐近性质缺乏与信息论阈值的直接比对。 - 当前 frontier（异质性、BSS 的计算逼近、精确渐近）：Ndaoud & Tsybakov (2018) 在独立高斯设计下给出了达到信息论阈值的多项式时间自适应算法（基于 SLOPE 的两阶段法），首次在同质信号设定下缝合了统计-计算 gap。Guo et al. (2020) 证明 BSS 对设计矩阵依赖具有鲁棒性，且近似 BSS（IHT 的解）能继承精确 BSS 的统计性质。Wang et al. (2020) 提出 "effect size heterogeneity" 概念，证明异质性越小（非零系数大小越接近），Lasso 的假阳越严重——"同质信号互相竞争进入模型"。本文的位置：在异质信号设定下，直接比对 MS（计算极快但纯边际）、BSS（统计最优但 NP-hard）与两阶段算法 ETS（IHT + 梯度筛选），用精确渐近把异质性对 MS 的致命打击、对 BSS 的无害、以及 ETS 对信息论阈值的达到，三者串成一条线。

子线索聚类： 1. 信息论极限与穷搜解码：Wainwright (2007), Wang et al. (2008), Fletcher et al. (2008), Rad (2009), Aeron et al. (2010)。这一簇在刻画任何算法的不可逾越的样本量与信号强度下界。 2. 凸松弛（Lasso/SLOPE）的精确渐近与异质性效应：Su et al. (2015), Wang et al. (2020), Bogdan et al. (2014)。这一簇用 AMP 或极值过程理论，证明凸方法在线性稀疏度或异质性不足时必然产生假阳。 3. 非凸/两阶段算法的统计-计算权衡：Bertsimas et al. (2015)（MIO 解 BSS），Jain et al. (2014)（IHT 高维分析），Ndaoud & Tsybakov (2018)（SLOPE 两阶段达到信息论阈值），Guo et al. (2020)（近似 BSS 鲁棒性）。这一簇在寻找多项式时间算法逼近 BSS 统计性质的条件。

这个方向在追问的核心问题： 1. 异质性是否构成新的统计-计算 gap？ 同质信号下 Ndaoud & Tsybakov (2018) 已缝合 gap；异质信号下，多项式时间算法是否仍能达到信息论阈值？ 2. 边际筛选为何在异质信号下崩溃？ 其崩溃是样本量不足导致，还是信号强度分布的结构性问题？ 3. BSS 的统计最优性是否依赖同质性假设？ 如果 BSS 在异质下仍最优，那么"最优"的门槛（最小信号强度）是否不变？

⚠️ 作者的 framing： - 作者把缺口 frame 成：已有文献大多聚焦同质信号，异质信号下 MS 与 BSS 的精确渐近对比是空白；同时，Ndaoud & Tsybakov (2018) 的两阶段算法用的是 SLOPE，作者 frame 自己的 ETS（IHT + 梯度筛选）为更自然、更直接逼近 BSS 的两阶段框架。 - 被淡化的竞争路线：作者未在 intro 中讨论 low-degree polynomial / SQ lower bound 这类计算下界框架——这意味着他们没有从平均-case 复杂度角度论证"为什么 ETS 的多项式时间达到是令人惊讶的"，只是从算法存在性角度给出 achievability。也未讨论 Lasso 在异质信号下的具体假阳率公式（Su et al. 2017 的 AMP 路线），只笼统说 Lasso 有偏置问题。 - 明显该被引却未出现的：高维 U-统计量或极值过程的更精细工具（如 Fan et al. 2018 的自适应 Huber 回归中的极值分析），以及最近关于 planted sparse recovery 的 low-degree hardness 的工作（如 Schramm & Wein 2022）——如果作者想声称 ETS 缝合了 gap，理应对照计算下界文献确认 gap 确实存在。

张力：未见明显对立引用。Ndaoud & Tsybakov (2018) 证明同质下 SLOPE 两阶段达到信息论阈值，本文证明异质下 ETS 达到信息论阈值——两者结论兼容，只是设定与算法不同。但存在一个隐含张力：Ndaoud & Tsybakov (2018) 的算法基于 SLOPE（凸），而本文 ETS 的第一步是 IHT（非凸）——如果凸方法在同质下已能达到阈值，为什么异质下需要非凸？作者未直接回答这个问题。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(p\)：协变量维数（特征数），远大于样本量。
\(n\)：样本量。
\(k\)：真实模型的稀疏度（\(\beta^*\) 中非零系数的个数）。
\(S\)：真实支撑集，\(|S| = k\)，即 \(\beta^*_j \neq 0\) 当且仅当 \(j \in S\)。
\(\beta^*\)：\(p\) 维真实系数向量，\(S\) 以外位置为 0。
\(\beta_{\min}\)：最小信号强度，\(\min_{j \in S} |\beta^*_j|\)。
\(X\)：\(n \times p\) 设计矩阵，各行独立服从 \(N(0, \Sigma)\)，本文核心设定为 \(\Sigma = I_p\)（独立高斯设计）。
\(\epsilon\)：\(n\) 维噪声向量，服从 \(N(0, I_n)\)（单位方差高斯噪声）。
\(Y\)：\(n\) 维响应变量，可观测，\(Y = X\beta^* + \epsilon\)。
可观测数据：研究者拥有 \((X, Y)\) 的完全样本。\(\beta^*\) 与 \(S\) 是不可观测的潜在量，只能靠算法与假设去识别。
Scaling 假设（渐近框架）：\(p \to \infty\)，\(k = O(p^{1-\alpha})\)（\(0 < \alpha < 1\)，信号稀疏），\(n = O(k \log p)\)（样本量在信息论阈值量级）。
信息论最优信号强度速率：\(\beta_{\min}\) 固定在 \(\sqrt{2 \log p / n}\) 的量级（这是 Wainwright 2007 证明的穷搜解码所需的最低信号强度）。

第二步：最小内核

整篇论文的数学内核可以退化到只有两个非零系数、且一大一小的特例来一看就懂：

最简特例（\(k=2\), \(S = \{1, 2\}\), \(\beta^*_1 = M\) 大信号, \(\beta^*_2 = m\) 小信号, \(m = \sqrt{2\log p / n}\)）：

Marginal Screening (MS) 崩溃的直觉： MS 的逻辑是：对每个 \(j\)，算边际相关 \(X_j^\top Y / n\)，取最大的 \(k\) 个。在独立设计下，\(X_j^\top Y / n \approx \beta^*_j + X_j^\top \epsilon / n\)。对空特征 \(j \notin S\)，\(X_j^\top \epsilon / n\) 服从近似 \(N(0, 1/n)\)；其最大值的典型大小是 \(\sqrt{2 \log p / n}\)。因此，MS 要选出小信号 \(m\)，必须要求 \(m > \sqrt{2 \log p / n}\)——这恰好是信息论阈值。 但异质性杀死了 MS：大信号 \(M\) 会"吸走"一部分样本量（或更准确地说，大信号造成的响应方差使得噪声的有效波动变大），使得小信号 \(m\) 在边际相关中被噪声的最大值淹没。精确渐近表明，当 \(M \gg m\) 时，即使 \(m\) 恰好在信息论阈值上，MS 选出小信号的概率仍趋于 0。要证的命题：在 \(k=2\) 且 \(M/m \to \infty\) 时，\(\Pr(\text{MS 选出 } j=2) \to 0\)，即使 \(m = \sqrt{2\log p / n}\)。
BSS 为什么不受影响： BSS 的逻辑是：在所有大小为 \(k\) 的子集 \(T\) 中，找使残差 \(\|Y - X_T \hat{\beta}_T\|^2\) 最小的 \(T\)。关键在于，BSS 同时看所有 \(k\) 个特征的联合解释力。在 \(k=2\) 时，BSS 比较 \(\{1, 2\}\) 与任何 \(\{1, j\}\)（\(j \notin S\)）的残差。由于 \(X_2\) 真的有信号，\(\{1, 2\}\) 的残差比 \(\{1, j\}\) 小一个量级（差值与小信号 \(m\) 的平方同阶）。要证的命题：在 \(m \ge \sqrt{2\log p / n}\) 时，\(\Pr(\text{BSS 选错任何 } j) \to 0\)，无论 \(M\) 多大。证明路线：控制 \(\max_{j \notin S} \|X_j^\top \epsilon_{\{1,2\}}\|\)（投影残差后的噪声），用极值理论证明其最大值不超过 \(\sqrt{2\log p / n}\)，从而小信号 \(m\) 足以胜出。
ETS 怎么缝合： ETS 第一步用 IHT 估出一个近似支撑 \(\hat{S}\)（可能包含大信号 1，漏掉小信号 2）；第二步对每个 \(j \notin \hat{S}\)，算梯度坐标 \(X_j^\top (Y - X_{\hat{S}} \hat{\beta}) / n\)，取最大值补入支撑。关键：一旦大信号 1 被正确估出并扣除，第二步面对的残差噪声与 MS 面对的原始噪声不同——残差噪声不再被大信号膨胀，小信号 2 在梯度坐标中的信噪比恢复到信息论阈值允许的水平。要证的命题：在 \(m \ge \sqrt{2\log p / n}\) 时，ETS 两步后的支撑恢复概率趋于 1。

核心数学困难：证明 MS 崩溃需要精确控制异质信号下边际相关的极值分布——大信号的存在改变了噪声项的分布（不再是简单的 \(N(0, 1/n)\)），需要用 Gaussian approximation of empirical processes (Chernozhukov et al. 2014) 把最大空特征相关的分布逼近到一个非标准高斯向量最大值的分布，并证明其以高概率压过小信号。

三、这篇论文做了什么¶

三句话： ① 研究了高维稀疏线性回归在弱、稀、异质信号下的精确支撑恢复问题，在 \(n = O(k \log p)\) 与 \(\beta_{\min} = \sqrt{2\log p / n}\) 的信息论最优速率下，比较了 MS、BSS 与两阶段算法 ETS 的渐近选择精度。 ② 核心工具是极值过程的高斯逼近与 IHT 的高维统计收敛分析。 ③ 主要结论：MS 在异质信号下以概率趋于 1 无法精确恢复；BSS 在信息论阈值上保持模型一致性；多项式时间算法 ETS 在相同信号强度要求下同样达到模型一致性。

关键设定与假设： - 模型：\(Y = X\beta^* + \epsilon\)，\(X \in \mathbb{R}^{n \times p}\) 各行独立 \(N(0, I_p)\)，\(\epsilon \sim N(0, I_n)\)。 - Scaling：\(p \to \infty\)，\(k = O(p^{1-\alpha})\)（\(0 < \alpha < 1\)），\(n \asymp k \log p\)（样本量在信息论极限量级，具体为 \(n / (k \log p) \to \delta\)，\(\delta > 0\) 常数）。 - 信号异质性：允许 \(\beta^*_j\) 大小不一，只要求 \(\min_{j \in S} |\beta^*_j| \ge \sqrt{2\delta^* \log p / n}\)（\(\delta^* > 1\) 是常数，对应信息论阈值中的充分条件常数）。 - Assumption 3.1 (Scaling & Signal)：正式规定了上述 \(n, k, p\) 的相对速率与 \(\beta_{\min}\) 的下界。 - Assumption 3.7 (IHT 收敛条件)：要求设计矩阵在真实支撑上的 restricted eigenvalue 足够大，且空特征与真特征的投影相关足够小（类似 incoherence），以保证 IHT 在第一步的估计误差可控。相比已有文献（Jain et al. 2014），本文在 \(n \asymp k \log p\) 的极低样本量下验证了此条件对独立高斯设计成立。 - 统计含义：Scaling 假设意味着我们在最吃劲的渐近区间（样本量刚好够信息论阈值）做分析，任何算法的优劣在此区间暴露最彻底；信号异质性假设不要求非零系数同阶，只卡最小值的下界。

主要结果：

Theorem 4.1 (BSS 的模型一致性)：
陈述：在 Assumption 3.1 下，若 \(\beta_{\min} \ge \sqrt{2\delta^* \log p / n}\)（\(\delta^* > 1\)），则 BSS 的精确恢复概率 \(\Pr(\hat{S}_{\text{BSS}} = S) \to 1\)。
直觉：BSS 搜索所有 \(k\)-子集，真支撑 \(S\) 的残差比任何包含 \(j \notin S\) 的伪支撑小至少 \(\beta_{\min}^2\) 的量级；噪声在伪支撑上的最大波动不超过 \(\sqrt{2\log p / n}\)，因此只要 \(\beta_{\min}\) 比这个阈值大一个常数因子，BSS 必然胜出。
必要条件：\(\delta^* > 1\) 来自 Wainwright (2007) 的信息论必要条件；本文证明 \(\delta^* > 1\) 也是 BSS 的充分条件，gap 只在常数因子上。
技术难点：在 \(n \asymp k \log p\) 的低样本量下，控制 \(\max_{j \notin S} |X_j^\top \epsilon_S / \sqrt{n}|\)（投影残差噪声的极值），需要非标准的极值理论（因为 \(\epsilon_S\) 是投影到 \(k\) 维子空间后的噪声，维度 \(k\) 在增长）。
Theorem 4.2 (MS 的崩溃)：
陈述：在 Assumption 3.1 与异质信号（存在 \(j \in S\) 使得 \(|\beta^*_j| \gg \beta_{\min}\)）下，即使 \(\beta_{\min} \ge \sqrt{2\delta^* \log p / n}\)，MS 的精确恢复概率 \(\Pr(\hat{S}_{\text{MS}} = S) \to 0\)。
直觉：大信号的边际相关远超小信号；但空特征的边际相关（噪声最大值）也被大信号间接膨胀（因为 \(Y\) 中包含大信号的贡献，使得空特征与 \(Y\) 的相关不再纯是 \(X_j^\top \epsilon / n\)，而是 \(X_j^\top (X_{\text{big}} \beta_{\text{big}} + \epsilon) / n\)，其中 \(X_j^\top X_{\text{big}} \beta_{\text{big}} / n\) 的波动可达 \(\beta_{\text{big}} / \sqrt{n}\) 量级，远超 \(\sqrt{2\log p / n}\)）。小信号在边际相关排序中被空特征淹没。
技术难点：精确刻画 \(\max_{j \notin S} |X_j^\top Y / n|\) 在异质信号下的分布——需要把 \(X_j^\top X_S \beta_S / n\) 分解，用高斯逼近处理非独立的高维向量极值。
Theorem 5.1 (ETS 的模型一致性)：
陈述：在 Assumption 3.1 与 3.7 下，若 \(\beta_{\min} \ge \sqrt{2\delta^* \log p / n}\)，ETS 两步后的支撑恢复概率 \(\Pr(\hat{S}_{\text{ETS}} = S) \to 1\)。
直觉：第一步 IHT 估出大信号（可能漏掉小信号），但估计误差 \(\|\hat{\beta} - \beta^*\|\) 足够小；第二步梯度筛选面对的残差 \(Y - X_{\hat{S}} \hat{\beta}\) 中，大信号已被扣除，残差噪声回到标准量级，小信号在梯度坐标中重新可见。
技术难点：在 \(n \asymp k \log p\) 的低样本量下，证明 IHT 的估计误差足够小（\(\|\hat{\beta} - \beta^*\|_\infty \le c \beta_{\min}\)），需要精细控制 IHT 的迭代收敛与投影噪声的交互。

证明路线与技术技巧：

整体路线（BSS 定理）：
把 BSS 的选择条件转化为：真支撑 \(S\) 的残差 \(\|Y - X_S \hat{\beta}_S\|^2\) 必须小于任何伪支撑 \(T \not\supseteq S\) 的残差。
伪支撑 \(T\) 的残差分解为：真信号在 \(T\) 上的投影损失 + 噪声在 \(T\) 上的波动。投影损失至少 \(\beta_{\min}^2\) 量级（因为 \(T\) 漏掉了某个真特征）。
控制噪声波动的极值：\(\max_{T: |T|=k, T \not\supseteq S} \|X_T^\top \epsilon\|^2 / n\)。用极值理论与 union bound，证明此极值不超过 \(2\log p / n\) 的量级。
比较：\(\beta_{\min}^2 > 2\delta^* \log p / n\) 胜过噪声极值，BSS 选对。
整体路线（MS 崩溃定理）：
把 MS 的失败条件转化为：存在空特征 \(j \notin S\)，其边际相关 \(|X_j^\top Y / n|\) 大于某个小信号 \(l \in S\) 的边际相关 \(|X_l^\top Y / n|\)。
分解 \(X_j^\top Y / n = X_j^\top X_S \beta_S / n + X_j^\top \epsilon / n\)。大信号 \(\beta_{\text{big}}\) 使得 \(X_j^\top X_{\text{big}} \beta_{\text{big}} / n\) 的典型值远超 \(\sqrt{2\log p / n}\)。
用高斯逼近（Chernozhukov et al. 2014 的 Lemma 2.3）把 \(\max_{j \notin S} |X_j^\top Y / n|\) 的分布逼近到一个非标准高斯极值分布，证明其以概率趋于 1 超过小信号的边际相关。
整体路线（ETS 定理）：
第一步（IHT）：在 Assumption 3.7 下，引用 Jain et al. (2014) 的收敛定理，证明 IHT 输出的 \(\hat{S}\) 包含所有大信号，且 \(\|\hat{\beta}_{\hat{S}} - \beta^*_S\|_\infty\) 足够小。
第二步（梯度筛选）：对 \(j \notin \hat{S}\)，算梯度 \(g_j = X_j^\top (Y - X_{\hat{S}} \hat{\beta}) / n\)。分解 \(g_j = X_j^\top X_{S \setminus \hat{S}} \beta_{S \setminus \hat{S}} / n + X_j^\top \epsilon_{\hat{S}} / n\)（残差中只剩未被估出的小信号与投影噪声）。
控制投影噪声极值 \(\max_{j \notin \hat{S}} |X_j^\top \epsilon_{\hat{S}} / n|\)，用与 BSS 证明类似的极值理论，证明其不超过 \(\sqrt{2\log p / n}\)。
小信号在梯度中的贡献超过噪声极值，ETS 补全支撑。
关键跳跃点：
MS 崩溃证明中的高斯逼近：\(\max_{j \notin S} |X_j^\top Y / n|\) 不是标准高斯极值（因为 \(Y\) 中含大信号），需要构造一个辅助高斯向量 \(W\)，用 Chernozhukov et al. (2014) 的逼近定理把经验过程的极值分布逼近到 \(W\) 的极值分布，再计算 \(W\) 的极值概率。这是全文最吃功夫的引理（Lemma 2 与 Lemma 3 的结合）。
ETS 第二步的投影噪声控制：\(\epsilon_{\hat{S}}\) 是投影到 \(\hat{S}\) 上的残差噪声，\(\hat{S}\) 是随机的（依赖第一步 IHT 的输出），不能直接用固定子空间的极值理论。作者用条件概率与 union bound，把 \(\hat{S}\) 的随机性吸收到 IHT 的误差控制中，退化为固定子空间的极值问题。
技术技巧点名：
Gaussian approximation of empirical processes (Chernozhukov et al. 2014)：用在 MS 崩溃证明中，把非标准高斯向量的极值分布逼近到可计算的高斯极值分布。
Hanson-Wright inequality (Rudelson & Vershynin 2013)：用在控制二次型 \(\|X_j^\top X_S \beta_S\|^2\) 的集中不等式，证明大信号对空特征相关的膨胀效应是高概率事件。
IHT 收敛分析 (Jain et al. 2014)：用在 ETS 第一步，保证 IHT 在低样本量下的估计误差可控。
极值理论 (Extreme value theory for Gaussian vectors)：贯穿全文，用于控制 \(\max_{j} |Z_j|\) 的渐近分布（\(Z_j\) 为各类噪声项）。
Vershynin (2018) 的高维概率工具：用于控制设计矩阵的谱性质（如 restricted eigenvalue）在独立高斯设计下的高概率成立。

真实例子与应用： - 模拟实验：本文包含模拟研究，对比 ETS、Lasso 与 MS。 - 场景：设定 \(p = 500, 1000\)，\(k = 5, 10\)，\(n\) 从 \(k \log p\) 的 1.5 倍到 4 倍变化。信号设定为异质（部分大信号 \(\beta = 5\)，部分小信号 \(\beta = \sqrt{2\delta^* \log p / n}\)）。 - 怎么用上去：对每个 \((n, p, k)\) 组合，生成独立高斯设计数据，分别跑 ETS（IHT 10 步 + 梯度筛选）、Lasso（cv 选 \(\lambda\)）、MS（取前 \(k\) 大边际相关），重复 100 次，算精确恢复频率。 - 结果：ETS 在 \(n \ge 2k \log p\) 时恢复频率接近 100%；Lasso 在异质信号下恢复频率明显低于 ETS（因偏置导致漏选小信号或误选空特征）；MS 在异质信号下恢复频率趋于 0（即使 \(n\) 增大，MS 仍漏选小信号）。 - 想说明什么：验证渐近理论的预言——ETS 在信息论阈值附近达到模型一致性，而 MS 与 Lasso 在异质信号下失败；同时表明渐近结论在 \(p = 500\) 的现实尺度下已成立。

🔎 结论是否比证明窄： - Theorem 4.2 (MS 崩溃) 的证明要求异质信号中大信号与小信号的比值趋于无穷（\(\max_{j \in S} |\beta^*_j| / \beta_{\min} \to \infty\)），但定理陈述中只说"存在异质信号"——这是一个比证明条件更宽的 claim。作者在证明细节中实际上用了比值趋于无穷来控制膨胀效应，有限比值（如大信号是小信号的 3 倍）的情况未被严格证明，只在模拟中显示 MS 仍失败。 - Theorem 5.1 (ETS 模型一致性) 的证明要求 IHT 的迭代次数足够多（\(N = O(\log p)\)），但定理陈述中未指定迭代次数的下界，只说"ETS 达到模型一致性"——实际依赖 IHT 的收敛速率假设。 - 作者在 Section 3 假设 \(\Sigma = I_p\)（独立设计），但在 intro 中暗示结论可能推广到一般 \(\Sigma\)——这个推广未被任何定理覆盖，是一个泛泛 claim。

四、开放问题（点到为止，扎根具体语句）¶

一般设计矩阵下的 MS 崩溃与 ETS 达到：本文所有定理假设 \(\Sigma = I_p\)（独立高斯设计）。在相关设计 \(\Sigma \neq I\) 下，MS 的崩溃条件是否仍是"异质信号 + 信息论阈值信号强度"？ETS 的梯度筛选步在相关设计下是否仍能达到信息论阈值？——扎根于 intro 最后一段 "we leave the extension to general design matrices for future work"。
有限异质性下的精确恢复概率：Theorem 4.2 的证明要求 \(\max |\beta^*_j| / \beta_{\min} \to \infty\)，但实际数据中异质性往往是有限的（如大信号是小信号的 2-5 倍）。在有限比值下，MS 的失败概率是否仍有精确的渐近表达式（而非趋于 0/1 的极端结论）？——扎根于 Theorem 4.2 证明中 Lemma 2 的条件 \(\|G \beta\|_\infty \gg \sqrt{\log p / n}\)（\(G\) 为空特征与真特征的投影矩阵）。
ETS 的计算下界对照：本文证明 ETS（多项式时间）达到信息论阈值，但未对照计算下界文献（low-degree polynomial / SQ）确认在异质信号设定下是否真的存在统计-计算 gap。如果 low-degree hardness 在此设定下不成立（即多项式方法本就无障碍），则 ETS 的 achievability 结果的"惊喜度"下降。——扎根于 intro 中对 Ndaoud & Tsybakov (2018) 的讨论，作者只说 "they showed their algorithm achieves model consistency under the same sample complexity as BSS"，未提及计算下界。
Scaling 假设 \(\alpha \in (0, 1)\) 的边界情形：本文假设 \(k = O(p^{1-\alpha})\)（\(0 < \alpha < 1\)），排除了 \(\alpha = 0\)（线性稀疏度 \(k \asymp p\)）与 \(\alpha = 1\)（超稀疏 \(k = O(1)\)）。在 \(\alpha \to 0\) 或 \(\alpha \to 1\) 的极限下，MS 的崩溃与 ETS 的达到结论是否连续？——扎根于 Assumption 3.1 中对 \(\alpha\) 的严格限制。

Maintained by 陈星宇 · Homepage · Source on GitHub

High-dimensional variable selection with heterogeneous signals: A precise asymptotic perspective¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论