Exact recovery in the double sparse model: Sufficient and necessary signal conditions¶

作者: Shixiang Liu, Zhifan Li, Yanhang Zhang, Jianxin Yin
来源: Electronic Journal of Statistics
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向研究的是——在高维稀疏线性模型下，精确支撑恢复（exact support recovery） 的充分必要最优最小信号条件。具体而言，给定一个参数向量 \(\beta^* \in \mathbb{R}^p\)，其非零系数的位置集合 \(S^*=\text{supp}(\beta^*)\) 是我们想知道的。问题不是"估计 \(\beta^*\) 的误差多大"，而是"能否以概率趋于1 把 \(S^*\) 的每个元素都找对、且不误报无关变量"（即 variable selection consistency）。进一步的，在保证支撑恢复之后，能否同时达到oracle property（即支撑已知时 OLS 估计量的渐近有效性）？当前这个方向对普通稀疏模型（只约束元素级稀疏度 \(s = \|\beta^*\|_0\)）已经相当成熟，有 sharp 的必要/充分条件（如 Wainwright 2007, Butucea et al. 2018）。但本文关注的是双重稀疏模型（double sparse model），其中 \(\beta^*\) 同时是组级稀疏和元素级稀疏的——即只有少量组内含有非零系数，且每个活跃组内非零系数也是稀疏的。这个模型比元素级或组级单独约束更复杂，其支撑恢复的 minimax 最优充分必要条件尚未被完整刻画，本文填补了此空白。

发展脉络¶

奠基工作：普通稀疏支撑恢复的 Minimax 最优理论
Wainwright [2007] 为高维线性模型下的精确支撑恢复建立了信息论极限：在随机高斯设计矩阵下，给出了精确恢复的充分条件（基于穷举搜索解码器）和必要条件（任何解码器都必须满足），为后续的 sharp 边界研究提供了基准。
Wang et al. [2010] 将 Wainwright [2007] 的分析扩展到稠密 vs. 稀疏测量矩阵，给出了更尖锐的必要条件，包括线性稀疏度 (\(k = \Theta(p)\)) 使用线性样本量 (\(n = \Theta(p)\)) 时的 sharp 刻画。
Butucea et al. [2018] 在高斯均值模型下导出了精确支撑恢复 minimax 风险的非渐进精确表达式（对 \(d, s, a\) 的函数），并给出了必要/充分条件的 sharp 特征，处理了相依/非高斯观测的扩展。其分析框架是本文的重要灵感来源。
主要进展：双重稀疏模型的理论建立
Cai, Zhang, Zhou [2019] 首次系统研究了稀疏组 Lasso 在双重稀疏线性回归下的样本复杂度、估计误差的 minimax 最优上下界，并给出了 debiased 稀疏组 Lasso 的渐近推断性质。这项工作为双重稀疏模型奠定了 minimax 估计理论，但没有讨论精确支撑恢复（exact support recovery）的 minimax 最优信号条件，留下了一个关键缺口。
Zhang, Li, Liu, Yin [2023] 提出了一个针对双重稀疏模型的自适应 IHT 型算法（动态阈值），证明了其在参数估计上的匹配上下界（即 minimax 最优）。重要的是，该文在beta-min 条件下建立了算法可以实现几乎完全恢复（almost full recovery），即能以高概率恢复 \(\beta^*\) 的支撑——但这是"几乎完全"，不是"精确完全"；而且对于最小信号强度的必要性（即多强的信号是无论什么算法都无法恢复的）并没有回答。
Li, Zhang, Yin [2024] 进一步为双重稀疏结构在 \(\ell_u(\ell_q)\)-球上的估计误差建立了 minimax 率，发现了一个相变现象。但此处仍然是估计误差，不是支撑恢复。
当前 frontier 与本文的位置（作者的 framing，需注意是作者的视角）
上述一系列工作建立了双重稀疏模型的参数估计的 minimax 最优性，但没有给出精确支撑恢复的 sharp 充分与必要条件。作者认为，自己这篇论文正好填补了"双重稀疏模型下 exact support recovery 的 minimax 最优性理论"的空白。
这是作者的说法。作者在引言中特别强调："to the best of our knowledge, the oracle properties of the double sparse model are currently absent in existing works [Cai et al. 2022, Li et al. 2023, Zhang et al. 2023, Li et al. 2024]"——即双重稀疏模型的 oracle 性质（特别是支撑恢复后估计量保持渐近正态性）目前空缺。因此，本文不是简单地为现有方法找到一个新的必要条件，而是在一个新的、更复杂的设定下，完整建立了支撑恢复的充分与必要条件的 sharp 边界，并首次证明了该设定下的 oracle property。
竞争路线的淡化：作者没有去挑战或讨论那些并非基于 IHT 的算法（如稀疏组 Lasso 类方法）在支撑恢复上的表现。Cai et al. [2019] 的 debiased 稀疏组 Lasso 提供了渐近推断，但该文是在元素级+组级的连续性（continuous）正则化路径下，而本文是在非凸硬阈值（hard thresholding）框架下，这是两条技术路线。作者可能淡化了连续正则化路线下支撑恢复的可行性（如 group Lasso 在 group-wise 恢复上的已知结果 Lounici et al. [2011]）。值得研究者去查的问题：稀疏组 Lasso 在支撑恢复（而非仅仅估计误差）上，是否有已知的 sharp 条件？Cai et al. [2019] 是否隐含地给出了一个必要条件但未明确声明？
什么明显该被引却可能不在 intro 里：Breheny [2015] （关于 group-wise 惩罚的算法与软件）被引用作为算法方面的背景，但没有在支撑恢复的理论框架中被讨论。这不算明显的疏漏，因为该软件包更侧重于计算而非理论可识别性条件。
子线索聚类
支撑恢复的 Minimax 最优性理论（线索 A）：Wainwright [2007], Wang et al. [2010], Butucea et al. [2018, 2023], Butucea & Stepanova [2017], Ndaoud [2019]。这一簇在研究：在给定的稀疏性模型（元素级或组级）下，信号强度多大时才能被任何算法精确恢复？必要条件是信息论下限（Fano/Hamming 论证），充分条件是某个算法（穷举 / IHT / Lasso）的构造性上界。
双重稀疏模型的估计与推断（线索 B）：Cai et al. [2019], Zhang et al. [2023], Li et al. [2024], Li et al. [2023]。这一簇在研究：给定双重稀疏结构，参数的 minimax 估计误差、样本复杂度、相变、以及去偏后的渐近推断。此处支撑恢复是服务于估计（如 oracle rate）的，而非终极目标。本文作者的贡献，是将线索 A 的 sharp 条件理论套用到线索 B 的模型上，并证明算法能同时满足支撑恢复与 oracle property。
IHT 算法与分析（线索 C）：Blumensath & Davies [2008], Jain et al. [2014], Liu & Foygel Barber [2019]。这一簇提供 IHT 类算法的收敛性与统计保证。本文的 DSIHT 算法是这一族在双重稀疏设定下的直接延伸。
这个方向在追问的核心问题
精确支撑恢复的信号强度门槛：在双重稀疏设定下，最小的非零信号绝对值（beta_min）与样本量 \(n\)、维度 \(p\)、组结构 \(G\) 的关系，以及这个门槛是不是同时必要且充分的——即既存在算法达到，又不可能被任何算法突破。
支撑恢复后的 oracle property：在恢复支撑后（假设撑是对的），估计量 \(\hat{\beta}_{S^*}\) 的渐近分布是否与已知真实支撑下的 OLS 相同？这需要算法不仅提供点估计，还要能"假装"支撑已知。
算法适应性：是否可以不事先知道 \(s_0, s_g\) 等稀疏度参数，而由数据自动适配，同时保持 minimax 最优性？
当前主流方法的已知瓶颈（来自作者定位）：
对双重稀疏模型，现有（如稀疏组 Lasso）方法在支撑恢复的必要条件上尚未被完整刻画。因此无法判断"我的算法是否达到了信息论意义下的最好性能"。
现有 IHT 类方法在双重稀疏下只证明了几乎完全恢复，不是精确完全恢复。
没有算法同时证明了 oracle property（渐近正态性与支撑已知的 OLS 一致）。
张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\(p\)：总变量维度（维数）。
\(G\)：变量被分成的组数，每个变量属于唯一组。 \(G < p\) 一般成立。
\(J_g\)：第 \(g\) 组的大小（即该组包含多少个变量）。 \(\sum_{g=1}^G J_g = p\)。
\(s\) 组级稀疏度：非零组的总数。即 \(\|\{\sum_{j \in J_g} \beta_j^2 > 0\}\|_0 \le s\)。
\(s_0\)：元素级稀疏度：所有非零系数的总个数。即 \(\|\beta^*\|_0 \le s_0\)。
\(n\)：样本量。
\(y \in \mathbb{R}^n\)：可观测的响应向量。
\(X \in \mathbb{R}^{n \times p}\)：可观测的设计矩阵（可能随机，但条件是固定/对此 paper 是固定设计？仔细看第 2 节，"the design matrix \(X\) is fixed"——是的，固定设计。这是一个重要假设。后面在 random design 部分做了扩展，但核心证明对固定设计）。
\(\beta^* \in \mathbb{R}^p\)：未知的真实参数向量（我们想估计的对象）。具有双重稀疏性：它只有 \(s_0\) 个非零元素，且这些非零元素分布在 \(s\) 个组 内。
\(\varepsilon \in \mathbb{R}^n\)：噪声，假设高斯 \(\mathcal{N}(0, \sigma^2 I_n)\)。
想要但不可观测的东西：\(\beta^*\) 本身，以及它的支撑集 \(S^* = \text{supp}(\beta^*) = \{j: \beta_j^* \ne 0\}\)。我们希望通过 \(\{y, X\}\) 恢复 \(S^*\)。
模型：线性回归模型
\[y = X \beta^* + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2 I_n)\]
这里的双重稀疏约束是联合约束：\(\beta^*\) 满足 \(\|\beta^*\|_0 \le s_0\)（元素级）且 \(\beta^*\) 的非零元素分布在 \(\le s\) 个组内（组级）。
可观测数据：
研究者实际观测到的是 \((y, X)\)：一个 \(n\) 维响应向量和一个 \(n \times p\) 设计矩阵。
不可观测的是 \(\beta^*\) 本身，以及它的支撑集 \(S^*\)。我们不知道哪些组是活跃的，哪些元素是零。
目标（estimand）： \(\hat{S} \subseteq \{1,...,p\}\)，使得 \(\mathbb{P}(\hat{S} = S^*) \to 1\) 当 \(n \to \infty\)（exact recovery）。进一步，如果 \(\hat{S}=S^*\)，则 estimator \(\hat{\beta}_{\hat{S}}\)（只在 \(\hat{S}\) 上做 OLS）与真实支撑已知下的 OLS 渐近等价。

第二步：讲最小内核¶

最简特例：取 \(p=4\)，\(G=2\) 个组，每组大小 \(J_1 = J_2 = 2\)。设真实支撑 \(S^* = \{1,3\}\) 且非零系数 \(\beta_1^* = a > 0, \beta_3^* = b > 0\)，其余为零。组 1 活跃（有非零元素），组 2 活跃（也有非零元素），所以组级稀疏 \(s=2\)，元素级稀疏 \(s_0=2\)。假设设计矩阵是正交的，\(X^\top X = I_4\)，且噪声标准 \(\sigma^2 = 1\)。

在这个特例下，问题退化为：残差 \(y - X \beta^* = \varepsilon\) 是独立高斯。我们观测到 \(X^\top y = \beta^* + X^\top \varepsilon \sim \mathcal{N}(\beta^*, I_4)\)。这个模型就是高斯位置模型（Gaussian location model），每个系数有独立标准正态噪声。

核心思路与证明骨架： 1. 双硬阈值：对 \(X^\top y\) 的四个元素 \(z_1,...,z_4\)，第一步组级阈值：检查每个组的最大绝对值 \(|z_j|\) 是否 > \(\tau_g\)（一个组阈值）。如果一组内最大绝对值不超过 \(\tau_g\)，将整组置零。第二步元素级阈值：在幸存组内，对幸存组的元素再做硬阈值：如果 \(|z_j| > \tau_e\)（一个元素阈值），则保留；否则置零。 2. 充分性：若最小信号 \(a,b > \tau_e + \delta\)（\(\delta>0\) 很小）且组阈值 \(\tau_g\) 小于组内最大信号减去噪声尾界，则两步正确识别。 3. 必要性：如果 \(a \le \tau_e\)，则 \(z_1 = a + \varepsilon_1\) 无法以概率 \(\to 1\) 超过任何固定阈值，因此任何硬阈值方法都会以一定概率漏选。更一般的，若 \(a\) 小于某个信息论下限（约 \(\sqrt{2 \log p}\)），则无论算法如何，漏选概率都不趋于 0。这是 Butucea et al. [2018] 在普通稀疏下的结论。在双重稀疏下，作者将这推广到需要同时考虑组级和元素级。 4. 为什么难：普通稀疏只考虑一个阈值；双重稀疏需要同时处理组级和元素级两个阈值，其相互作用使必要条件推导更复杂。作者的方法是用 DSRIP 条件统一控制组级/元素级，再做对称论证。

在这个最小特例下，作者的核心思想可以被清晰看到：它用两个阈值来对抗两种维度的噪声。组级阈值移除整个组，元素级阈值在幸存组内扣除非零元素。

三、这篇论文做了什么¶

三句话：
在双重稀疏线性模型下，本文研究了精确支撑恢复的充分与必要最小信号条件。
提出了一个两阶段双重稀疏迭代硬阈值算法（DSIHT），在满足所给 sharp signal condition 时实现 exact support recovery，且估计量具有oracle property（渐近正态性与支撑已知OLS一致）。
反之，证明了若该信号条件被违反，任何方法都无法实现精确恢复，从而建立了 minimax 最优性的完整刻画。
关键设定与假设：
设定：固定设计 \(X\)，高斯噪声 \(\varepsilon \sim \mathcal{N}(0, \sigma^2 I_n)\)。真实参数 \(\beta^*\) 满足双重稀疏约束：\(\|\beta^*\|_0 \le s_0\)（元素级）且 \(\beta^*\) 的非零分量最多分布在 \(s\) 个组内。
关键假设：DSRIP（Double Sparse Restricted Isometry Property）条件（定义2.1）。这是标准 RIP 向双重稀疏空间的扩展。具体来说，设 \(\text{supp}(\beta) \subseteq [p]\)，且非零系数分布在组集 \(\mathcal{G}\) 中。DSRIP(s, s_0, \delta) 指：对所有满足 \(\|\beta\|_0 \le s_0\) 且非零元素分布在 \(\le s\) 个组内的 \(\beta\)，有 \( (1-\delta) \|\beta\|_2^2 \le \|X\beta\|_2^2 \le (1+\delta) \|\beta\|_2^2\)。这条假设比标准 RIP 强，因为它要求对所有双重稀疏的 sparsity pattern 都保持谱等价，而不仅仅是所有元素系数 ≤ s_0 的模式。相比已有文献：Li et al. [2024] 首次引入此条件。本文用它保证了 IHT 步的有效性。
β-min 条件（信号条件，定理3.1/3.2）：最小非零信号 \(\beta_{\min}^* = \min_{j \in S^*} |\beta_j^*|\) 必须满足一个下界。具体形式（为简洁不完全展开，但核心是说它需要足够大到能被阈值同时从组噪声和元素噪声中识别）。大概像是 \(\beta_{\min}^* > C \sigma \sqrt{\frac{\log p}{n}} \times (\text{某因子依赖于组结构})\)。与普通稀疏的 \(\beta_{\min} \gg \sigma \sqrt{\frac{\log p}{n}}\) 类似，但多了组级维度的惩罚。必要条件（定理3.3）展示了这个下界几乎是最优的。
放宽或强化：相比 Wainwright [2007]，本文强在给出了必要条件的完整描述，而不仅仅充分条件；弱在假设了固定设计（而 Wainwright 考虑了随机阵下的 scaling）。DSRIP 条件比标准 RIP 更强，但作者在后面随机设计证明中（Section 4）展示它能在满足某些条件的次高斯设计矩阵下以高概率成立。
主要结果：
定理3.1/3.2（充分性）：在 DSRIP(s, s_0, 1/2)（或适当 δ）条件下，如果 \(\beta_{\min}^*\) 满足某个 explicit lower bound（涉及 σ, n, p, s, s_0, 组最大大小等），则 DSIHT 算法经过至多 \(K\) 步（K 与样本量对数相关），以高概率 \(\ge 1 - C \cdot \exp(-c \log p)\) 实现支撑的精确恢复。直觉：信号足够强，噪声无法掩盖。必要条件：下界中的对数项不能太小，否则 Fano 不等式会证明任何算法失败。
定理3.4（oracle property）：在相同条件下，DSIHT 还保证了 \(\hat{\beta}_{\text{DSIHT}}\) 与真实支撑已知下的 OLS 估计量渐近等价：\(\sqrt{n} (\hat{\beta}_{\hat{S}} - \beta^*_{S^*}) \xrightarrow{d} \mathcal{N}(0, \sigma^2 \Sigma^{-1})\)。这比普通稀疏 oracle property 更难，因为双重稀疏需要两个层面的阈值，其统计量分布需要两个层面的去偏论证。技术难点：证明了 DSIHT 产生的 \(\hat{S}\) 以概率 1-\(\delta\) 等于真实支撑，因此后一步的 OLS 有效性直接传导。
定理3.3（必要性）：若 \(\beta_{\min}^* < C_{\text{必要}} \, ( \sigma \sqrt{ \frac{\log (p \vee G)}{n} } )\)，则任何（可能计算不可行）的估计量都不能实现精确恢复。这界紧到定理3.1/3.2的下界乘以一个常数——即充分与必要条件之间的差距最多一个常数因子，达到了 minimax 最优的"sharp"性质。注意：这里的 \(C_{\text{必要}}\) 可能与 \(s, s_0\) 有关，但独立于具体算法。
数值实验：模拟生成四层信号强度（强 / 中 / 弱 / 超弱），展示了 DSIHT 在强信号区能实现完美恢复，而在条件不满足时性能崩溃。与稀疏组 Lasso（sgLasso）、group IHT 和 element-wise IHT 对比，DSIHT 在恢复精度上统治性地最优，尤其在弱信号区。
证明路线与技术技巧（理论型）：
整体路线：
1. 算法设计：DSIHT 是标准 IHT 在双重稀疏上的非凸投影版本。每一步：\(\beta^{t+1} = T_{\lambda, s_0, s}( \beta^t + \eta X^\top (y - X\beta^t) )\)，其中 \(T_{\lambda, s_0, s}\) 是双重稀疏阈值算子：先对每组的最大模做组级硬阈值（参数 \(\lambda\)），再对组内的系数做元素级硬阈值（保留每组最多一阶？看定义2.1：按范数排序，保留前 \(s\) 组中每组至多 \(s_0\) 个元素）。这一定义关键。
2. 收敛性：利用 DSRIP 条件，证明该算子对真实 \(\beta^*\) 的收缩映射性质（类似标准 IHT 在 RIP 下的证明，但要同时处理组级和元素级）。引理A.1 建立了收缩映射。
3. 支撑恢复：在收敛后，证明 \(\beta^{t+1}\) 的支撑 = \(S^*\)。需要将 IHT 的固定点（不动点）条件转化为对噪声的控制（Lemma 3.1）。这一步的关键不等式是 \(\|\beta^t + \eta X^\top (y - X\beta^t) - \beta^*\|_\infty \le \text{某个噪声项}\)，要求噪声尾项不超过元素级阈值与组级阈值两者之较小者。而最小信号条件保证 \(\beta_{\min}^*\) 大于该噪声项，因此它不会在阈值步骤中被误杀。
4. oracle property：一旦支撑确认为真，后一步 OLS 就独立于阈值步骤，渐近正态性直接来自标准 Gauss-Markov 定理（只要 DSRIP 条件保证设计矩阵在支撑上的满秩）。
关键跳跃点：
- 跳跃1：如何证明 IHT 步的收缩映射在双重稀疏下仍然保持？标准 IHT 在普通稀疏下依靠 RIP（\(\|P_{\text{supp}(\beta)}\| \le \text{常数}\)）得到。这里需要 DSRIP 条件，该条件本质上是 RIP 在双重稀疏子空间上的推广。难点：双重稀疏子空间维数比普通稀疏更大（因为组级约束不等于元素的简单线性约束），因此 DSRIP 的条件 stronger。但作者通过巧妙设计阈值算子（先组后元素）以及使用 多级递归的投影论证 克服。
- 跳跃2：必要条件的证明。作者使用了 Fano 不等式（Fano's inequality），这是一个标准的信息论下限工具。但问题是：在双重稀疏空间下，如何构造一个低效的“假设检验”问题 —— 其最小错误概率界为 Fano 不等式控制？需要找到一组 \(\beta\) 的集合（packing set），使得任意两个信号在支撑上不同，但它们在观测 \(y\) 下的 KL 散度很小。作者构造了一个双重稀疏 packing：所有支持集大小为 \(\approx s_0\)，分布在 \(\approx s\) 个组内。然后利用 Gilvert-Varshamov 界得到 packing 的基数，再代入 Fano。难点：双稀疏结构的 packing 比单纯元素级或组级更难覆盖所有模式。作者用双指数构造来实现：选择组级模式，再在每个组内选择元素模式。
- 捷径：必要条件的常数界不依赖于算法（即对任何算法成立），因此作者不需要与算法匹配的小常数，而是可以直接用最小信号强度做 Fano 下界，这与 Butucea et al. [2018] 在普通稀疏下的做法类似。
技术技巧点名：
- RIP/DSRIP 控制 用于 IHT 收缩映射。
- Fano 不等式 + Gilbert-Varshamov 界 用于必要条件的证明（下界）。
- 高维概率尾界（高斯最大不等式、Hoeffding 不等式、放缩引理）用于控制噪声的无穷范数，这是充分性的基础。
- IHT 的非凸投影：使用了硬阈值算子的谱性质（Nyström 型投影性质）。
- 中心极限定理（收敛到 OLS）用于 oracle property。
真实例子与应用：
无真实数据例子。本文为纯理论 + 模拟实验论文。模拟实验用来验证：在满足 DSRIP 与 β-min 条件时精确恢复，不满足时失败。具体模拟设置：p=500, G=10, s=3, s_0=6, J_g=50, n=100。设计矩阵按次高斯随机生成。信号强度参数 \(\rho\) 从 0.5 到 2 变化。看到了明显的相变 -> 当 \(\rho > 1.25\) 时精确恢复频率 \(\rightarrow 1\)，\(\rho < 0.8\) 时趋于 0。
结论是否比证明窄：
是的。核心定理（定理3.1/3.2 / 定理3.3）的证明依赖于固定设计和高斯噪声。作者在 Section 4 讨论了对随机设计和次高斯噪声的扩展，但定理3.1-3.3 的陈述本身要求 \(X\) 是固定的 DSRIP 矩阵。作者在摘要里使用了"sharply under the proposed signal conditions"这样较为泛化的说法，但定理的假设明确是 DSRIP(s, s_0, 1/2) 条件。具体语句漏洞：定理3.1的陈述："Assume that the design matrix X satisfies DSRIP(s, s_0, 1/2) condition. … then DSIHT… achieves exact support recovery"——这比抽象的"信号条件"更严格，需要 DSRIP 成立。如果 DSRIP 不成（例如设计矩阵非常病态），该定理不保证。作者在推论（Section 4）中展示了在随机次高斯设计下 DSRIP 以高概率成立，因此实际适用范围仍是宽的，但有条件。
另一个注意点：必要条件（定理3.3）并没有用到 DSRIP（因为它对任何算法都成立），所以它的假设仅仅是"线性模型，高斯噪声，双重稀疏"——比充分条件更弱。但充分条件用到了更强的 DSRIP，所以 gap 不仅仅是常数，还包括 DSRIP 这个结构假设本身。这意味着：如果设计矩阵不满足 DSRIP，但满足某种其他结构，或许存在更弱的充分可达条件？本文没有讨论这个可能性，而是隐含假设所有的设计矩阵要么满足 DSRIP（充分），要么不满足（必要，但没说不满足时没有算法能恢复，因为必要条件是针对所有设计矩阵的，但充分条件只适用于 DSRIP 矩阵）。严格来说，这不是证明与结论之间的 gap，而是一个可改进的方向：有没有可能放松 DSRIP 到更弱的条件（如普通 RIP + 组级相干性）而保持同一信号门槛？

四、开放问题¶

适应性阈值选择（扎根于定理3.1的陈述 "with a suitably chosen threshold parameter" ——该参数依赖于 σ 和稀疏度，但这些在实践中未知）。是否可以在不事先知道 σ、s、s_0 的情况下，通过数据驱动的方法（如交叉验证、SLOPE 类自适应惩罚）选择两个阈值，仍保持相同的 minimax 最优支撑恢复边界？本文没有讨论自适应阈值，这是直接 follow-up。
更弱的设计矩阵条件（扎根于 DSRIP 的必要性前提，定理3.1）。如上所述，本文的充分性依赖于较强的 DSRIP 条件。能否将条件放松到 "普通 RIP + 组间相干性控制" 或 "平均 coherence 条件"，而仍得到（近似）相同的 sharp β-min 下界？这是当前 weakness 的自然问法。
非高斯噪声与异方差性（扎根于高斯噪声假设，定理3.1）。作者提及了次高斯噪声的扩展（Section 4），但未做详细分析。在异方差或重尾误差下，支撑恢复与 oracle property 的 sharp 条件是什么样的？可能引入对误差矩条件的额外要求。
多重信号非零幅值不同的情况。本文只用了 \(\beta_{\min}^*\) 刻画强度，这在信号都"几乎一样大"时是好的，但如果信号具有不同的强度（如一个很大，其他很小），是否需要多维的 β-min 条件（即不同组/不同元素要求不同阈值）？这是一个直接的技术扩展，但可能会产生更精细的必要条件。

Maintained by 陈星宇 · Homepage · Source on GitHub