Variable selection via thresholding¶

作者: Ka Long Keith Ho, Hien Duy Nguyen
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 变量选择是回归分析中的根本问题：在包含大量协变量的模型中，识别出真正与响应变量有关系的（系数非零的）协变量子集，并对其系数进行无偏、高效的估计。当前该方向在“固定 \(p\)（或 \(p\) 随 \(n\) 缓慢增长）”设定下已有大量成熟方法，但在高维（\(p \gg n\)）设定下，正则化方法（如 Lasso）虽能实现选择与估计的同步，却引入了不可避免的收缩偏差；而两阶段方法（先选后估）虽能消除偏差，但其选择步骤的理论性质（特别是基于阈值化的硬截断方法）往往依附于第一阶段正则化估计量的性质，缺乏独立、一般的理论框架。本文所在的子方向正是：在非收缩型初始估计量之上，构建独立、一般化的硬阈值化变量选择程序，并证明其选择一致性及后续估计的 \(\sqrt{n}\)-一致性与无偏性。

发展脉络 1. 奠基工作与信息准则路线：Akaike (1974) 提出 AIC，开启了基于惩罚似然/信息准则的模型选择范式，但这类方法在高维下计算代价极高（本质是 \(L_0\) 惩罚，NP-hard）。 2. 正则化与收缩估计路线（主流）：Tibshirani 引入 Lasso（\(L_1\) 惩罚），Fan & Li (2001) 提出 SCAD 等非凸惩罚，使得连续收缩与变量选择同步进行。然而，作者在 intro 中明确指出这类方法的根本缺陷：“when estimators cannot shrink irrelevant signals to zero, covariates without relationships to the response often manifest small but nonzero regression coefficients”，即收缩估计量无法将零信号精确置零，导致假阳性或需要额外的截断步骤。 3. 两阶段/阈值化路线（本文的前置）：为了消除收缩偏差，Belloni & Chernozhukov (2009/2013) 提出 Post-Lasso（对 Lasso 截断后做 OLS），证明其偏差更小；van de Geer et al. (2011)、Zheng et al. (2014) 等在高维设定下研究了“对已正则化估计量进行阈值化”的理论。作者引用这些工作时指出，这些文献“consider thresholding already regularized estimators, in the high-dimensional setting”，即它们的阈值化依赖于正则化估计量的特殊性质。 4. 当前 Frontier 与本文位置：在固定 \(p\) 或 \(p\) 缓慢增长的设定下，近年出现了多种替代路线（如 SuSiE 的贝叶斯步骤、SIC 的自动调参、Adaptive PENSE 的稳健选择等，见 Wang et al. 2018, O'Neill & Burke 2023, Kepplinger 2023），但它们要么依赖特定算法，要么仍含收缩。本文的位置是：跳出“正则化+截断”的捆绑，直接对任意非收缩型初始估计量（如 OLS）施加硬阈值化，在固定 \(p\) 设定下建立独立、一般的选择一致性理论与无偏估计理论。

子线索聚类 - 线索 A：正则化同步选择与估计（Lasso, SCAD, Adaptive Ridge, BAR）。核心：通过惩罚项将小系数连续收缩至零或近似零。瓶颈：非零系数存在收缩偏差，需额外条件（如 Irrepresentable Condition 或 Beta-min Condition）才能保证选择一致性。 - 线索 B：两阶段阈值化/Post-selection（Thresholded Lasso, Post-Lasso, SOS）。核心：先正则化粗选，再截断+OLS 精估。瓶颈：理论高度依赖第一阶段正则化估计量的收敛与支持集恢复性质，且仍可能受第一阶段漏选的影响。 - 线索 C：非惩罚型选择机制（信息准则 AIC/BIC, Slope Heuristic, SuSiE, SIC）。核心：基于似然/贝叶斯/稳定性准则选择模型，不依赖收缩惩罚。瓶颈：高维下计算困难（\(L_0\) 仍是 NP-hard），或需特定先验/调参策略。

核心追问 1. 如何在不引入收缩偏差的前提下，实现变量选择的一致性？ 2. 阈值化操作本身（不依附于特定正则化估计量）能否在一般条件下保证选择一致性？ 3. 选择后的估计量能否达到 \(\sqrt{n}\)-一致性、渐近正态性，且非零元素无收缩偏差？

⚠️ 作者的 framing - 作者的 framing：作者将缺口 frame 为“现有正则化方法有收缩偏差，而实践中常用的‘丢弃小系数’阈值化操作缺乏一般性理论验证”，从而将自己的工作定位为“为这个 ad hoc 实践提供严格理论，并给出无偏稀疏估计量”。 - 被淡化/回避的竞争路线：Intro 几乎未讨论高维（\(p \gg n\)）设定下的最新进展（如 Double Selection DML、Debiased Lasso 等），也未对比基于假设检验的逐步选择在控制假发现率（FDR）上的严格理论（如 Barber & Candes 2015 的 Knockoffs）。作者将范围明确限制在“finite p variable selection setting”，回避了高维下 OLS 不可用这一根本挑战。 - 缺失的该引文献：在讨论“阈值化小系数”时，未引用 Knockoffs/FDR 控制路线；在讨论“无偏估计”时，未引用 Debiased Lasso (Javanmard & Montanari 2014) 或 HOIF 路线——这可能是作者有意限定场景，但也值得研究者去查证：在固定 \(p\) 下，这些高维路线的退化形式是否已覆盖本文结论？

张力未见明显对立引用。各路线在不同设定下各有优劣，本文与被引文献的张力主要体现在设定差异（固定 \(p\) vs 高维）而非结论矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代 - 参数 / estimand：\(\boldsymbol{\beta} = (\beta_1, \ldots, \beta_p)^\top \in \mathbb{R}^p\) 为回归系数向量；\(S = \{j : \beta_j \neq 0\}\) 为真实相关变量集（支持集），\(S^c = \{j : \beta_j = 0\}\) 为无关变量集。 - 随机变量 / 样本：\(\mathbf{Y} = (Y_1, \ldots, Y_n)^\top\) 为响应变量向量；\(\mathbf{X} = (\mathbf{x}_1, \ldots, \mathbf{x}_n)^\top \in \mathbb{R}^{n \times p}\) 为设计矩阵（行向量 \(\mathbf{x}_i\) 为第 \(i\) 个样本的 \(p\) 维协变量）。 - 维数 / 样本量等指标：\(n\) 为样本量，\(p\) 为协变量维数（本文设定下 \(p\) 固定或随 \(n\) 缓慢增长）。 - 潜在 / 不可观测量：误差项 \(\boldsymbol{\varepsilon} = (\varepsilon_1, \ldots, \varepsilon_n)^\top\)，满足 \(E(\boldsymbol{\varepsilon}) = \mathbf{0}\)，不可直接观测，只能通过残差间接推断。 - 模型（数据生成机制）：线性回归模型 \(Y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + \varepsilon_i\)，\(i=1,\ldots,n\)。误差 \(\varepsilon_i\) 独立同分布，存在有限矩条件（具体为 \(E|\varepsilon_i|^{2+\delta} < \infty\)，\(\delta>0\)）。设计矩阵 \(\mathbf{X}\) 可为固定或随机（若随机，与 \(\varepsilon\) 独立）。目标：估计 \(S\) 与 \(\boldsymbol{\beta}\)。 - 可观测数据：研究者能观测到的是 \((\mathbf{Y}, \mathbf{X})\) 的 \(n\) 个样本对 \(\{(Y_i, \mathbf{x}_i)\}_{i=1}^n\)。\(\boldsymbol{\beta}\) 与 \(S\) 是要估的对象，不可直接观测；\(\boldsymbol{\varepsilon}\) 不可观测。

第二步：最小内核 本文的最小内核是一个最简特例：固定 \(p\) 下的 OLS 硬阈值化。

特例设定：\(p\) 固定，\(\mathbf{X}\) 列满秩，初始估计量为 OLS 估计量 \(\hat{\boldsymbol{\beta}}_n = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{Y}\)。OLS 无法将 \(S^c\) 中变量的系数收缩至零（\(\hat{\beta}_{j,n}\) 对 \(j \in S^c\) 仅在渐近下趋于零，有限样本下非零）。

阈值化操作：定义阈值化估计量 \(\hat{\boldsymbol{\beta}}_n^t\) 为：

\[\hat{\beta}_{j,n}^t = \hat{\beta}_{j,n} \cdot \mathbb{I}(|\hat{\beta}_{j,n}| \geq \lambda_n), \quad j=1,\ldots,p\]

其中 \(\lambda_n\) 为阈值序列。定义阈值化选择集 \(\hat{S}_n = \{j : |\hat{\beta}_{j,n}| \geq \lambda_n\}\)。

要证的命题（最小内核）： 1. 选择一致性：若 \(\lambda_n \to 0\) 且 \(\sqrt{n}\lambda_n \to \infty\)（即阈值比 OLS 的收敛率 \(\sqrt{n}\) 慢，但最终趋于零），则 \(P(\hat{S}_n = S) \to 1\)。 - 直觉：对 \(j \in S\)（真信号），\(\hat{\beta}_{j,n} \to \beta_j \neq 0\)，只要 \(\lambda_n \to 0\)，终将满足 \(|\hat{\beta}_{j,n}| \geq \lambda_n\)；对 \(j \in S^c\)（零信号），\(\sqrt{n}\hat{\beta}_{j,n} \to N(0, \sigma_j^2)\)，要排除它需 \(|\hat{\beta}_{j,n}| < \lambda_n\)，即 \(\sqrt{n}|\hat{\beta}_{j,n}| < \sqrt{n}\lambda_n\)，因 \(\sqrt{n}\lambda_n \to \infty\)，而 \(\sqrt{n}|\hat{\beta}_{j,n}|\) 依分布有界，故概率趋于 1。 2. \(\sqrt{n}\)-一致性与渐近正态性（无偏）：在 \(\hat{S}_n = S\) 条件下，\(\hat{\boldsymbol{\beta}}_n^t\) 的非零元素即 \(\hat{\boldsymbol{\beta}}_n\) 对应 \(S\) 的子向量，因 OLS 本身是 \(\sqrt{n}\)-一致且渐近正态的，且无收缩（未乘惩罚因子），故 \(\hat{\boldsymbol{\beta}}_n^t\) 继承此性质且无偏差。

为什么成立（证明怎么走）：核心难点在于处理 \(\hat{\boldsymbol{\beta}}_n\) 的联合分布（特别是随机设计下 \(\hat{\boldsymbol{\beta}}_n\) 依分布收敛的均匀性）。本文的关键想法是：将阈值化操作视为对经验过程（以 \(\hat{\boldsymbol{\beta}}_n\) 为索引）的截断，利用 van der Vaart & Wellner (2007) 的随机经验过程理论，将 \(\hat{\boldsymbol{\beta}}_n\) 替换为其极限 \(\boldsymbol{\beta}\)，从而将选择一致性的证明转化为对极限分布的尾部概率控制。这绕开了直接处理 \(\hat{\boldsymbol{\beta}}_n\) 有限样本分布的困难，是本文技术上的最小内核。

三、这篇论文做了什么¶

三句话 ① 研究了回归中非收缩型估计量（如 OLS）无法自动置零时的变量选择问题，提出了一种基于硬阈值化的简单选择程序。 ② 核心工具是对初始估计量施加绝对值阈值截断，并利用 van der Vaart & Wellner (2007) 的随机经验过程理论证明其选择一致性。 ③ 主要结论是：在温和矩条件下，阈值化程序能一致估计真实支持集 \(S\)，且所得稀疏估计量达到 \(\sqrt{n}\)-一致性、渐近正态性，非零元素无收缩偏差。

关键设定与假设 在第二节最小记号基础上补全： - 初始估计量 \(\hat{\boldsymbol{\beta}}_n\)：不限于 OLS，可以是任意满足 \(\sqrt{n}(\hat{\boldsymbol{\beta}}_n - \boldsymbol{\beta}) \rightsquigarrow \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma})\) 的 \(\sqrt{n}\)-一致渐近正态估计量（如 GLM 的 MLE）。本文理论对初始估计量的要求仅此一条（加上有限矩条件），这是相比已有文献（要求初始量为 Lasso 等正则化估计量）的放宽。 - 阈值序列 \(\lambda_n\)：需满足 \(\lambda_n \to 0\) 且 \(\sqrt{n}\lambda_n \to \infty\)。统计含义：阈值必须比估计量的收敛率慢（保证真信号不被误删），但最终趋于零（保证零信号被排除）。相比 Beta-min Condition（要求最小真信号 \(|\beta_{\min}| > C\lambda_n\)），本文仅要求 \(\lambda_n \to 0\)，对信号强度无下界要求（只要非零即可）。 - 假设 1（矩条件）：\(E|\varepsilon_i|^{2+\delta} < \infty\)，\(\delta>0\)。用于控制经验过程的尾部，保证 Lyapunov 条件成立。 - 假设 2（设计矩阵）：若 \(\mathbf{X}\) 随机，需与 \(\varepsilon\) 独立，且 \(E(\mathbf{x}_i \mathbf{x}_i^\top)\) 正定。用于保证初始估计量的渐近正态性。 - 假设 3（渐近正态性）：\(\sqrt{n}(\hat{\boldsymbol{\beta}}_n - \boldsymbol{\beta}) \rightsquigarrow \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma})\)。这是本文理论的起点，也是核心依赖。

主要结果 - 定理 1（选择一致性）：在假设 1-3 及 \(\lambda_n \to 0, \sqrt{n}\lambda_n \to \infty\) 下，\(P(\hat{S}_n = S) \to 1\)。 - 直觉：真信号终被保留（\(\lambda_n \to 0\)），零信号终被排除（\(\sqrt{n}\lambda_n \to \infty\) 控制尾部）。 - 必要条件：\(\sqrt{n}\lambda_n \to \infty\) 是必要条件（若 \(\sqrt{n}\lambda_n\) 有界，则零信号的排除概率不能趋于 1）。 - 解决的技术难点：处理 \(\hat{\boldsymbol{\beta}}_n\) 的随机索引对经验过程收敛的影响。 - 定理 2（\(\sqrt{n}\)-一致性与渐近正态性）：在定理 1 条件下，\(\sqrt{n}(\hat{\boldsymbol{\beta}}_n^t - \boldsymbol{\beta}) \rightsquigarrow \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma})\)，且对 \(j \in S\)，\(\hat{\beta}_{j,n}^t = \hat{\beta}_{j,n}\)（无收缩）。 - 直觉：选择一致性保证 \(\hat{S}_n = S\) 概率趋于 1，在此事件上 \(\hat{\boldsymbol{\beta}}_n^t\) 退化为 \(\hat{\boldsymbol{\beta}}_n\) 的子向量，继承其渐近性质。 - 必要条件：选择一致性是前提（否则 \(\hat{\boldsymbol{\beta}}_n^t\) 可能包含假阳性或漏选，渐近分布将非正态）。 - 推论（错误发现率）：\(P(j \in \hat{S}_n, j \in S^c) \to 0\)，即假阳性率渐近为零。

证明路线与技术技巧 - 整体路线： 1. 建立初始估计量的渐近展开：利用假设 3，将 \(\hat{\boldsymbol{\beta}}_n\) 写为 \(\boldsymbol{\beta} + \mathbf{Z}_n / \sqrt{n}\)，其中 \(\mathbf{Z}_n \rightsquigarrow \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma})\)。 2. 将阈值化事件转化为经验过程事件：\(\{j \in \hat{S}_n\} = \{|\hat{\beta}_{j,n}| \geq \lambda_n\} = \{|\beta_j + Z_{j,n}/\sqrt{n}| \geq \lambda_n\}\)。 3. 利用随机经验过程理论替换 \(\hat{\boldsymbol{\beta}}_n\)：引用 van der Vaart & Wellner (2007) 的结果，将索引中的 \(\hat{\boldsymbol{\beta}}_n\) 替换为极限 \(\boldsymbol{\beta}\)，证明经验过程在替换后仍一致收敛。这是关键跳跃点。 4. 分析极限分布的尾部：对 \(j \in S\)，\(\beta_j \neq 0\)，\(\lambda_n \to 0\) 保证 \(|\beta_j + Z_{j,n}/\sqrt{n}| \geq \lambda_n\) 概率趋于 1；对 \(j \in S^c\)，\(\beta_j = 0\)，\(\sqrt{n}\lambda_n \to \infty\) 保证 \(|Z_{j,n}| < \sqrt{n}\lambda_n\) 概率趋于 1（因 \(Z_{j,n}\) 依分布有界）。 5. 联合事件控制：利用联合渐近正态性，控制所有 \(j\) 同时满足选择一致的概率，得 \(P(\hat{S}_n = S) \to 1\)。 - 关键跳跃点：步骤 3（替换 \(\hat{\boldsymbol{\beta}}_n\) 为 \(\boldsymbol{\beta}\)）。难点在于 \(\hat{\boldsymbol{\beta}}_n\) 本身是数据依赖的随机量，直接用它索引经验过程会导致收敛性难以分析。van der Vaart & Wellner (2007) 提供了在“估计参数索引”下经验过程一致收敛的条件，本文验证了这些条件（通过矩条件与渐近正态性），从而完成替换。 - 技术技巧点名： - 随机经验过程理论（van der Vaart & Wellner 2007）：用于处理估计量索引的经验过程收敛，是本文证明的核心工具。 - Directional Functional Delta Method（Römisch 2014, Westerhout et al. 2024）：用于将阈值化操作（一个非光滑映射）的渐近性质从初始估计量传递到阈值化估计量，本文引用此工具推导定理 2。 - Lyapunov 条件（矩条件 \(E|\varepsilon|^{2+\delta} < \infty\)）：用于保证 CLT 成立，从而支撑渐近正态性假设。

真实例子与应用 - 模拟实验： - 场景：线性回归，\(n=100, 200, 500\)，\(p=5, 10\)（固定 \(p\)），设计矩阵含不同相关性结构（独立、中等相关、高相关），误差分布为正态或重尾（\(t\) 分布）。 - 方法应用：初始估计量为 OLS，阈值序列 \(\lambda_n\) 取为 \(\alpha \cdot \hat{\sigma}_j / \sqrt{n}\)（其中 \(\hat{\sigma}_j\) 为 \(\hat{\beta}_j\) 标准差估计，\(\alpha\) 为调参常数，本文实验了 \(\alpha = \log(n), \log(p), \sqrt{2\log(p)}\) 等形式）。 - 结果：在所有设定下，阈值化方法的选择一致性概率随 \(n\) 增大趋于 1；估计偏差接近零（相比 Lasso 有明显偏差）；\(\sqrt{n}\)-收敛率得到验证。高相关设计下选择一致性略慢，但仍收敛。 - 说明什么：验证理论预测（选择一致性、无偏性），展示阈值序列形式对性能的影响（\(\log(n)\) 形式较稳健），对比 Lasso 展示无偏优势。 - 真实数据： - 数据：Prostate 数据集（\(n=97, p=8\)），经典变量选择 benchmark。 - 方法应用：OLS 初始估计 + 阈值化，与 Lasso、SCAD 对比。 - 结果：阈值化方法选出的模型与 Lasso/SCAD 相似，但系数估计更接近 OLS 全模型估计（无收缩偏差）。 - 说明什么：展示方法在低维真实数据上的实用性，验证无偏估计的实际意义。

🔎 结论是否比证明窄 - 本文在定理陈述中明确要求 \(\lambda_n \to 0\) 且 \(\sqrt{n}\lambda_n \to \infty\)，这是严格证明的条件。但在模拟中，\(\lambda_n\) 取为 \(\alpha \cdot \hat{\sigma}_j / \sqrt{n}\)，此时 \(\sqrt{n}\lambda_n = \alpha \cdot \hat{\sigma}_j\) 并不趋于 \(\infty\)（除非 \(\alpha \to \infty\)），与理论条件有张力。作者在文中提到“there is some room to experiment with the functional form of \(\alpha\)”，但未严格证明 \(\alpha\) 固定时的选择一致性。这是一个结论比证明窄的信号：理论要求 \(\sqrt{n}\lambda_n \to \infty\)，但实践中 \(\alpha\) 常取固定常数（如 \(\log(n)\) 随 \(n\) 增长，但增速慢于理论要求）。 - 另一点：本文理论对初始估计量仅要求渐近正态性，但未讨论初始估计量本身是否需要变量选择一致性（如 OLS 在 \(p\) 固定下不需要，但在 \(p\) 增长下可能需要）。作者在 intro 中将范围限定为“finite p”，回避了高维下初始估计量可能不满足渐近正态性的问题，但未明确声明这是理论的硬限制。

四、开放问题（点到为止）¶

高维推广（\(p \gg n\) 或 \(p/n \to \gamma \in (0, \infty)\)）：本文理论依赖初始估计量的 \(\sqrt{n}\)-一致渐近正态性（假设 3），在高维下 OLS 不可用，需替换为 Debiased Lasso / HOIF 等无偏估计量。要证：在 \(p \gg n\) 下，若初始量为 Debiased Lasso（满足渐近正态性），阈值化程序是否仍保持选择一致性？扎根点：Intro 明确限定“finite p variable selection setting”，且假设 3 是核心依赖。
阈值序列 \(\lambda_n\) 的最优选择：理论要求 \(\sqrt{n}\lambda_n \to \infty\)，但未给出 \(\lambda_n\) 的最优率（如 \(\lambda_n = c n^{-\alpha}\) 中 \(\alpha\) 的最优值）。要估：在给定 \(p, S\) 大小下，使 \(P(\hat{S}_n = S)\) 最快趋于 1 的 \(\alpha\) 是什么？扎根点：模拟中实验了多种 \(\alpha\) 形式，但理论仅给渐近条件，无最优率结果。
与 FDR 控制路线的结合：本文阈值化控制的是假阳性率（\(P(j \in \hat{S}_n, j \in S^c) \to 0\)），而非 FDR（\(E[|\hat{S}_n \cap S^c| / |\hat{S}_n|] \to 0\)）。要证：能否将阈值化与 Knockoffs/FDR 控制结合，在固定 \(p\) 下实现 FDR 控制与无偏估计？扎根点：Intro 未引用 Knockoffs 路线，且本文结论仅保证假阳性率渐近零，对 FDR 无保证。
非光滑映射的 Delta Method 严格性：本文引用 Römisch (2014) 的 Directional Functional Delta Method 处理阈值化（非光滑映射），但未详细验证其可微性条件（Hadamard 方向可微）在阈值化操作下是否严格成立。要证：阈值化映射 \(\mathbf{z} \mapsto \mathbf{z} \mathbb{I}(|z_j| \geq c)\) 在方向可微意义下的导数是什么，是否满足 Delta Method 条件？扎根点：定理 2 的证明依赖此工具，但文中仅引用未展开验证。

（要确认某条是否真 gap，建议读同子领域近期 5 篇 intro：如高维 Debiased Lasso 推断、Knockoffs、Slope Heuristic 等，看是否都指向“阈值化理论在高维/最优率/FDR 上的缺失”。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Variable selection via thresholding¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论