Testing generalized linear models with high-dimensional nuisance parameters¶

作者: Jinsong Chen, Quefeng Li, Hua Yun Chen
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asac021

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在广义线性模型（GLM）中，当伴随存在高维干扰参数（nuisance parameters，维数 \(p\) 随样本量 \(n\) 而增长甚至远大于 \(n\)）时，如何对目标参数子向量（维数 \(d\)，亦可随 \(n\) 增长）进行全局显著性检验（\(H_0: \beta_1 = 0\)）。当前该方向的成熟度处于"方法涌现与理论补全期"：已有多种检验统计量被提出，但普遍受限于计算成本（依赖 bootstrap）、对目标参数稀疏性的严苛假设，或无法处理 \(d\) 随 \(n\) 增长的密集备择假设。

发展脉络： - 奠基工作：高维回归中单变量或低维参数的 de-biasing / desparsification 路线（van de Geer et al., 2014; Javanmard & Montanari, 2014）。作者在 intro 中指出，这些工作开创了通过构造修正估计量来消除惩罚偏差的范式，但"主要聚焦于低维参数推断，无法直接推广至高维全局检验"。 - 主要进展（高维全局检验）：针对高维系数全局为零的检验（如 \(H_0: \beta = 0\)），出现了基于 score-type 或 Wald-type 的统计量（Zhong & Chen, 2011; Goeman et al., 2006; Lan et al., 2014）。作者引用指出，这类工作"通常要求 \(d\) 固定或极慢增长，且极限分布常依赖 bootstrap 或缺乏闭合形式"。 - 当前 frontier（高维干扰下的高维检验）：当模型同时存在高维干扰参数 \(\beta_2\) 且要检验高维 \(\beta_1\) 时，现有路线（如 Ning et al., 2017; Guo & Chen, 2022 的 decorrelated score / debiased 方法）作者评价为"往往需要目标参数 \(\beta_1\) 具备稀疏性，且为了获得极限分布仍需借助 multiplier bootstrap，计算代价为 \(O(Bnp)\)"。 - 本文的位置：作者将自己定位为跳出"稀疏 \(\beta_1\) + bootstrap"的框架，提出一种直接修正 score 统计量的方法，使得 \(\beta_1\) 可稀疏亦可密集，且极限分布具有无需 bootstrap 的闭合形式（混合正态分布）。

子线索聚类： 1. De-biasing / Desparsification 路线：通过构造 \(\tilde{\beta} = \hat{\beta} + \hat{\Theta} \nabla l(\hat{\beta})\) 消除 Lasso 偏差，再做 Wald 检验。代表：van de Geer (2014), Javanmard & Montanari (2014), Ning (2017), Guo & Chen (2022)。此簇的瓶颈在于：节点条件需估高维精度矩阵 \(\hat{\Theta}\)，且 Wald 统计量在 \(d\) 大时协方差矩阵估计不稳定，常退回 bootstrap。 2. Score-type / Ridge-type 路线：不估 \(\beta_1\)，仅用残差构造二次型。代表：Zhong & Chen (2011) 的 \(U_\Sigma\) 检验、Goeman (2006) 的全局 score 检验、Lan (2014)。此簇在 \(d\) 大时方差估计极度困难，传统做法依赖谱聚类降维或 bootstrap。 3. Projection / Conditional 路线：将高维检验投影至低维空间，或做条件检验。作者在 intro 中未重点展开此簇，仅在引用中提及 Brillinger (2012) 等早期工作。

这个方向在追问的核心问题： 1. 干扰参数的消除：如何在不引入高维精度矩阵估计的前提下，有效剥离高维 \(\beta_2\) 对检验统计量的影响，避免节点条件带来的额外稀疏假设？ 2. 极限分布的可达性：在 \(d/n \to \kappa \in (0, \infty)\) 的密集备择下，二次型统计量的方差结构如何解析处理？能否摆脱 bootstrap 获得闭合形式？ 3. 检验势的保证：在 \(\beta_1\) 密集且信号极弱（\(\|\beta_1\|_2^2 = o(d)\)）时，检验统计量是否仍有非零势？势的临界信号强度下界是什么？

⚠️ 作者的 framing： - 作者的 framing：作者把缺口 frame 成"现有方法受困于 bootstrap 的计算成本与稀疏假设的严苛性"，从而让自己的"闭合形式 + 兼容密集参数"方法成为"显然的下一步"。他们强调自己的修正 score 统计量只需一次节点回归（nodal regression），无需估精度矩阵，极限分布直接可算。 - 被淡化或回避的竞争路线：Intro 中对基于 Ridge 正则化 的推断路线（如 high-dimensional ridge regression 的 debiased 推断，近期有 Bühlmann 等人的工作）完全未提及；对 部分线性模型 中高维非参数干扰的 score 检验路线也未对比。这些路线同样宣称能处理密集参数。 - 明显该被引却缺失的：高维 GLM 中基于 multiplier bootstrap 的最近理论进展（如 Spokoiny 等人的局部自适应检验），以及 random matrix theory 在高维二次型极限分布中的直接应用（如 Jiang & Bai 的工作，本文的混合正态极限实质上依赖 RMT 的谱分析，但引用中缺失 RMT 的标准教材或核心论文）。这是一个值得研究者去查的信号：作者是否在技术层面借用了 RMT 但在文献定位上刻意回避了与 RMT 路线的对比？

张力：未见明显对立引用。但存在隐含张力：Ning (2017) 与 Guo & Chen (2022) 的 decorrelated score 路线要求 \(\beta_1\) 稀疏以估节点参数，而 Zhong & Chen (2011) 的路线要求 \(\beta_2\) 极度稀疏以估 \(\Sigma\)。本文同时放宽了两者，但引入了新的 nodal regression 条件（见下文技术节），这两条路线的假设集不可直接比较优劣，需在具体 \(p, d, s\) 配置下核算。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\beta = (\beta_1^\top, \beta_2^\top)^\top\)：GLM 的全系数向量。
\(\beta_1 \in \mathbb{R}^d\)：目标参数（要检验的子向量），\(d\) 可随 \(n \to \infty\)。
\(\beta_2 \in \mathbb{R}^{p-d}\)：干扰参数，\(p-d\) 随 \(n \to \infty\) 且 \(p \gg n\)。
随机变量 / 样本：
\((Y_i, X_i)\)，\(i=1,\dots,n\)：响应变量与全协变量向量。
\(X_i = (X_{1i}^\top, X_{2i}^\top)^\top\)：\(X_{1i} \in \mathbb{R}^d\) 对应 \(\beta_1\)，\(X_{2i} \in \mathbb{R}^{p-d}\) 对应 \(\beta_2\)。
维数 / 样本量等指标：
\(n\)：样本量；\(p\)：全协变量维数，\(p \gg n\)；\(d\)：目标参数维数，\(d \leq p\)。
\(s\)：\(\beta_2\) 的稀疏度（非零元个数），假设 \(s \log p = o(n)\)。
潜在 / 不可观测量：
\(b^*\)：nodal regression 的真实系数（\(X_1\) 对 \(X_2\) 的投影系数），不可直接观测，需用 Lasso 估计其稀疏近似 \(\hat{b}\)。
\(\Sigma_{21}\Sigma_{11}^{-1}\)：\(X_2\) 对 \(X_1\) 的真实回归系数矩阵，高维下不可估，本文用 \(b^*\) 替代其稀疏版本。

模型：数据生成机制为广义线性模型：\(Y_i | X_i \sim \text{GLM}\)，即 \(E[Y_i | X_i] = \mu(X_i^\top \beta)\)，\(\text{Var}(Y_i | X_i) = \sigma^2 V(\mu(X_i^\top \beta))\)，其中 \(\mu, V\) 为已知联系函数与方差函数。\(\beta_2\) 假设稀疏（\(s\)-sparse），\(\beta_1\) 无稀疏假设。协变量 \(X_i\) 假设服从亚高斯分布，设计矩阵满足 restricted eigenvalue (RE) 条件。

可观测数据：研究者实际观测到的是独立同分布样本 \(\{(Y_i, X_{1i}, X_{2i})\}_{i=1}^n\)。\(Y_i\) 的分布依赖高维 \(X_i\)，但目标仅是判断 \(X_{1i}\) 是否对 \(Y_i\) 有边际贡献（在控制 \(X_{2i}\) 后）。不可观测的是真实的稀疏投影结构 \(b^*\) 与真实的干扰参数 \(\beta_2\)，只能靠 Lasso 与 nodal regression 的稀疏估计去逼近。

第二步：最小内核——最简特例（高维 Logistic 回归，\(d\) 固定，\(p \gg n\)）

剥掉所有一般性技术假设，本文的核心数学困难与破局思路在以下特例中完全可见：

特例设定：Logistic 回归（\(\mu(t) = e^t/(1+e^t)\)），\(d=1\)（只检验单个基因-环境交互项是否为零），\(p \gg n\)，\(\beta_2\) 稀疏。

要证的命题退化成：构造一个修正的 score 统计量 \(T_n = \sum_{i=1}^n \hat{W}_i Y_i\)，其中 \(\hat{W}_i = X_{1i} - X_{2i}^\top \hat{b}\)（\(\hat{b}\) 是 \(X_1\) 对 \(X_2\) 的 nodal Lasso 回归系数）。在 \(H_0: \beta_1 = 0\) 下，证明 \(T_n / \sqrt{\hat{V}} \to N(0,1)\)，其中 \(\hat{V}\) 是闭合形式可算的方差估计；在 \(H_1: \beta_1 = \delta \neq 0\) 下，证明检验势 \(\to 1\)。

证明怎么走、为什么成立： 1. 核心困难：在 \(H_0\) 下，原始 score \(S = \sum X_{1i}(Y_i - \mu(X_{2i}^\top \beta_2))\) 中，\(X_{1i}\) 与 \(X_{2i}\) 相关导致 \(E[S] \neq 0\)，且 \(\mu(X_{2i}^\top \beta_2)\) 未知。传统做法是估 \(\beta_2\) 代入，但高维下 Lasso 估 \(\hat{\beta}_2\) 的偏差会污染 \(S\) 的中心化。 2. 关键想法（破局点）：不估 \(\mu(X_{2i}^\top \beta_2)\)，而是修正权重：用 nodal regression 消除 \(X_1\) 中可被 \(X_2\) 解释的部分，得到残差权重 \(\hat{W}_i = X_{1i} - X_{2i}^\top \hat{b}\)。此时 \(T_n = \sum \hat{W}_i Y_i\)。在 \(H_0\) 下，\(E[Y_i | X_i] = \mu(X_{2i}^\top \beta_2)\)，而 \(\hat{W}_i\) 近似与 \(X_{2i}\) 正交，于是 \(E[T_n] \approx 0\)，Lasso 对 \(b\) 的偏差被正交性吸收，不再污染均值。 3. 方差闭合性：\(T_n\) 的方差可分解为 \(\sum \hat{W}_i^2 V(\mu(X_{2i}^\top \hat{\beta}_2))\)，这里 \(\hat{\beta}_2\) 的偏差在方差估计中是二阶效应（因为 \(\hat{W}_i\) 与 \(X_{2i}\) 近正交，\(\mu\) 的微小估计误差被权重残差吸收），从而无需 bootstrap 即可算出极限分布。

一般情形只是此特例的"加壳"：当 \(d > 1\) 且 \(d \to \infty\) 时，\(T_n\) 变成二次型 \(T_n = \hat{W}^\top Y\)，极限分布从 \(N(0,1)\) 变为混合正态（取决于 \(\hat{W}^\top \hat{W}/n\) 的谱结构），证明需引入随机矩阵理论控制二次型的波动，但核心"用 nodal 残差修正权重以隔离干扰参数偏差"的想法完全不变。

三、这篇论文做了什么¶

三句话： ①研究了 GLM 中存在高维干扰参数 \(\beta_2\) 时，对高维目标参数 \(\beta_1\) 的全局显著性检验问题（\(H_0: \beta_1 = 0\)）。 ②核心方法是构造基于 nodal regression 残差权重的修正 score 统计量，隔离 \(\beta_2\) 的估计偏差，并利用高维二次型的谱分解获得闭合形式极限分布。 ③主要结论是在 \(\beta_2\) 稀疏、nodal regression 稀疏近似误差可控的条件下，第 I 类错误渐近正确，且在密集备择（\(\|\beta_1\|_2^2 \asymp d/n\)）下具有非零势，全程无需 bootstrap。

关键设定与假设：在第二节最小记号基础上补全： - 定义：Nodal regression 指对每个 \(j \in \{1,\dots,d\}\)，做 \(X_{1j}\) 对 \(X_2\) 的 Lasso 回归，得残差 \(\hat{W}_j = X_{1j} - X_2 \hat{b}_j\)。这替代了传统 decorrelated score 中对精度矩阵 \(\Theta_{11\cdot 2}\) 的估计。 - 假设 A（稀疏性）：\(\beta_2\) 为 \(s\)-sparse，\(s \log p = o(n)\)；nodal regression 的真实系数 \(b^*\) 为 \(s_1\)-sparse，\(s_1 \log p = o(n)\)。相比 Ning (2017) 要求 \(\beta_1\) 稀疏，本文放宽了目标参数假设，但新增了 nodal regression 的稀疏假设（即 \(X_1\) 在 \(X_2\) 上的投影需近似稀疏）。 - 假设 B（RE 与亚高斯）：设计矩阵 \(X\) 满足 restricted eigenvalue 条件，\(X\) 与 \(Y\) 服从亚高斯分布。这与高维 Lasso 推断的标准假设一致。 - 假设 C（维数约束）：\(d^2 / n \to \kappa \in (0, \infty)\) 或 \(d = o(n^{1/3})\)（取决于具体定理中方差估计的收敛要求）。这允许 \(d\) 远大于传统低维推断的固定假设。

主要结果： - 定理 1（Type I error）：在 \(H_0: \beta_1 = 0\) 下，修正 score 统计量 \(T_n = n^{-1} \hat{W}^\top (Y - \hat{\mu}_2)\)（其中 \(\hat{\mu}_2 = \mu(X_2 \hat{\beta}_2)\)）经过方差标准化后，渐近服从 \(N(0, I_d)\) 的混合分布（当 \(d\) 固定时退化为标准正态）。直觉：nodal 残差 \(\hat{W}\) 与 \(X_2\) 近正交，使得 \(\hat{\mu}_2\) 的 Lasso 偏差在 \(T_n\) 的均值中为一阶消失；方差估计的闭合形式来源于 \(\hat{W}^\top \hat{W}\) 的谱结构可直接用样本协方差近似，无需 bootstrap 重抽样。必要条件：nodal 近似误差 \(\max_j \|b_j^* - \hat{b}_j\|_1 = o_P(1/\sqrt{n})\)，这要求 \(X_1\) 对 \(X_2\) 的投影确实足够稀疏。 - 定理 2（Power under dense alternatives）：在 \(H_1: \beta_1 \neq 0\) 且 \(\|\beta_1\|_2^2 \asymp d/n\)（密集弱信号）下，检验势 \(\to 1\)。直觉：二次型统计量在密集备择下的信号积累为 \(\|\beta_1\|_2^2 \cdot E[W^\top V W]\)，当 \(\|\beta_1\|_2^2 \asymp d/n\) 时，信号与噪声（方差量级 \(O(d/n)\)）之比趋于常数，势不退化。解决的技术难点：传统 Wald 检验在密集弱信号下势为零（因需估 \(d \times d\) 协方差矩阵，噪声淹没信号），本文的 score-type 统计量避开了协方差矩阵的显式估计。 - 定理 3（Power under sparse alternatives）：在 \(\beta_1\) 稀疏且信号强度 \(\|\beta_1\|_\infty \gg \sqrt{\log d / n}\) 时，势 \(\to 1\)。这是对极强个别信号的检测保证。

证明路线与技术技巧： - 整体路线： 1. 构造修正权重：用 nodal Lasso 得 \(\hat{W}\)，将 \(X_1\) 中与 \(X_2\) 共线的部分剥离，使 \(\hat{W}\) 与 \(X_2\) 近正交。 2. 偏差分解：将 \(T_n\) 的均值分解为 \(E[\hat{W}^\top (Y - \mu_2)]\)（主项，由正交性控制在 \(o(1/\sqrt{n})\)）与 Lasso 偏差引入的余项（由 nodal 稀疏假设控制）。 3. 二次型展开：将标准化后的 \(T_n\) 写为 \(n^{-1/2} \hat{W}^\top \epsilon + n^{-1/2} \hat{W}^\top (\mu_2 - \hat{\mu}_2)\)，第一项为混合正态（由高维中心极限定理保证），第二项为偏差余项。 4. 方差闭合估计：利用 \(\hat{W}^\top \hat{V} \hat{W} / n\) 直接估计二次型方差，其中 \(\hat{V} = \text{diag}(V(\hat{\mu}_{2i}))\)。正交性使得 \(\hat{V}\) 的估计误差在方差中为二阶效应。 5. 势分析：在 \(H_1\) 下，额外信号项 \(\hat{W}^\top \mu(X^\top \beta) - \hat{W}^\top \mu_2\) 的量级由 \(\|\beta_1\|_2^2\) 决定，与方差量级匹配时势 \(\to 1\)。 - 关键跳跃点： - 引理 2（Nodal approximation error control）：证明 \(\max_j \|X_{2}(\hat{b}_j - b_j^*)\|_2^2 / n = o_P(d/n)\)。这是整篇论文最吃功夫的地方：Lasso 的 \(\ell_1\) 误差控制（\(O(s_1 \log p / n)\)）不能直接推出二次型误差控制，需借助 restricted eigenvalue 与亚高斯设计的 concentration，将 \(\ell_1\) 误差转化为预测误差 \(\ell_2\)，再乘以 \(d\) 维累加。这一步决定了 \(d\) 能否增长。 - 引理 4（Variance estimator consistency without bootstrap）：证明 \(\hat{\sigma}^2 / \sigma^2 \to_P 1\)，其中 \(\hat{\sigma}^2 = \hat{W}^\top \hat{V} \hat{W} / n\)。难点在于 \(\hat{V}\) 依赖 \(\hat{\mu}_2\)（有 Lasso 偏差），但 \(\hat{W}\) 与 \(X_2\) 正交使得偏差在二次型中被"投影消除"。 - 技术技巧点名： - Nodal regression / projection：用于构造与干扰协变量正交的修正权重，替代精度矩阵估计。 - Restricted eigenvalue (RE) condition：用于将 Lasso 的 \(\ell_1\) 估计误差转化为预测误差 \(\ell_2\) 误差，控制 nodal 近似偏差。 - High-dimensional CLT / Mixed normal approximation：用于证明 \(n^{-1/2} \hat{W}^\top \epsilon\) 的渐近分布，依赖亚高斯二次型的 Berry-Esseen 型界或谱聚类界。 - Orthogonality-induced bias cancellation：核心统计技巧，利用 \(\hat{W}\) 与 \(X_2\) 的近似正交性，使得 \(\hat{\mu}_2\) 的估计偏差在 score 统计量中为一阶消失。

真实例子与应用： - 数据 / 场景：中国饥荒样本数据，研究基因-环境交互作用。响应变量为健康指标（如 BMI 或代谢指标），环境变量为是否经历饥荒（二值），基因变量为高维 SNP 数据（\(p \gg n\)）。 - 怎么用上去：将 SNP 作为高维干扰参数 \(X_2\)，将饥荒状态与特定 SNP 的交互项作为目标参数 \(X_1\)（\(d\) 可包含多个交互项），用本文修正 score 检验判断交互项是否全局为零。 - 得到什么结果：检验在特定基因区域拒绝了 \(H_0\)，表明存在显著的基因-环境交互效应，而传统 Wald 检验与 bootstrap score 检验在该样本下因计算成本或维度过高无法实施或结果不稳定。 - 想说明什么：展示本文方法在 \(p \gg n\) 且 \(d > 1\) 的真实数据中可计算（无需 bootstrap）、闭合分布可查表、且能检测出密集弱交互信号。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛 claim 方法"allows the parameter being tested to be either sparse or dense"，但定理 2 的密集势结论严格依赖于 \(\|\beta_1\|_2^2 \asymp d/n\) 的信号强度下界，若 \(\|\beta_1\|_2^2 = o(d/n)\)（极弱密集信号），证明并未覆盖势 \(\to 1\)，此时闭合分布的检验可能势为零。这一条件在定理陈述中明确，但在 framing 中被淡化。 - 另一泛泛 claim 是"robustness when certain sparsity assumptions are violated"，模拟中展示了当 \(\beta_2\) 或 \(b^*\) 稍微超出稀疏假设时第 I 类错误仍可控，但理论定理严格依赖 \(s \log p = o(n)\) 与 \(s_1 \log p = o(n)\)，"稳健性"并无严格定理支撑，仅为模拟观察。

四、开放问题（点到为止，扎根具体语句）¶

Nodal regression 稀疏假设的必要性验证与放宽：本文核心假设是 \(X_1\) 对 \(X_2\) 的投影 \(b^*\) 稀疏（\(s_1 \log p = o(n)\)）。若 \(b^*\) 密集（如基因与环境协变量高度共线），nodal Lasso 偏差 \(\max_j \|\hat{b}_j - b_j^*\|_1\) 将失控，定理 1 的证明在引理 2 处断裂。能否用 Ridge 或无惩罚投影替代 nodal Lasso，在 \(b^*\) 密集时仍获闭合分布？（扎根：定理 1 的条件 "max_j |b_j^* - \hat{b}_j|_1 = o_P(1/\sqrt{n})" 及引理 2 的 RE 条件依赖）。
极弱密集信号的势下界：定理 2 证明了 \(\|\beta_1\|_2^2 \asymp d/n\) 时势 \(\to 1\)，但未给出势的精确渐近表达式或更弱信号（\(\|\beta_1\|_2^2 = o(d/n)\)）下的 minimax 势下界。是否存在统计-计算间隙：密集弱信号下任何多项式时间算法的势都趋于零？（扎根：定理 2 的信号强度条件 \(\|\beta_1\|_2^2 \geq C d/n\) 及摘要中 "establish its power under high-dimensional alternatives" 的泛泛陈述）。
与随机矩阵理论路线的统一：本文的混合正态极限分布实质上依赖高维二次型的谱收敛（\(\hat{W}^\top \hat{W}/n \to \Sigma_W\)），但证明中未显式调用 RMT 的标准极限谱分布结果。当 \(d/n \to \kappa > 0\) 且 \(\hat{W}\) 的谱非标准时，闭合分布的尾部概率是否仍能精确查表，还是需数值计算特征根？（扎根：定理 1 的方差估计 \(\hat{\sigma}^2 = \hat{W}^\top \hat{V} \hat{W}/n\) 及极限分布陈述，未讨论 \(\hat{V}\) 非恒同时的谱修正）。
缺失的 RMT 与 Ridge 路线引用：Intro 中未引用随机矩阵理论在高维二次型极限分布中的标准工作（如 Bai & Silverstein 2010 的谱极限定理），也未对比近期 Ridge-based debiased 推断路线（如 Bühlmann 等人 2022+ 的工作）。需确认：这是作者刻意回避（因技术路线不同），还是领域文献定位的盲点？（扎根：Intro 引用列表与第二节 framing 中对"现有方法依赖 bootstrap"的单一聚焦，未见 RMT 或 Ridge 推断的引用）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Testing generalized linear models with high-dimensional nuisance parameters¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论