Inference for possibly misspecified generalized linear models with nonpolynomial-dimensional nuisance parameters¶

作者: Shaoxin Hong, Jiancheng Jiang, Xuejun Jiang, Haofeng Wang
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asae024

一、核心问题与贡献（3句话）¶

问题：在高维广义线性模型（GLM）中，当条件方差可能误设定且 nuisance 参数维度为非多项式阶（如 \( p = O(e^{n^\delta}) \)）时，对低维兴趣参数（固定维数）进行假设检验。
方法：基于拟似然估计构造了维度约减广义似然比检验（DRGLRT），并进一步提出自适应数据驱动版本（通过数据选择收缩量）和交叉拟合版本（通过样本分割消除超高维惩罚估计引入的虚假重要变量）。
结论：建立了三个检验统计量的渐近零分布（均为卡方分布），证明当收缩量选择正确时 DRGLRT 具有近 oracle 功效，且对正则化参数在大范围内稳健；自适应版本以概率趋于 1 等价于 oracle 检验；交叉拟合版本同时消除虚假变量并保持对正则化参数的稳健性。

二、基础设定¶

核心概念与符号¶

GLM 模型：\( E(Y \mid X) = g^{-1}(X^T \beta) \)，其中 \( \beta = (\beta_1^T, \beta_2^T)^T \)，\( \beta_1 \in \mathbb{R}^{d} \)（d 固定）为兴趣参数，\( \beta_2 \in \mathbb{R}^{p_n} \) 为高维 nuisance 参数，\( p_n \) 随样本量 \( n \) 增长到 \( \infty \)（非多项式阶，即 \( \log p_n = O(n^\alpha) \)）。
拟似然：基于方差函数 \( V(\mu) \) 构造拟似然函数 \( Q(\mu; y) \)，即使真实方差与 \( V(\mu) \) 不同，拟似然估计仍然一致（但效率损失）。
DRGLRT 统计量：通过对兴趣参数 \( \beta_1 \) 进行方向约减后的拟似然比检验，形式类似于部分偏差 \( 2[ \ell_{\text{full}}(\hat\beta_{\text{full}}) - \ell_{\text{reduced}}(\hat\beta_{\text{reduced}}) ] \) 但经过校正。
收缩量：高维估计中正则化参数 \( \lambda \) 引发的收缩程度，文中假设存在一个 "正确" 的收缩量 \( \tau_0 \) 使测试最优。

关键假设¶

稀疏性：真实 \( \beta_2 \) 只有 \( s_n = o(n^{1/2}) \) 个非零分量（在超高维情形允许 \( s_n \ll p_n \)）。
设计矩阵条件：存在限制特征值条件（Restricted Eigenvalue）或相容性条件，保证 Lasso 等惩罚估计的 \( \ell_1 \) 误差界。
矩条件：拟似然函数的二阶导数期望非退化，且存在有界 \( 4 \) 阶矩，以保证拟似然 M 估计的渐近正态性。
正则化参数稳定区：存在一个区间 \( \Lambda = [\lambda_{\min}, \lambda_{\max}] \)，使得对任意 \( \lambda \in \Lambda \)，惩罚估计满足一致的收敛速度，且不影响渐近分布。
交叉拟合的独立性：交叉拟合版本要求样本分割后各子样本独立，且惩罚估计在子样本上完成，不依赖于全样本。

与已有文献的区别：Fan 等（2014）的 DLRT 要求条件方差正确设定（即似然模型正确）；本文允许方差误设定，因此更稳健。同时，本文重点处理 nuisance 参数维度非多项式增长，而早期工作多考虑多项式阶维度。

问题背景¶

已有高维推断方法（如 debiased Lasso、选择性推断）往往要求模型正确选择或方差正确设定，且对正则化参数敏感。本文针对这些不足，提出一种不依赖模型正确性且对收缩量稳健的检验框架。

三、主要定理 / 核心结果¶

论文包括三个主要定理，分别对应三个检验版本。

定理 1（DRGLRT 的渐近分布）¶

陈述：设 \( \hat{\beta} \) 为基于拟似然的惩罚估计（如 Lasso + 拟似然），记检验统计量
\[T_n = 2 \bigl[ Q(\hat{\beta}_{\text{full}}; \mathbf{Y}) - Q(\hat{\beta}_{\text{reduced},1}; \mathbf{Y}) \bigr] \cdot \tau_0^{-1},\]
其中 \( \tau_0 \) 为正确收缩量。则在原假设 \( H_0: \beta_1 = 0 \) 下，若稀疏性等条件成立，有
\[T_n \xrightarrow{d} \chi^2_d.\]
直观解释：该检验矫正了高维收缩带来的偏差（通过因子 \( \tau_0^{-1} \)），使其渐近退化为固定维情形下的拟似然比，自由度为兴趣参数维数。
技术难点：在方差误设定下，似然比统计量的渐近分布不再是简单的 \( \chi^2 \)，需要利用拟似然的 sandwich 协方差结构重新调整尺度；同时高维惩罚使得传统似然比分解失效，需证明收缩量可显式校正。
适用条件与局限：\( \tau_0 \) 必须已知或可通过 oracle 方法获得；要求稀疏性 \( s_n = o(n^{1/2}) \) 且设计矩阵满足限制特征值条件。

定理 2（自适应 DRGLRT）¶

陈述：定义数据驱动版本 \( T_n^{\text{ad}} = 2 [Q(\hat{\beta}_{\text{full}}) - Q(\hat{\beta}_{\text{reduced}})] / \hat{\tau} \)，其中 \( \hat{\tau} \) 为 \( \tau_0 \) 的相合估计。则在相同假设下，
\[T_n^{\text{ad}} \xrightarrow{d} \chi^2_d, \quad \text{且} \quad \lim_{n\to\infty} P(T_n^{\text{ad}} = T_n^{\text{oracle}}) = 1.\]
直观解释：用数据估计收缩量 \( \tau_0 \)，使得自适应检验几乎必然等价于使用 oracle 收缩量的检验。
技术难点：需证明 \( \hat{\tau} \) 的收敛速度足够快，且不影响卡方极限；关键在于对估计误差的 \( \ell_\infty \) 控制。
适用条件与局限：需要额外的条件保证 \( \hat{\tau} \) 的相合性（例如正则化参数选择准则的一致性），但总体上对正则化参数选择的稳健性更强。

定理 3（交叉拟合 DRGLRT）¶

陈述：将样本随机分为 \( K \) 折（如 \( K=2 \)），在第 \( k \) 折上基于其他折的样本获得惩罚估计，然后构造检验统计量 \( T_n^{\text{cf}} \) 并取平均。则在原假设下
\[T_n^{\text{cf}} \xrightarrow{d} \chi^2_d,\]
且该统计量对正则化参数 \( \lambda \) 的选取在 \( \Lambda \) 上一致稳健，并可消除假阳性变量带来的影响。
直观解释：交叉拟合将估计与检验样本分离，避免了因正则化路径中引入无关变量导致的分布偏差，同时保持了 \( \chi^2 \) 极限。
技术难点：需要处理跨样本估计的依赖关系，证明平均后的统计量仍为卡方，且需控制交叉验证引起的额外方差。
适用条件与局限：要求样本量足够大以支持多折；若真实模型包含极稀疏但高强度信号，交叉拟合可能损失部分效率。

四、证明框架 / 方法设计¶

证明主干逻辑¶

核心思路是二阶泰勒展开 + 高维收缩校正 + 经验过程逼近： 1. 将拟似然比统计量表示为兴趣参数估计量的二次型（通过 Karush-Kuhn-Tucker 条件展开）。 2. 利用惩罚估计的收敛速率（\( \sqrt{s_n \log p_n / n} \)）控制余项，证明其渐近可忽略。 3. 在误设定下，采用 sandwich 协方差矩阵调整统计量尺度（即引入 \( \tau_0 \) 或 \( \hat{\tau} \)），使校正后的二次型渐近于自由度为 d 的卡方。 4. 对于自适应版本，证明 \( \hat{\tau} - \tau_0 = o_p(1) \) 且不影响极限分布，通过 Delta 方法或 Slutsky 引理。 5. 对于交叉拟合版本，利用独立性将每个折的统计量分解为独立部分，再结合鞅差序列中心极限定理处理平均化后的分布。

关键逻辑步骤¶

线性化拟似然比：在真实参数处展开，得到 \( T_n = (\hat{\beta}_1)^T I_{11\cdot2} (\hat{\beta}_1) + o_p(1) \)，其中 \( I_{11\cdot2} \) 为兴趣参数的 Fisher 信息（在拟似然下的期望二阶导数）。
惩罚估计的一致性：利用限制特征值条件证明 \( \|\hat{\beta}_2 - \beta_{20}\|_1 = O_p(s_n \sqrt{\log p_n / n}) \)，且这一误差在泰勒展开中产生可忽略余项。
收缩量的识别：证明 \( \tau_0 = \frac{ E[ (Y - \mu)^2 V(\mu)^{-1} ] }{ E[ V(\mu)^{-1} ] } \) 是拟似然比统计量尺度校正因子的一致估计目标（在方差正确时退化为 1）。
自适应版本的等价性：通过构造 \( \hat{\tau} \) 为 \( \sum_i (Y_i - \hat{\mu}_i)^2 / V(\hat{\mu}_i) \) 的某种平均，证明 \( \hat{\tau} - \tau_0 = o_p(n^{-1/2}) \) 从而不改变极限分布。
交叉拟合的偏差消除：证明每折的惩罚估计 \( \hat{\beta}_{(-k)} \) 与当前折的响应独立，因此统计量中的交叉项期望为零，虚假变量被自动剔除。

最关键的技巧性引理¶

引理：拟似然估计的线性表示：在误设定下，拟似然估计量 \( \hat{\beta} \) 可表示成 \( \hat{\beta} - \beta_0 = (J_n)^{-1} S_n + o_p(n^{-1/2}) \)，其中 \( J_n \) 为期望 Fisher 信息，\( S_n \) 为得分函数。这一引理使得统计量能分解为主项（正态）和高阶项（可忽略）。
作用：将复杂的拟似然比统计量简化为 \( \hat{\beta}_1 \) 的二次型，再通过 sandwich 矩阵校正得到卡方极限。

数学工具评价¶

本文是经典工具的巧妙组合：拟似然估计 + 高维 M 估计 (Bühlmann & van de Geer, 2011) + 经验过程 + 交叉拟合 (Chernozhukov et al., 2018)。没有引入全新分析框架，但对非多项式维度的处理和对误设定的稳健性是已有高斯似然比检验（如 DLRT）的重要扩展。

五、问题发现：研究者能做什么¶

(A) 立即可做（最多 2 条）¶

检查 DRGLRT 的 minimax 最优性
问题表述：在高维稀疏 GLM 下，对低维参数 \( \beta_1 \) 的检验问题，推导其 minimax 下界（非渐近），并与 DRGLRT 的可达功效比较，验证本文声称的 "nearly oracle" 是否达到 minimax 速率。
用到武器库：minimax bounds for estimation problems + high-dimensional asymptotics
第一步动作：利用 Le Cam's lemma 或 Fano's inequality，在稀疏性假设 \( \| \beta_2 \|_0 \leq s_n \) 下，建立检验功效的 minimax 下界（主要指两种分布的总变差距离的下界）。然后计算在局部备择 \( \beta_1 = n^{-1/2} h \) 下 DRGLRT 的渐近功效公式，与最小功效下界对比。
与本文关系：补全 ed 文献中缺失的 minimax 紧性分析，属于理论推广。
DRGLRT 统计量的 U-统计量表示与高效计算
问题表述：将 DRGLRT 统计量展开为关于样本的高阶 U-统计量（涉及拟似然函数的交叉项），并利用 einsum（张量收缩）技术优化其计算复杂度。
用到武器库：computation of higher-order U-statistics (treewidth / tensor contraction / einsum)
第一步动作：写出统计量的展开式 \( T_n = \frac{1}{n} \sum_{i} \xi_i + \frac{1}{n^2} \sum_{i,j} \psi_{ij} + \ldots \)，识别 kernel \( h(x_1,\ldots,x_m) \)，计算其树的 treewidth，然后使用 einsum 库（如 opt_einsum）实现高效收缩路径。
与本文关系：提供算法侧贡献，使方法可在超大样本上运行，并可能发现统计量的高阶项对分布的影响。

(B) 中期可做（最多 2 条）¶

基于高阶影响函数（HOIF）的偏差校正
缺哪一块：HOIF 的高阶 bias 表达式（nuisance 参数估计误差引起的剩余偏差）及其在 GLM 中的具体形式。
补哪 1-2 篇文献：Robins, J. et al. (2008). Higher order influence functions; 或 van der Laan, M. & Rose, S. (2011). Targeted Learning 中关于 HOIF 的章节。
补完之后能做什么：提出一个基于 HOIF 的修正版本 DRGLRT-HOIF，在二阶偏差项上进一步校正，使得在维数非常高时检验水平更精确（特别当 \( s_n \) 不是足够小）。具体问题：构造统计量 \( T_n^{\text{HOIF}} = T_n^{\text{ad}} - \text{估计的二阶偏差} \)，并证明其渐近分布仍为 \( \chi^2_d \) 但中心化更准确。
半参数效率框架下的最优检验
缺哪一块：semiparametric theory 中计算兴趣参数 \( \beta_1 \) 的 efficient influence function (EIF) 和 semiparametric efficiency bound 的具体技术。
补哪 1-2 篇文献：Bickel, P.J. et al. (1993). Efficient and Adaptive Inference in Semiparametric Models; Tsiatis, A. (2006). Semiparametric Theory and Missing Data.
补完之后能做什么：推导在给定 nuisance 参数 \( \beta_2 \) 下的 EIF，并构造基于 DML 的检验（如 Chernozhukov et al. 2018），比较其与本文拟似然检验的效率。具体问题：构建 \( \sqrt{n}(\hat{\beta}_1^{\text{DML}}) \) 的 Wald-type 检验，在方差误设定下是否仍达到 semiparametric efficiency bound，并与 DRGLRT 的 power 进行数值比较。

(C) 暂不建议（最多 2 条）¶

无（本文核心机器全部在武器库内：高维渐近、U-统计量、M估计、半参数理论均可覆盖，交叉拟合也是基本技术）。

值得精读的关键参考文献¶

Fan, J. & Lv, J. (2008). Sure independence screening for ultrahigh dimensional feature space. 本文的超高维稀疏性条件与此文类似，阅读后可更精确地理解 "nonpolynomial dimensionality" 的定义和筛查性质。
van de Geer, S. et al. (2014). On asymptotically optimal confidence regions and tests for high-dimensional models. 该文提出了高维模型下的去偏检验，与本文的拟似然比检验形成对照，有助于理解两种策略（去偏 vs 直接校正）的优劣。
Chernozhukov, V. et al. (2018). Double/debiased machine learning for treatment and structural parameters. 本文交叉拟合版本的技术源于此，阅读可加深对交叉拟合消除估计偏差机制的理解，并直接与因果推断中的 DML 连接。

六、延伸思考与练习¶

假设扰动¶

修改条件方差正确设定的假设：假设方差函数 \( V(\mu) \) 等于真实条件方差 \( \text{Var}(Y \mid X) \)。此时拟似然退化为真实似然，DRGLRT 将变为标准的广义似然比检验（GLRT）。结论会简化：收缩因子 \( \tau_0 \) 变为 1，定理 1 中不再需要矫正，检验功效可能更高。技术上，此时不需要估计 \( \tau_0 \)，自适应版本也更简单。这个扰动后的问题落入 (A) 立即可做 类别：检验在高维稀疏 GLM 下，GLRT 是否达到 minimax 吗？可以直接用高维渐近工具验证。

开放问题¶

扩展到非稀疏模型：本文依赖稀疏性假设，当 nuisance 参数非稀疏（如许多小信号）时，检验是否仍然有效？作者未讨论。值得研究在弱信号累积下检验的 robustness。
适应更一般的 M 估计框架：本文仅针对拟似然 GLM，能否推广到一般的 M 估计（如分位数回归）？作者在总结中提及可扩展。

理解检测题¶

练习题：假设我们有一个 \( d=1 \) 的高维 GLM，其中真实模型为 \( P(Y=1 \mid X) = \exp(X^T \beta) / (1+\exp(X^T \beta)) \)，但我们在分析中错误地假设方差为常数（即用线性模型的拟似然）。请写出 DRGLRT 统计量的表达式（包括收缩因子 \( \tau_0 \) 的估计公式），并解释为什么在方差误设定下，直接使用标准似然比会导致检验水平扭曲。（提示：比较两项：ESS 中的尺度因子与 Fisher 信息的关系。）

Maintained by 陈星宇 · Homepage · Source on GitHub