Locally sharp goodness-of-fit testing in sup norm for high-dimensional counts¶

作者: Subhodh Kotekal, Julien Chhor, Chao Gao
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.3150/25-bej1911

一、核心问题与贡献¶

①本文研究了高维计数数据（Poisson与多项分布）在 sup norm 下的 goodness-of-fit 检验问题。②核心工具是基于样本最大值的检验统计量与异方差到同方差的零分布归约技术。③主要贡献是刻画了由零分布类别速率衰减行为决定的局部最小最大分离速率，并在特定渐近设定下识别了精确常数，实现了局部尖锐的检验结果。

二、基础设定¶

核心概念与符号：
$p$: 类别数（高维，$p \to \infty$）。
$X \sim \text{Poisson}(\lambda)$ 或 $X \sim \text{Multinomial}(n, p)$: 观测数据分布。
$\lambda_0$ 或 $p_0$: 零分布下的参数（率向量或概率向量）。
$\lambda_j$: 零分布下类别 $j$ 的率（Poisson设定），其衰减行为决定了异质性。
Local minimax separation rate $\rho$: 在零假设 $P_0$ 附近，能够被一致拒绝的备择假设与 $P_0$ 在 sup norm 下的最小距离。
$|\cdot|_\infty$: 备择假设分离的度量范数。
关键假设：
高维设定：$p \to \infty$，类别数远大于样本量或与样本量同阶增长。与经典低维固定 $p$ 的 Pearson $\chi^2$ 检验设定完全不同。
零分布的率衰减正则性：$\lambda_j$ 的衰减模式（如多项式衰减或指数衰减）决定了分离速率的异质性。与全局 minimax 设定相比，局部设定要求对 $\lambda_0$ 的精细结构进行限制，以避免被极端的尾部类别主导。
局部零假设邻域：仅在 $P_0$ 的局部邻域内考虑 minimax 性质，而非全局最差情况，从而捕捉到零分布异质性对检验难度的影响。
问题背景：
已有方法不足：在 $L^2$ 或 $L^1$ 度量下的高维 GoF 检验通常依赖 $\chi^2$ 或经验似然统计量，但在 sup norm 下非最优；全局 minimax 速率掩盖了零分布的异质性，无法提供尖锐常数。
与最相关文献的区别：与 Valiant & Valiant (2017) 的 $L^1$ 距离检验不同，sup norm 关注极端类别的偏离，极值统计起核心作用；与 Balakrishnan & Wasserman (2018) 等非参数 GoF 相比，本文聚焦于离散高维计数模型，并给出了精确的局部分离常数而非仅是速率阶数。

三、主要定理 / 核心结果¶

定理：Poisson设定的局部最小最大分离速率上界
原文陈述：基于样本最大值构造的检验统计量，在 sup norm 下达到局部最小最大分离速率 $\rho^*(\lambda_0)$，其阶数由 $\lambda_0$ 各分量的精细衰减行为决定。
直观解释：sup norm 对应最大类别的偏离，因此样本最大值自然是最充分的统计量；速率 $\rho^*$ 依赖于 $\lambda_j$ 的衰减，体现了不同类别方差异质性带来的检验难度差异。
解决的技术难点：高维极值统计的尾部概率控制，需处理不同类别方差异质性带来的非对称大偏差边界。
适用条件与局限：要求 $\lambda_j$ 的衰减满足一定正则性，对极小分量 $\lambda_j \to 0$ 的衰减速度有下界要求，否则极值统计的集中性被破坏。
定理：Poisson设定的局部最小最大分离速率下界
原文陈述：任何水平为 $\alpha$ 的检验，其局部最小最大分离速率下界同样为 $\rho^*(\lambda_0)$，与上界匹配。
直观解释：证明了异方差零分布下的检验难度，等价于一个由 $\lambda_0$ 衰减决定的辅助同方差零分布的检验难度。
解决的技术难点：直接在异方差下计算 $\chi^2$ 距离或构造最不利先验极其复杂，归约到同方差后可利用标准极值理论的结果。
适用条件与局限：归约过程要求 $\lambda_0$ 的衰减满足单调性，该假设是下界匹配的关键，若衰减振荡则可能需要更复杂的归约。
定理：局部尖锐常数
原文陈述：在特定渐近设定下（如 $\lambda_j$ 的某种正则衰减），分离速率的精确常数被识别，即 $\rho \sim c^* \cdot r_n$。
直观解释：不仅匹配了速率的阶，还确定了比例常数，达到了检验问题的信息论极限。
解决的技术难点：极值统计渐近 Gumbel 分布的精确尺度参数提取与检验势函数的渐近展开。

四、证明框架 / 方法设计¶

证明主干逻辑：构造法 + 极值理论 + 假设检验的 $\chi^2$ 散度下界。
拆解关键逻辑步骤：
上界构造：从零假设下 Poisson 极值统计的尾部概率出发，构造基于样本最大值的拒绝域，利用大偏差原理计算 Type I & II error。
异方差归约：将原始异方差零分布 $P_{\lambda_0}$ 映射到一个辅助的同方差零分布 $P_{\tilde{\lambda}_0}$，证明在此映射下备择假设的 $\chi^2$ 距离不增。
同方差下界：在辅助同方差模型中，利用 $\chi^2$ 散度方法构造最不利先验，推导分离速率下界。
常数尖锐化：利用极值理论中 Poisson 最大值的渐近 Gumbel 分布，精确提取使得 Type I + II error 趋于 0 的临界常数。
最关键的技巧性引理或"跳跃点"：异方差到同方差的归约 (Heteroskedastic to Homoskedastic Reduction)。这是下界证明的核心跳跃。直接在异方差下寻找最不利先验几乎不可能，作者通过某种保散度映射，将具有不同方差 $\lambda_j$ 的类别归约为具有相同方差 $\tilde{\lambda}$ 的类别，使得 sup norm 的检验难度在归约前后等价，从而将问题转化为可解的同方差极值检验。
数学工具评价：经典极值理论与现代高维假设检验下界技术的巧妙组合。归约技巧是全新的分析框架，为处理高维异方差离散数据的检验下界提供了范式。

五、与研究者兴趣的关联¶

连接子方向：mathematical statistics (hypothesis testing) 中的高维非参数/离散分布检验的局部最小最大理论。
可借鉴的核心思路：异方差到同方差的归约技巧。在研究高维因果推断或半参数模型中的异方差干扰项检验、或高维 U 统计量的假设检验时，若面临方差随协变量或类别变化的情况，可尝试构造辅助同方差模型来简化下界推导；此外，局部最小最大框架下对零分布精细结构的刻画，可迁移到 sensitivity analysis 中对未观测混淆因素异质性干扰的界设定。
值得精读的关键参考文献：
Valiant & Valiant (2017) "Estimating the unseen..."：高维分布估计与检验的 $L^1$ 范数经典文献，对比理解 sup norm 的异质性及极值统计的作用。
Ingster & Suslina (2003) "Nonparametric Goodness-of-Fit Testing Under Gaussian Models"：局部最小最大检验与分离速率理论的奠基之作，理解下界技术的标准范式。

六、延伸思考与练习¶

假设扰动：若将零假设的率衰减假设从单调衰减改为存在局部尖峰的衰减（如 $\lambda_j$ 在某些 $j$ 处异常大），分离速率会如何变化？技术上，归约映射是否还能保持 sup norm 的等价性？可能需要引入分块归约或局部极值理论。
开放问题：如何将此局部尖锐结果推广到连续分布的 sup norm 检验（如高维高斯均值向量的 $L^\infty$ 检验），或者带协变量的条件分布 GoF 检验？
理解检测题：假设在 Poisson 模型中，零分布的率向量为 $\lambda_0 = (c, c/2, c/4, \dots, c/2^{p-1})$（指数衰减），请定性描述此时的局部最小最大分离速率 $\rho^*(\lambda_0)$ 依赖于 $c$ 和 $p$ 的量级特征，并解释为什么基于 $\chi^2$ 统计量的检验在此设定下无法达到该速率。

Maintained by 陈星宇 · Homepage · Source on GitHub