Testing many constraints in possibly irregular models using incomplete U-statistics¶

作者: Nils Sturma, Mathias Drton, Dennis Leung
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：
本子方向处理的是高维且可能不规则的假设检验问题——原假设由大量等式/不等式约束（数目 p 可与样本量 n 同阶，甚至远大于 n）定义，且参数空间可能存在代数奇点（梯度消失、边界点），使得传统 Wald 或 Score 检验的极限分布非标准或收敛极慢。核心困难在于：(i) 约束数目大时对多重性和高维近似的需求；(ii) 不规则点处标准渐近失效。当前成熟度：高维独立和的自助法理论已近成熟（2010 年代），但推广到 U-统计量（约束是参数的多元多项式时自然出现）且同时容忍退化的通用理论，正处于活跃发展阶段。

发展脉络（history）（按作者间引线梳理）：

奠基：高维独立和的正态近似与自助法
Chernozhukov, Chetverikov & Kato (2013, 2014, 2017) 建立了对 max 型统计量的高维高斯近似，误差随 n 多项式衰减，p≫n 可行。核心工具：耦合（coupling）+ Nazarov 不等式。这一串工作为后来所有“大量约束检验”提供了自助法基础设施。
→ 留下的口子：只处理独立和（线性统计量），无法直接用于约束为非线性（如多项式）的情形。
向 U-统计量延伸
Chen (2016, 2018)，Chen & Kato (2017, 2019)，Song, Chen & Kato (2019) 将高维高斯近似与自助法扩展到非退化 U-统计量。关键技术：Hoeffding 分解后，线性部分用高维 CLT 近似；提出不完全 U-统计量降低计算成本。
→ 留下的口子：当内核退化（线性部分为零）时，线性近似失效，两步法坍塌。
不规则模型的代数约束检验
Drton 等 (2007–2018) 发现因子分析、潜变量树模型中的多项式约束在参数奇点处导致 Wald 统计量收敛于非标准分布（卡方混合或更复杂）；Leung & Drton (2018) 尝试用不完全 U-统计量回避奇点，但方法针对特定结构。Leung & Sturma (2024) 进一步明确了近奇异时 U-统计量依赖关系导致慢收敛，并提倡使用不完全 U-统计量削弱依赖。
→ 这些工作积累了“不规则+多项式约束”的动机，但缺一个统一的高维自助法理论。
本文位置：Sturma, Drton, Leung (2025) 声称提出了“first unified framework”——将约束视为 U-可估参数的多项式，使用不完全 U-统计量估计，在混合退化（mixed degenerate）假设下证明高斯乘子自助法对 max 型统计量有效，同时覆盖规则与不规则，且允许 p≫n。这是前两条线索的汇合。

子线索聚类：

线索	代表性文献	做什么
(a) 高维独立和的自助法	Chernozhukov et al. (2013, 2014, 2017, 2019), Fang & Koike (2020)	对 max 统计量建立高斯近似界，维数可指数增长
(b) U-统计量的高维近似与不完全化	Chen (2018), Chen & Kato (2017, 2019), Song et al. (2019)	将 (a) 推向 U-统计量；引入不完全 U-统计量降低计算；聚焦非退化情形
(c) 不规则模型的代数约束检验	Drton (2009), Drton & Xiao (2016), Leung & Drton (2018), Leung & Sturma (2024)	发现奇点导致非标准极限；尝试用 U-统计量检验 tetrad 等多项式约束
(d) 潜变量树模型拟合优度	Shiers et al. (2015), Mourad et al. (2013)	将多项式约束（tetrad, pentad）用于模型选择，需高效检验方法

本文主要站在 (b) 与 (c) 的交叉点，以 (a) 为技术工具。

核心追问（该方向仍在回答的问题）： 1. 当约束的梯度为零（退化）时，检验统计量的分布是什么，能否用自助法一致逼近？ 2. 不完全 U-统计量的子集大小需多大，才能同时保证计算可行性与自助法近似质量？ 3. 对于多项式约束（U-可估参数的多项式），能否统一构造可检验的统计量而不依赖具体代数结构？ 4. 高维情形下，对约束数目 p 的增长速率、内核的矩条件需要什么具体假设才使自助法有效？

作者 framing（注意这是作者的说法）： - 作者将缺 口描述为：现有高维 U-统计量自助法要求内核非退化（线性部分主导），而现有不规则检验（如 Wald）只处理少量约束且需要正则条件；本文的“混合退化”条件允许两者同时存在，填补了空白。 - 被 淡化或回避的竞争路线： - 直接将约束转化为参数约束后用惩罚似然比检验——计算量大且高维渐进理论不完善； - 使用子采样（subsampling）或 m-out-of-n 自助法——不需要混合退化假设，但收敛速率可能更慢； - 代数方法（如直接检验协方差矩阵的秩条件）在某些具体模型（如因子分析）中已有较好工作（Drton et al., 2007），但难以推广到一般多项式约束。 - 论文未深入讨论约束筛选（如先筛选明显成立的不等式）对自助法近似的影响，而 Chernozhukov et al. (2013) 在原高维检验中考虑了这一步。

明显该被引/存在、却未出现于 intro：
论文引用了很多 Chernozhukov 等人的工作，但几乎未提及低次多项式障碍（low-degree polynomial barrier） 或 计算-统计折衷 文献（与研究者兴趣相关）。但本文本质上是统计推断，不涉及计算下界，因此这一缺失可能合理；研究者可自行查验是否存在更近的“用不完全 U-统计量做假设检验的计算复杂度分析”文章（例如，不完全抽样等价于某种随机计算模型）。

张力：未见明显对立引用。Leung & Sturma (2024) 与本文为同一作者群的前作与正作，方向一致。

二、最核心、最简单的例子 / 数学问题¶

第一步：记号、模型与可观测数据¶

设观测样本 \(X_1,\dots, X_n \stackrel{\text{i.i.d.}}{\sim} P\)，分布 \(P\) 是未知的。参数 \(\theta = \theta(P) \in \Theta \subset \mathbb{R}^d\) 是一个（可能高维的）统计参数，但 d 在本文中不重要——关键是约束。

定义 \(p\) 个约束函数 \(g_1(\theta),\dots,g_p(\theta)\)。原假设：

\[H_0 : g_j(\theta) \le 0,\quad j=1,\dots,p \qquad (\text{允许部分等式，即 }g_j=0)\]

文中关键假定：每个 \(g_j\) 可以表示为 U-可估参数的多项式。更准确地说，存在一个正整数 \(m\) 和一个对称核函数 \(h_j: \mathcal{X}^m \to \mathbb{R}\)，满足

\[\mathbb{E}[h_j(X_1,\dots,X_m)] = g_j(\theta) \quad (\text{可能差一个常数})。\]

那么完全 U-统计量为：

\[U_{n,j} = \binom{n}{m}^{-1} \sum_{I \in \mathcal{C}(n,m)} h_j(X_I),\quad \mathcal{C}(n,m)=\{I\subset\{1,\dots,n\}:|I|=m\}.\]

可观测数据：我们拥有 \(n\) 个样本 \(X_1,\dots,X_n\)。核函数 \(h_j\) 是已知的（由统计学家指定）。我们要检验原假设，因此需要计算 \(U_{n,j}\) 或它的近似，并构造检验统计量。

然而，当 \(n\) 和/或 \(p\) 很大时，完全 U-统计量的计算量是 \(O(n^m)\)，不可行。因此采用 不完全 U-统计量：选取一个（可能与数据独立的）子集 \(\mathcal{D} \subset \mathcal{C}(n,m)\)，大小 \(K = |\mathcal{D}|\)，计算

\[\tilde U_{n,j} = \frac{1}{K} \sum_{I \in \mathcal{D}} h_j(X_I).\]

典型取法：随机均匀抽取 \(K\) 个 \(m\) 元子集。本文的关键参数：不完全 U-统计量的子集大小 \(K\) 与样本量 \(n\) 同阶（即 \(K \asymp n\)）。注意完全 U-统计量的组合项数是 \(O(n^m)\)，故此处节省巨大。

检验统计量取 最大值型：

\[T_n = \max_{1\le j\le p} \left\{ \sqrt{K}\,\frac{\tilde U_{n,j}}{\hat\sigma_{n,j}} \right\},\]

其中 \(\hat\sigma_{n,j}\) 是 \(\tilde U_{n,j}\) 方差的一个一致估计（如 jackknife 估计）。记 \(c_{n}(\alpha)\) 为 \(T_n\) 在 \(H_0\) 下的 \((1-\alpha)\) 分位数。由于 \(P\) 未知，用 高斯乘子自助法 估计该分位数：

\[\hat c_{n}(\alpha) = \text{基于 bootstrap 样本的条件 }(1-\alpha)\text{ 分位数}，\]

具体构造见下来。

潜在/不可观测量：参数 \(\theta\) 及约束值 \(g_j(\theta)\) 是未知的。但我们的假设只涉及 \(g_j(\theta) \le 0\)，不要求知道具体的 \(\theta\)。

第二步：最小内核——为什么需要“混合退化”¶

剥去所有复杂性，本文要解决的数学核心问题是：

当 U-统计量的内核退化（即 Hoeffding 分解中一阶投影为零）时，如何仍能使 bootstrap 近似有效？

最简特例：\(m=2\)，\(p=1\)，约束为 \(g(\theta)=(\mathbb{E}[X_1])^2 = 0\)（即检验均值是否为零，但“错误地”用了二次约束）。设 \(\mathbb{E}[X_1]=\mu\)，\(X_i\) 为实值。

完全二阶 U-统计量（以平方为例，非对称版）：
\[U_n = \frac{2}{n(n-1)}\sum_{i Hoeffding 分解：
\[h(X_i,X_j) = X_i X_j = \mu^2 + \mu(X_i-\mu) + \mu(X_j-\mu) + (X_i-\mu)(X_j-\mu).\]
一阶投影 \(\psi_1(x) = \mu(x-\mu)\)，当 \(\mu=0\) 时，一阶投影为零，内核完全退化到二阶。此时完全 U-统计量 \(U_n\) 的方差来自 \(O(1/n^2)\)（因为一阶项消失），渐近分布为加权卡方而非正态，bootstrap 困难。
不完全 U-统计量：随机抽取 \(K\) 个无序对，\(K \asymp n\)。容易验证（文中引理给出）此时
\[\tilde U_n = \frac{1}{K}\sum_{I\in\mathcal{D}} X_i X_j\]
的方差主部来自二阶项，且因为 \(K\sim n\)，方差对每个核的贡献 \(\asymp 1/n\)。更关键：\(\tilde U_n\) 的标准化统计量（乘 \(\sqrt{K}\)）可以表示为 一个独立和的高维统计量加上一个可忽略的剩余，使高维自助法适用。核心想法：不完全化“修复”了退化——它在不改变均值的条件下，将二阶项“重缩放”到与一阶项同阶的幅度，从而恢复对高斯近似的对齐。

该例子是全文最直观的演示：当 \(\mu=0\)（不规则点）时，完全 U-统计量的线性部分消失；但人为选择 \(K \asymp n\) 个随机无序对后，统计量不再依赖元数 \(n\) 的平方项，而是靠“采样率”重新获得了适合 max 型高维近似的结构。

“混合退化”条件（直觉版）：在一般的 \(m\)、\(p\) 设定下，要求对每个约束 \(j\)，其核的 Hoeffding 投影至少有一个阶 \(s\ge 1\) 非零，且不完全 U-统计量中，该阶的贡献在方差主导项中未被破坏。更精确的数学表述涉及对 \(K\) 的相对阶的选择——本质是：不完全 U-统计量的子集抽取速率 \(K\sim n\) 恰好使得任何退化阶升高都不会导致方差数量级变小，从而避免弱收敛。

三、这篇论文做了什么¶

三句话： 1. 研究了在可能不规则（内核退化、参数奇点）的统计模型中，检验由等式/不等式定义的 大量约束（p 可与 n 同阶或指数增长）的问题。 2. 提出用 不完全 U-统计量 估计约束，并用 高斯乘子自助法 构造临界值；核心创新是发现只要内核满足“混合退化”条件且子集大小 \(K\asymp n\)，自助法近似是一致的，无需区分退化与否。 3. 主要结论：在混合退化及矩条件下，自助法检验当 p 固定或指数增长时均控制第一类错误（定理 1、2）；应用于潜变量树模型的 tetrad 约束检验，模拟验证了不规则点处的水平保持。

关键设定与假设（在第二节记号上补充）¶

条件 (C0) – 核函数与阶：对每个 \(j=1,\dots,p\)，核 \(h_j\) 对称且可分解为 \(m\) 阶 Hoeffding 投影 \(h_j = \theta_j + \sum_{s=1}^m \psi_{s,j}\)，其中 \(\psi_{s,j}\) 是退化变量且相互正交。
条件 (C1) – 子集抽取：\(\mathcal{D}\) 独立于数据，大小为 \(K\)。要求 \(K/n \to \kappa_0 \in (0,\infty)\) （收敛到一个正常数），且抽样为无放回均匀。
条件 (C2) – 混合退化（核心假设）：定义不完全 U-统计量对投影 \(s\) 的方差贡献 \(V_{s,n,j} = \frac{1}{K}\sum_{I\in\mathcal{D}} \sum_{i_1<\dots<i_s \in I} (\text{某种方差})\)。要求存在 \(s^*\ge 1\) 使得
\[\min_{j} \frac{V_{s^*,n,j}}{V_{n,j}^{tot}} \ge c > 0,\]
且一阶投影的方差（若存在）不主导。换言之，不完全 U-统计量捕捉到至少一个非零阶的投影，且该阶的方差以正比例贡献。这比简单的“至少有一阶非零”更强，还需对子集设计的具体结构。
条件 (C3) – 矩与高阶矩：各核的 2+ε 阶矩有界，且对 Gaussian 近似所需的指数矩或次高斯性成立（文中使用 Götze et al. 2021 的多项式浓度不等式）。
条件 (C4) – 高维增长：p 增长至多指数于 \(n^\gamma\)（γ 取决于矩和 \(K\)）。
与已有文献相比：
相比 Chen & Kato (2017) 要求内核非退化（一阶投影主导）或完全退化（文中没有），本文的 (C2) 允许混合情形。
相比 Drton & Xiao (2016) 的 Wald 检验，不需要梯度非零，完全绕过奇点问题。

主要结果¶

定理 1（固定 p 或 p 多项式增长）：在 (C0)–(C3) 下，记 Bootstrap 临界值 \(\hat c_{n}(\alpha)\) 为通过高斯乘子自助法（生成 \(B\) 个条件样本）给出的分位数。则对任意 \(\alpha\in(0,1)\)，
\[\sup_{\alpha} \left| \mathbb{P}_{H_0}(T_n > \hat c_{n}(\alpha)) - \alpha \right| \to 0.\]
误差界为 \(O(n^{-c})\)（具体指数取决于矩条件）。
直觉：混合退化保证了 \(\sqrt{K}\tilde U_n\) 的最大值可被一个 线性项主导的高维随机向量 一致近似，然后该线性项可套用高维自助法（Chernozhukov et al. 2013）。
解决的技术难点：如何将不完全 U-统计量的非独立部分（高阶投影的贡献）重新表示为“近似独立和”的形式，并控制在 max 下的误差。
定理 2（高维情形，p 指数增长）：在更强的矩条件（核的亚高斯性）和增长速率限制下，上述一致近似保持，且误差多项式衰减于 n。p 允许达到 \(\exp(n^\gamma)\)，γ 依赖于 Kernel 的阶 m 和矩条件。
条件细化：需 max_j ∥ψ_{s,j}∥_{ψ_2} ≤ C，且子集抽取的随机性符合某种对称性（可借经验过程处理）。

证明路线与技术技巧¶

整体路线（3–5 步逻辑主干）： 1. Hoeffding 展开与方差重排
将 \(\sqrt{K}\tilde U_{n,j}\) 用 Hoeffding 投影写出：

\[\sqrt{K}\tilde U_{n,j} = \sqrt{K}\theta_j + \sum_{s=1}^m \sqrt{K} \tilde U_{n,j}^{(s)},\]

其中 \(\tilde U_{n,j}^{(s)}\) 是仅涉及 s 阶投影的部分。记 \(\mu_j = \mathbb{E}[U_{n,j}]\)（在原假设下 ≤0）。移除均值后，剩余项分解为 \(L_{n,j} + R_{n,j}\)，其中 \(L_{n,j}\) 来自 s 阶投影中“能被线性化”的部分。

选择主投影阶
利用混合退化条件 (C2) 确定一个主导阶 \(s^*\)，使得 \(\text{Var}(\sqrt{K} \tilde U_{n,j}^{(s^*)}) \asymp 1\)，且其他阶可被吸收进剩余项。关键引理：当 \(K\sim n\)，无论退化与否，各阶投影的方差量级为 \(O(1)\)（避免了退化时方差骤降）。
线性化与耦合
主导项 \(\sqrt{K} \tilde U_{n,j}^{(s^*)}\) 可以进一步表示为 加权和：
\[\frac{1}{s^*} \sum_{i=1}^n \xi_{i,j}^{(s^*)},\]
其中 \(\xi_{i,j}^{(s^*)}\) 是形如核函数对第 i 个样本的某种“留下一个”期望。这一表示来自不完全 U-统计量的随机抽样结构：随机抽取子集 \(\mathcal{D}\) 的设计使得一阶留出期望的展开可行（类似分层抽样）。此时，\(\{\xi_{i,j}\}\) 是独立随机向量在高维下的一个耦合重构。
应用高维正态近似
对向量 \(\sum_i \xi_{i,j}\) 使用 Chernozhukov et al. (2013, 2017) 的高维 CLT，得到 Gaussian vector \(\tilde G\) 的耦合。然后对 \(\tilde G\) 进行高斯乘子自助法——由于 \(\tilde G\) 协方差可估，自助法给出有效分位数。剩余项 \(R_{n,j}\) 的贡献被控制在 \(O(K^{-1/2})\) 或更高阶可忽略。
反推原统计量
最后用反证法和三角不等式证明原 bootstrap 统计量（直接对原数据做高斯乘子重抽样）与上述理想 bootstrap 分布的 Kolmogorov 距离以 \(n^{-c}\) 衰减。

关键跳跃点： - 引理 C.4（文中附录）建立了不完全 U-统计量的方差恒等式，保证混合退化条件可被验证。 - Lemma A.12 in Song et al. (2019) 被借用来处理高阶投影的 Chaining，但本文扩展了其对混合退化情形的适用性。 - 另一个跳跃：将不完全 U-统计量的 bootstrap 重写为对每个随机向量 \(\xi_{i,j}\) 乘以独立乘子的形式，需要精细的对偶性论证。这依赖于 核函数的幂等性（hypercontractivity）——引用 Leung & Sturma (2024, Lemma 2.2) 和 de la Peña & Giné (1999) 中的多项式超压缩性。

技术技巧清单： - 高斯乘子自助法：用于构造条件 Gaussian 副本，依赖 covariance 的 jackknife 估计。 - Hoeffding 投影 + 不完整化的组合方差公式：将不完全 U-统计量的方差写成各阶投影方差的加权和，权重取决于采样设计。 - 多项式超压缩性：控制高阶矩，用于获得高斯近似所需的指数界限。 - Chernozhukov style coupling：利用 Slepian / 反 Slepian 引理及 Nazarov 不等式。 - 子集随机性的对称化：对 \(\mathcal{D}\) 的无放回均匀，借助 Hoeffding 不等式和置换对称性控制。 - 高阶经验过程 Chaining 处理 \(s^*\) 阶投影的剩余项。

真实例子与应用¶

论文以 潜变量树模型（Gaussian latent tree model） 为例，具体是星型树（star tree） 结构：一个潜变量 \(H\) 连接所有观测变量 \(Y_1,\dots,Y_d\)；所有联合分布为多元正态。模型隐含一组多项式等式约束（tetrad constraints），例如：

\[\Sigma_{ij}\Sigma_{kl} - \Sigma_{il}\Sigma_{kj} = 0 \quad (i \neq j \neq k \neq l).\]

这些约束是协方差的二次多形式，对应 U-统计量（m=2） 估计。

数据：模拟生成服从星型树的正态样本，潜变量方差 \(\phi\)。当 \(\phi \to 0\) 时，观测方差退化，参数接近边界（不规则点）。
方法实施：对每个 tetrad 约束 \(g_j = 0\)，用二阶不完全 U-统计量（随机抽取 \(K \sim n\) 个无序对，计算对应乘积）得到 \(\tilde U_{n,j}\)；然后构造 max 检验统计量并运行高斯乘子 bootstrap 确定临界值。
结果：比较了三种方法：
(i) 基于完整 U-统计量的 Wald 检验（传统方法）；
(ii) 本文的不完全 U-统计量 + bootstrap；
(iii) “oracle” bootstrap（使用完整 U-统计量但已知分布）。在 \(\phi\) 较小（不规则）时，方法 (ii) 的经验拒绝率接近名义水平（5%），而 (i) 严重扭曲（如 20%）。在 \(\phi\) 较大（规则）时，所有方法表现相似。
该例子想说明：本文方法对 参数空间边界附近的奇异性 具有意料中的鲁棒性，且即使约束数 p 很大（当 d 增大时 tetrad 数目为 \(O(d^4)\)），仍然可行。

结论是否比证明窄？¶

是的，存在几处可能的窄化： - 假设独立性：文中自助法证明要求子集 \(\mathcal{D}\) 可拆分与数据独立，但在实际实现中如果使用固定设计（如按顺序取样），需要额外验证。论文附录讨论了一种“依赖于数据的子集选择”的一阶条件，但未完全覆盖。 - 混合退化验证：定理结论依赖于条件 (C2) 成立。对于一般的多项式约束，验证该条件需要知道各阶投影的非零性——实际中可能需要预先假设或使用保守子集大小（如 K 很大），但论文没有给简单的充分条件（只给出潜变量树例子的验证）。 - 功率分析缺失：定理 1 只控制类型 I 误差，未在局部备择下建立检验一致性。虽然模拟展示了功率，但理论保证了水平保持，未保证功率（在退化备择下可能失效）。论文的定理陈述未提及 consistency against fixed alternatives。

四、开放问题（扎根具体语句）¶

子集选择策略的优化：本文假设子集 \(\mathcal{D}\) 从全体 \(\mathcal{C}(n,m)\) 中均匀随机抽样。但若使用数据依赖的抽样（如优先抽取那些在经验分布下包含更多信息的子集），是否可以在不破坏 bootstrap 有效性的同时提高功率？
→ 扎根：论文第 2.2 节提到“We assume that the set of subsets \(\mathcal{D}\) is chosen independently of the data; design-dependent choices are left for future work.”（原文可查）。
混合退化条件的可验证性：条件 (C2) 涉及未知分布；实际应用时，可能只能通过假设（如核的阶 m 事先已知，且一阶投影确定非零）来满足。能否设计一个预检验步骤，使得统计量选择在不满足混合退化时退而使用另一种近似？
→ 扎根：论文第 3 节定理证明前的条件陈述以 “Condition (C2)” 形式给出，且未提供可操作的验证方法。
功率最优性与功效非退化性：本文仅证明了零假设下水平控制；但在备择假设靠近零（即 \(\max_j g_j(\theta)=O(1/\sqrt{n})\)）时，检验能否达到非平凡的局部功效？是否存在没有满足混合退化条件的备择方向导致功效为零？
→ 扎根：论文定理 2 只声明“the test controls the type I error”，未提及功效（power）。模拟使用固定备择（偏离 null 明显），但无理论保证。
高阶 U-统计量的计算复杂性：研究者熟悉树宽/张量收缩，而本文不完全 U-统计量的子集选取是均匀随机，未讨论更经济的设计（如基于代数图结构的最小 treewidth 子集）。是否可以将“选择子集”的形式化为一个计算-统计折衷问题（如最低 treewidth 子集与统计效率的 trade-off）？
→ 扎根：本文仅从统计角度选择 \(K \asymp n\)，未提及子集部署的计算成本或结构约束。

提醒研究者：若要确认第 3、4 点是否为真 gap，建议阅读同子领域近期约 5 篇（如 Lopes 2022，Fang & Koike 2021，以及 Chen & Kato 2019 的 remark 部分）——多数论文都指向“不完全 U-统计量的最优子集设计”是一个共识性问题（真 gap），而关于功率的理论目前在退化高维 U-统计量检验中确实空白（有机会）。

Maintained by 陈星宇 · Homepage · Source on GitHub