Hypergraph Variable Selection with False Discovery Rate Control¶

作者: Sarah Organ, Toby Kenney, Hong Gu
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.20514

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在高维变量选择中，当预测变量之间存在复杂依赖结构（强相关、重叠分组） 时，如何在控制 FDR 的前提下，不损失（甚至提升）检验功效。这里的“依赖”不是指 p 值之间的相关性（那是经典 BH/BY 理论中已部分处理的问题），而是指真正的信号变量被一组相互替代的代理变量所掩盖，导致传统逐个变量的检验无法有效识别。该方向当前是一个活跃但尚未完全收敛的方法论前沿。

发展脉络（history）¶

奠基工作：Benjamini & Hochberg (1995) 提出 BH 程序，首次将 FDR 引入多重检验，奠定了线性 step-up 方法的基础。Benjamini & Yekutieli (2001b) 提出 BY 程序放宽了依赖假设，但代价是更保守。
主要进展——模型替代 p 值：Candes et al. (2018) 的 model-X knockoffs 和 Xing et al. (2023) 的 Gaussian mirror 方法，不再依赖有效性存疑的 p 值，而是通过构造镜像/协变量副本实现 FDR 控制。但它们的适用性局限于广义线性模型设定（Candes et al., 2018 为 Gaussian/GLM 构造了 knockoff，Dai et al., 2022 的 mirror 方法也类似）。
从“每个变量”到“变量集合”：Organ et al. (2026) 提出层次聚类集合选择（SHRED 方法），当强相关变量无法被区分时，将它们打包成一个集合进行选择。这引入了集合级假设检验和相应的广义 FDR（gFDR）概念，并发展了广义线性 step-up 程序（GLSUP）。
当前 frontier 与本文位置：SHRED 方法只能处理不重叠的层次聚类产生的集合。而作者观察到，在空间、时间序列等场景中，相关变量组往往是重叠的（变量同时属于多个相关组），层次聚类不够灵活。因此本文的目标是：将集合变量选择推广到超图结构（允许重叠集合），并证明 gFDR 控制仍然成立。

子线索聚类¶

被引文献大致落在 4 条子线索上：

经典线性 step-up 与其加权推广：Benjamini & Hochberg (1995), Benjamini & Yekutieli (2001b), Benjamini & Cohen (2016)。这簇工作建立了 FDR 控制的基础框架，并探索了权重（weighted BH）的引入。
基于模型构造替代检验量的方法：Candes et al. (2018, knockoffs), Xing et al. (2023, Gaussian mirror), Dai et al. (2022, 2023, 数据分裂 mirror)。这些方法回避了对 p 值的依赖，但计算量大且模型限制较强。
结构化的多重检验（层次/偏序/DAG）：Yekutieli (2008), Bogomolov et al. (2021), Ramdas et al. (2019a, DAGGER), Katsevich et al. (2023, Focused BH), Bogomolov & Nandi (2025)。这簇工作处理假设之间的已知包含/偏序关系，但 DAGGER 的 FDR 定义“没有针对偏序结构进行适当调整”（作者原话），Focused BH 只适用于“过滤后的拒绝集施加了额外结构”的场景。
集合级变量选择：Organ et al. (2026, SHRED）是本文的 direct predecessor。它提出了 gFDR、gPower、GLSUP 和 sizing function 的概念，但只限于层次（不重叠）结构。本文（HVS）是第 4 条线索的直接推广：从树到超图。

这个方向在追问的核心问题¶

Q1（理论）：在非层次/重叠的集合假设结构下，能否给出一个可被 GLSUP 框架处理的、对 sizefunction 的加性界？
Q2（方法）：如何定义“发现数”才能既自然推广单变量情况（σ(R)=|R|），又在重叠集合场景下保持 FDR 控制？
Q3（计算）：NP-hard 的独立集计数问题如何在 GLSUP 的多次 cut-off 搜索中被高效近似？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：“SHRED 只能选层次聚类中的不重叠集合 → 空间/时间序列场景中重叠更常见 → 我们将扩展到超图。”作者淡化了/回避了：在非层次、非超图的一般偏序结构上（如任意 DAG），DAGGER 并未被充分改造出合适的 FDR 控制，而本文似乎仅仅说“我们的超图 hyperedge 编码的是变量集合，不是一般的偏序节点”。值得研究者去查的问题：引言中提到了 Ramdas et al. (2019a, DAGGER）和 Focused BH (Katsevich et al., 2023)，但明显该被引却似乎不存在的是：有无任何工作尝试将超图的 vertex cover 解释与多重检验的 intersection closure 联系起来？作者引用了“independent set”在 graph theory 里的定义，但未提及closure testing (Marcus et al., 1976) 中的 intersection-closed family 与本文 hypergraph-independent-set 的关系——这关联到本文 sizefunction 的“非加性”部分是否是 closure testing 的一个变体。

张力¶

未见明显对立引用。所有被引工作在各自的设定下是自洽的，差异主要由结构假设（无结构 vs. 树 vs. 超图）和 p 值依赖假设（任意 vs. PRDS）引起。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \( \mathcal{X} = \{X_1, \dots, X_p\} \): p 个预测变量的集合。 - \( \mathcal{T} \subseteq \mathcal{X} \): 真实的（未知的）信号变量集合。 - \( Y \): 响应变量（数值或分类）。 - 数据：(X, Y) 的 n 次独立同分布观测。 - 对每个子集 \( C \subseteq \mathcal{X} \)，我们做假设检验： - 零假设 \( H_C: C \cap \mathcal{T} = \emptyset \) —— “集合 C 中不含任何真实信号变量”。 - 备择假设：\( C \cap \mathcal{T} \neq \emptyset \) —— “C 中至少含一个真实信号”。 - \( \mathcal{S} = \{S_1, ..., S_m\} \): 我们实际要检验的集合族，即超图的边集。本文中 \( \mathcal{S} \) 通常为所有大小 ≤ 2 的子集，即全部单点和全部对（pair）。 - \( R \subseteq \mathcal{S} \): 被拒绝的假设集合（即被选中的边）。 - 超图 \( G_R = (\mathcal{X}, R) \): 顶点集为 \( \mathcal{X} \)，边集为 \( R \)。 - \( \text{IS}(G_R) \): 超图 \( G_R \) 的独立集——所有不被任何 R 中边包含的顶点子集。 - \( \sigma(R) = |\mathcal{X}| - \log_2 |\text{IS}(G_R)| \): sizing function，定义了一次拒绝决策 R 的“发现数”。 - \( \mathcal{I}_N \): 真零假设的索引集（\( S_i \) 不含任何真实信号）。 - \( \mathcal{I}_A \): 假零假设的索引集（\( S_i \) 至少含一个真实信号）。 - \( q \): 目标 FDR 水平。

模型： - 一般线性模型或广义线性模型（Gaussian / Logistic / Poisson regression）。 - 唯一需要的模型假设是：对每个集合 C，我们可以获得一个有效的 p 值（如通过 compare 全模型与删去 C 中变量后的模型做 likelihood ratio test）。 - 没有任何关于信号稀疏性、预测变量设计矩阵的结构假设被在本理论部分使用（但在模拟中设计了各种相关结构）。

可观测数据： - 可观测：\( (X, Y) \) 的 n 个 i.i.d. 样本。 - 可观测但通过计算转化：每个集合 \( S_i \) 对应的 p 值 \( p_i \)。 - 不可观测：\( \mathcal{T} \)（真实信号集）、\( \mathcal{I}_N \)（真零索引）——这些都是潜在/counterfactual 的量，只能通过假设和推断去“控制”其期望。

第二步：讲最小内核¶

最简特例：超图的所有边都是单点集（loop）：\( \mathcal{S} = \{\{X_1\}, \{X_2\}, \dots, \{X_p\}\} \)。这就是经典单变量回归 FDR 控制问题。在这个特例下： - 被拒绝的假设集 R 对应选中了某些单点变量。 - 超图 \( G_R \) 的边集 R 是选中的单点。 - 独立集 \( IS(G_R) \)：不在 R 中的顶点子集。所有不在被选变量集合 R 中的顶点构成的幂集。 - 因此 \( |IS(G_R)| = 2^{|\mathcal{X}| - |R|} \)。 - sizing function 退化为：

\[\sigma(R) = |\mathcal{X}| - \log_2(2^{|\mathcal{X}| - |R|}) = |R|.\]

这就是经典 FDR 定义中的“拒绝数”。 - GLSUP 退化为经典的 BH 或 BY 程序。

这个最小内核要讲的核心思路：将“拒绝一个假设”理解为减少可能的真实变量集的候选数。最初有 \(2^{|\mathcal{X}|}\) 个候选（\(\mathcal{T}\) 的每一种可能子集）。拒绝一组假设 R 后，\(\mathcal{T}\) 必须是一个 vertex cover of \(G_R\)（不然就会有一个 False Positive 的假设被拒绝）。不同的 vertex cover 数 = 独立集数 = |IS(G_R)|。因此信息“发现”是候选数的对数减少量。

这一点怎样推广到重叠边：当边重叠时，拒绝一组边 {1,2}\、{1,3}\ 的发现数，不能简单等于 2，因为这两个假设的 rejected content 共享了 X1——如果 X1 是假的，两个 rejection 可以同时是 false positive，但只贡献一个假发现。而本文 σ(R) 通过减法处理了这种重叠引起的惩罚。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在变量选择中，当需要测试的变量集合存在重叠（如空间/时间序列场景）时，如何在控制 FDR 的前提下提升检验功效。
核心工具/方法：将测试集合族 \( \mathcal{S} \) 构造为一个超图 \( (\mathcal{X}, \mathcal{S}) \)，用独立集计数定义 sizing function \( \sigma(R) = |\mathcal{X}| - \log_2 |\text{IS}(G_R)| \)，并证明它满足 GLSUP 定理需要的加性界（Lemma 1）。
主要结论：在任意依赖假设下（Corollary 1, 类似 BY 风格）和 PRDS 假设下（Corollary 2, 类似 BH 风格），给出了 GLSUP 的 cutoff \( \alpha_{HVS} \)，并证明 gFDR 被严格控制在水平 q 以下。模拟和 COVID-19 案例展示了在强相关/空间相关结构下的优势。

关键设定与假设¶

设定：\( \mathcal{S} \) = 所有大小 ≤ 2 的子集（即 \( m = \binom{p}{2} + p \)）。作者明确辩称更大的集合很少被选到且会稀释 cutoff，但方法原则上对任意超图都适用（第 7 节）。
假设 1（对 p 值的依赖）：用于每个集合的 p 值可通过 likelihood-ratio test 获得且保守（即均匀或超均匀）。
假设 2（PRDS 或不假设）：Corollary 1 对 p 值任意依赖结构成立，只用到 σ(R) 的加性界；Corollary 2 要求 p 值满足 PRDS 性质（Benjamini & Yekutieli, 2001a 定义）在真零假设集上。
加性界假设：σ(J) ≤ Σ_i∈J σ_i （Lemma 1）——这是本文最核心的技术贡献，后面所有 FDR 控制定理都基于它。
与已有文献的对比：比 SHRED（Organ et al., 2026）放宽了“集合必须不重叠”的约束；比 BH/BY 的假设要强的地方在于引入了 sizefunction 而不再是简单的加 count。

主要结果¶

Lemma 1（加性界）：是整个理论的基础。它证明对于任意超图 \( G=(\mathcal{X}, S) \) 及其独立集计数，有： - σ(S) ≤ Σ_{i∈S} σ_i，其中对大小为 k 的边，σ_i = k - log_2(2^k - 1)。 - 证明是归纳法：从 S 中移除一条边，利用独立集在边上的分区（包含全部 k 个端点 vs. 至少缺一个）得到不等式。 - 这是本文最精巧的技术步骤——因为 σ(R) 不是 S_i 加和，但被一个线性函数 bound 住。

Corollary 1 & 2（FDR 控制 cutoff）： - 任意依赖 (Corollary 1, \(\alpha_{HVS}\))：

\[\alpha_{HVS} = \frac{1}{q} \left[ p_0(1 + \log p) + \binom{p_0}{2} \frac{\log 4 - \log 3}{\log 2} \left( 1 + \log p - \log \frac{\log 4 - \log 3}{\log 2} \right) \right]\]

其中 \( p_0 \) 是真零变量数（unknown，但 take worst-case or use \( p \)）。推导自 Theorem 1（Organ et al., 2026），用到 Lemma 1。 - PRDS (Corollary 2, PRDS 版本)：更紧的 cutoff，由 Theorem 2 给出：

\[\alpha_{HVS}^{\text{PRDS}} = \frac{1}{q} \left[ p_0 + \binom{p_0}{2} \frac{\log 4 - \log 3}{\log 2} \right].\]

优点是关于 p 线性而不是 plog p，但依赖 PRDS 假设。

证明路线与技术技巧¶

整体路线（3-5 步）： 1. 定义 sizefunction：σ(R) 通过独立集计数定义，并说明对于单一变量退化为 |R|。 2. 证明加性界（Lemma 1）：关键步骤。采用归纳 + 边删除 + 独立集分区的几何论证。 3. 代入 GLSUP 框架：将本文的 σ 代入 Organ et al. (2026) 的 Theorem 1 & 2 的条件中去。 4. 计算每个 σ_i：对单点和 pair：σ_{singleton} = 1, σ_{pair} = (log 4 - log 3) / log 2 ≈ 0.415。 5. 求和计算 cutoff：按 I_N 的大小（p_0 个 loop + \(\binom{p_0}{2}\) 个 pair）求和，得到 \(\alpha_{HVS} / \alpha_{HVS}^{PRDS}\)。

关键跳跃点：Lemma 1 的证明是整个 paper 最“吃劲”的地方。难点卡在：σ(R) 是一个超图的整体拓扑性质（由 IS(G）决定），而我们需要它对 R 的每一个子集都被一个“坐标系”权重 bound。作者巧妙地利用独立集在其边上的分区，将问题分解为父超图 IS(G') 和子超图 IS(G) 之间大小的比例不等式：|IS(G)| ≥ (2^k - 1)/2^k · |IS(G')|。这个比例是通过“对独立集按与边 i 的交集划分为 2^k 类，且唯一失去的一类是全部包含该边端点的”这一观察得到的。这是一个漂亮的 combinatorial counting 论证。

技术技巧点名： - 独立集计数：已知是 #P-complete / NP-hard，但作者不追求精确解，而是用 backtracking 近似算法 (Knuth, 1975) 做重要性采样（Algorithm 1）。 - 嵌套超图的递推技巧（Algorithm 2）：为了避免对每个 cut-off 都重新采样独立的独立集序列，对嵌套递增的超图序列进行样本复用，并通过对老化样本施加衰减因子 \( \prod_{e_k \in E_i \setminus E_j} (1 - 2^{-|e_k|}) \) 并保持无偏。这是在计算效率上的一个针对本问题的实用技巧。 - 定点搜索 + isotonic regression（Algorithm 3）：为了只在大约的 cut-off 附近密集采样，采用等渗回归平滑粗粒度估计。

真实例子与应用¶

仿真模拟（Section 5）： - 数据场景：Gaussian、Logistic、Poisson 回归，四种相关结构（common component、clustered、AR(1)、空间 grid correlation），p=200-300，n=1000-5000。T=100 个真信号。 - 对比方法：BH、BY、SHRED（PRDS/任意），SHREDDER，mirror (DS/MDS)、knockoff、LASSO（无 FDR 控制）。 - 度量：gPower、gFDR、MSE / 分类准确率。 - 关键结果：在所有相关结构下，HVS-PRDS 的 gPower 高于 SHRED-PRDS 和其他 PRDS 方法。gFDR 均严格 < q。在空间相关下优势最显著——因为这种结构下的信号容易分布在重叠的变量组中，SHRED 只能选不重叠的 cluster，HVS 可以同时选相关的 pair 和单点。MSE 接近 LASSO（不控制 FDR 的 oracle 方法）。

真实数据案例（Section 6）： - 数据来源：WHO 全球 COVID-19 每日病例数（截至 2025/4/25），共 4527 个观测，来自 153 个国家。 - 设定：用前 39 天预测第 40 天（当前）。使用线性混合效应模型（随机截距为国家）。由于是非 GLM，knockoff/mirror/LASSO 无法使用。 - 结果：HVS-PRDS 的 MSE = 0.114（最小），而 BH/SHRED-PRDS 为 0.124，BY/SHRED 为 0.128。最关键：只有 HVS 能选出非单点的集合（pair），而 SHRED 在此场景下因为聚集不灵活只选单点——事实上 BH 和 SHRED 的结果一样。Figure 4(b) 展示的 HVS 选择的超图中，被选对形成了一张密集图，其顶点覆盖集合通过贪心算法得到 6 个日期作为最终变量——BH 只选了其中的一部分，错过了 22/25 等强势日。 - 说明：这个案例正是作者声称的优势所在——时间序列中重叠的相关性结构（相邻天的病例高度相关）被超图方法更精确地捕捉。

🔎 结论是否比证明窄¶

有一处需要特别留意：Corollary 1 和 2 都依赖于已知的 p_0（真零变量个数），而实际中 p_0 未知。作者在 cutoff 计算中默认 “我们有 p_0 = p （即所有变量都是噪声，最坏情况）”，但这个保守替换是否总是保证 gFDR ≤ q 完全没有问题地保持？ 由于定理使用的是 I_N 的 approach，在 Section 4 给出的 \(\alpha_{HVS}\) 中显式包含 p_0，而作者似乎没有提供替换成 p 后 FDR 如何保持的正式证明——不过对于 Theorem 1，由于权重 wi 中的 σ_i 对所有单点（无论真零还是真相）是一样的，取 p 代替 p_0 只会使 cutoff 变大，只可能造成 FDR inflation，所以严格来说，这个替换并不保守。这是一个窄于结论的潜在问题——作者在模拟中使用的是 p_0 = p，似乎默认了后果不显著，但在正式应用前需验证。

四、开放问题¶

集合大小 > 2 的扩展（扎根于 Section 7, “Extending the method to larger sets could be valuable…”）：作者指出当 k 增大时，σ_i = log_2(2^k / (2^k - 1)) 迅速衰减→0，导致 cutoff 膨胀，gPower 下降。要解决的问题：如何对 k ≥ 3 的边定义某种“非扁平衰减的权重”以更好地保留信息？
混合超边类型的 σ 可加性：Lemma 1 证明中用了“删除一条边”的归纳，但对混合大小（既有单点、pair、又有 triple）的超图，该引理是否仍保持最优？作者只证明了单个大小 k 的权重的和是上界，但这个界是否是最紧的（tight）？
近似算法的误差对 GLSUP 的影响（Section 3.3 的算法）：由于 σ(R) 是近似计算的（Algorithm 1/2/3），其误差会传到 GLSUP 的 cut-off 搜索。要解决的问题：能否量化 σ_hat 的误差，从而保证 gFDR 控制仍在高概率下保持？（目前作者只用了模拟横比的方法补证。）

Maintained by 陈星宇 · Homepage · Source on GitHub