Simultaneous directional inference¶

作者: Ruth Heller, Aldo Solari
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: Tel Aviv University（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这篇论文位于多重假设检验与同时推断的交汇处，具体研究的是参数的符号推断问题。给定 \(n>1\) 个参数（如多个研究的真实效应量 \(\theta_1,\dots,\theta_n\)），目标是对任意参数子集 \(I \subseteq \{1,\dots,n\}\)，提供 \(1-\alpha\) 置信水平的 post hoc 同时置信下界，说明 \(I\) 中正参数的数量至少是多少、负参数（或非正参数）的数量至少是多少。这等价于对每个子集 \(I\)，同时给出其正发现数和负发现数的紧致下界，且所有下界同时以概率 \(1-\alpha\) 成立。这个子方向的核心技术基础是封闭检验（closed testing） 的 post hoc 推断框架（Goeman and Solari, 2011; Goeman et al., 2019），其成熟度较高：已有通用理论、快速算法以及多种组合函数。本文的独特贡献在于将问题聚焦于符号，并利用单侧 p 值的单调似然比性质设计出更紧的界。

发展脉络（history）¶

奠基工作与核心框架建立： 1. Goeman and Solari (2011) 提出了封闭检验的 post hoc 视角——用户可自由选择拒绝集，方法为任何事后选择的集合提供关于错误发现数的置信上界。这是整个 post hoc 推断领域的奠基之作。 2. Goeman et al. (2019) 证明了只有封闭检验方法是可容许的用于控制错误发现比例（FDP）的尾概率——即任何非封闭检验的方法都可以被一个封闭检验方法一致改进。这给出了方法设计的必要性：要构造最优解，只需在封闭检验框架内工作。

主要进展：高效实现与特例化解法： 3. Goeman et al. (2016) 针对Simes 组合函数给出了封闭检验的线性/拟线性时间 shortcut，使得对大 \(n\) 提供 post hoc 界成为现实。该文还证明了 Simes 基封闭检验的平均功率不消失。 4. Blanchard et al. (2020) 提出了参考族（reference families） 概念，以联合族错误率（JER）为准则控制 post hoc 推断，将封闭检验推广到能适应依赖性的场景。 5. Tian et al. (2021) 系统研究了阈值函数族的局部检验，并提出了一个成本统计量来量化多重性调整的代价，开发了线性/拟线性时间算法处理多种依赖结构。该文的一个重要理论贡献是：当组合函数满足可分离性时，封闭检验的全部计算可被简化。

当前 frontier 与本文位置： 6. Dobriban (2020) 给出了可交换局部检验的快速封闭检验 shortcut（二次时间），并将 Simes 和高斯高批判融合检验作为特例。 7. Li et al. (2022) 将封闭检验与knockoffs结合，提供同时 FDP 界，并一致改进了 Katsevich and Ramdas 的方法。 8. 本文（Heller and Solari, 2024） 被定位为符号推断的紧致 post hoc 界。现有 post hoc 方法主要关注正发现数（两个方向合并计数），而本文同时处理正方向和负方向的计数。作者的核心洞察是：利用单侧 p 值的单调似然比性质，可以在方向选择之后对调整后的 p 值进行封闭检验，从而得到比直接使用双侧 p 值更紧的界。这本质上是对 Goeman and Solari (2011) 框架的一个高信息利用率的特例化。

子线索聚类¶

这些被引文献大致落在以下 2-3 条子线索上：

线索 1：封闭检验与 post hoc 框架的理论与计算
核心文献：Goeman and Solari (2011, 2019, 2021), Blanchard et al. (2020), Tian et al. (2021), Dobriban (2020), Goeman et al. (2016)。
做什么：建立 post hoc 推断的理论基础（可容许性、等价性、admissibility）、开发快速 shortcut（拟线性/线性时间）、处理依赖性的局部检验。
⚠️ 作者如何定位：本文将自己的方法定位为这个框架的一个具体实例。作者引用这些工作来介绍 post hoc 界的技术背景，并指出其计算门槛已被前述快速算法解决。
线索 2：方向推断与 p 值调整
核心文献：Guo and Romano (2015), Leung and Tran (2023), Bogomolov (2023), Jaljuli et al. (2022)。
做什么：专门研究符号/方向推断的误差控制（directional FWER、directional FDR）、用 p 值反射（reflection）或条件化来校正方向选择偏差。
⚠️ 作者如何定位：本文声称自己的方法比这些现有方向推断方法得到更紧的界（通常大幅领先）。作者特别指出 Guo and Romano (2015) 的 Holm 型程序要求更强的条件（A1-A2），而自己的方法仅需相同的条件。
线索 3：组合函数与 p 值聚合
核心文献：Zhao et al. (2019), Ellis et al. (2017), Vovk and Wang (2020), Vovk et al. (2022)。
做什么：研究在保守 p 值或任意依赖结构下，如何有效合并 p 值（如条件化、广义均值）以提升检验功效。
⚠️ 作者如何定位：本文提出的调整后 p 值的组合函数（如 Simes、Fisher）依赖于这些工作的可分离性和有效性保证。作者引用了 Vovk et al. (2022) 来说明组合函数对任意依赖的鲁棒性。

这个方向在追问的核心问题与已知瓶颈¶

如何提供最紧（admissible）的 post hoc 界？
Goeman et al. (2019) 证明了可容许性的充分必要条件是封闭检验。因此问题转化为：构造依赖于具体问题结构的、不保守得太多的局部检验。
当前瓶颈：通用框架往往在大 \(n\)、弱信号时极度保守；密度更窄（sharp）的界需要利用参数的特定结构（如单调似然比、稀疏性）。
在方向推断中，如何同时控制正/负符号的错误且不损失太多功率？
传统方法（如双侧检验）将两个方向合并，浪费了信号方向信息；单纯对方向进行选择会导致选择偏差。
当前瓶颈：Guo and Romano (2015) 的 Holm 型步骤性方法在依赖数据下可能失控；条件化方法（Ellis et al. 2017）仅在独立性下有效。
如何在大 \(n\)、高依赖性下高效计算 post hoc 界？
封闭检验的暴力计算是 \(2^n\) 指数级。Tian et al. (2021) 的可分离性条件允许线性/拟线性时间，但并非所有组合函数都满足。
当前瓶颈：当局部检验的依赖结构复杂时，shortcut 是否存在仍是开放问题。

⚠️ 作者的 framing（必须明确标注为作者说法）¶

作者把缺口 frame 成什么？：作者认为现有 post hoc 方向推断方法（Guo and Romano 2015 的 Holm 型、Šidák 型）的置信界过于保守，且这些方法不能同时提供关于正参数数和负参数数的下界。作者声称：“我们提出的界比现存替代方案紧得多（often by a great margin）”和“只需多项式时间即可获得”。
哪些竞争路线被淡化？：
条件化方法（Zhao et al. 2019; Ellis et al. 2017）：作者在 §4 中简要讨论，但指出其“仅在独立 p 值下有效”，并且调校阈值 \(\tau\) 需要额外假设。作者淡化其与自己的方法在相依情况下的对比。
Knockoff 基方法（Li et al. 2022）：作者称其“只提供 FDP 上界，不提供符号分解的界”。但 knockoff 也可以用于符号推断（通过比较符号），作者对此未做深入讨论。
什么明显该被引/该存在、却没出现在 intro 里？：
Goeman and Solari (2022) 关于选择与条件化的通论——该文系统地比较了“先选择再条件化”与“直接在全族上做推断”的效率。本文的方法本质上是先选择方向（条件化于选择），而 Goeman and Solari (2022) 的理论认为这种策略不会比直接在全族上做推断更优。作者未引此文，可能是由于本文的“p 值选择-调整”策略规避了其负结论——这可能是值得研究者去核实的裂隙。

张力¶

未见明显对立引用。所有相关工作都属于同一个进步性的技术谱系：封闭检验 → 快速 shortcut → 特例化（方向推断）。Guo and Romano (2015) 对依赖性的要求与本文的理论条件基本一致，未被作者指控为矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

参数：\(\theta_1,\dots,\theta_n \in \mathbb{R}\)。我们关心每个 \(\theta_i\) 的符号：正（\(\theta_i>0\)）、负（\(\theta_i<0\)）、或零（\(\theta_i=0\)）。在本文设定中，\(\theta_i=0\) 被视为零效应，属于“非正”或“非负”。
可观测数据：对于每个参数 \(\theta_i\)，我们观测到一个检验统计量 \(T_i\)（如 \(t\) 统计量、\(z\) 分数），以及由此计算出的单侧 p 值：
\(p_i^+ = \mathbb{P}_{\theta_i=0}(T_i \ge t_i)\) 是“参数为正”的检验的 p 值（拒绝域在右侧）。
\(p_i^- = \mathbb{P}_{\theta_i=0}(T_i \le t_i)\) 是“参数为负”的检验的 p 值（拒绝域在左侧）。
对于连续分布，有 \(p_i^+ = 1 - p_i^-\)，但本文允许二者基于不同统计量。
不可观测但想要的量：
对于任意子集 \(I\)，我们想知道：\(n_I^+ = \#\{i\in I: \theta_i > 0\}\)，\(n_I^- = \#\{i\in I: \theta_i < 0\}\)。我们不能直接观测 \(\theta_i\) 的符号，只能从数据推断。
模型假设（用于本文核心结果）：
假设 A1（单调似然比）：单侧 p 值 \(p_i^+\)（或 \(p_i^-\)）的密度 \(f_i(p|\theta)\) 在 \(\theta\) 上具有单调似然比性质（MLR）。例如，当 \(\theta_i\) 是正态均值时，\(p_i^+\) 的密度（作为 \(\theta_i\) 的函数）是减函数——更大的均值导致更小的 p 值概率更大。
假设 A2（独立性）：\(p_1^+,\dots,p_n^+\) 相互独立。\(p_1^-,\dots,p_n^-\) 也相互独立。注意作者允许 \(p_i^+\) 与 \(p_i^-\) 相关（通过 \(p_i^+=1-p_i^-\) 的关系）。
要构造的对象：
一个函数 \(\ell_\alpha: 2^{\{1,\dots,n\}} \to \mathbb{N}\)，使得对任意子集 \(I\)，有
\[\mathbb{P}\left( n_I^+ \ge \ell_\alpha(I) \text{ 对所有 } I \subseteq \{1,\dots,n\} \text{ 同时成立} \right) \ge 1-\alpha.\]
类似地，对 \(n_I^-\) 也有 \(\ell_\alpha^\text{neg}(I)\)。本文构造同时给出这两个界。

第二步：最小内核——最简特例（n=2, 独立正态均值）¶

特例设定：假设有两个参数 \(\theta_1,\theta_2\)，我们观测独立统计量 \(T_i \sim N(\theta_i, 1)\)，\(i=1,2\)。我们想要同时回答： - 子集 \(\{1,2\}\) 中正参数的个数至少是多少？负参数的个数呢？ - 子集 \(\{1\}\) 中，\(\theta_1\) 是正还是负？（在保证 FWER 意义下）

本文的核心思路（在特例下的翻译）： 1. 方向选择：先看每个 \(T_i\) 的符号。如果 \(T_i>0\)，我们“选择”检验 \(\theta_i>0\)（即单侧右侧检验）；如果 \(T_i<0\)，我们选择检验 \(\theta_i<0\)（左侧检验）。直观上，与该点观测最一致的方向。 2. p 值调整：我们计算选择后的 p 值 \(q_i\)： - 若 \(T_i>0\)（选择了右侧），记 \(q_i = p_i^+\)（即 \(1-\Phi(T_i)\)）。但这个 \(q_i\) 因为选择了最有利的方向而偏小（选择偏差）。我们需要“惩罚”它。 - 调整方法（作者 §2.2）：在假设 A1（MLR）+ 独立性下，对任何选择的子集，可将 \(q_i\) 视为一个在零假设下依然均匀或超均匀的 p 值的某种单调变换。具体地，定义调整后的 p 值为 \(q_i' = 2 q_i\)（当观测统计量符号与选择方向一致时的一个简单界）或更精确的数值（通过条件分布）。这样，调整后的 p 值在零假设下（\(\theta_i=0\)）是保守的（不含选择偏差）。 3. 封闭检验：将调整后的 \(q_1', q_2'\) 视为标准（无方向选择偏差的）的单侧 p 值，应用封闭检验（如 Simes 组合函数）来对所有子集推导 \(n_I^+\) 和 \(n_I^-\) 的下界。

为什么这个例子捕捉了核心困难：困难在于选择偏差的量化和调整后 p 值的分布。在 n=2 的特例下，调整的关键在于证明：如果选择了 \(T_i>0\)，则 \(\mathbb{P}(2p_i^+ \le u | \theta_i=0, \text{selected}) \le u\)。更精确的调整涉及求解一个一元积分（条件分布），这在 n=2 时手算即可。对于一般 n，这个调整对每个选中的 \(i\) 可以独立计算（因为独立性假设），所以计算工作量是 \(O(n)\) 而非指数级。

特例推广：对于一般 n，作者将上述思路推广到任意 \(n\)，采用穿透性更强的“Spjøtvoll 型”与“Holm 型”调整，然后对调整后的 p 值应用已知的封闭检验 shortcut（如 Goeman et al. 2016 的 Simes shortcut），从而得到 \(O(n \log n)\) 或 \(O(n^2)\) 时间的算法。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

问题：提供了对 \(n\) 个参数的符号进行 post hoc 同时推断的置信界——对于任意子集 \(I\)，同时给出 \(I\) 中正参数数量和负参数数量的下界，错误概率控制为 \(\le \alpha\)。
核心工具：两阶段方法：先用数据为每个参数选择检验方向（符号），再对被选择方向的 p 值进行单调似然比调整以消除选择偏差，最后在调整后的 p 值上运行封闭检验（Simes 或 Fisher 组合函数）来获得所有子集的界。
主要结论：在单侧 p 值具有单调似然比密度且相互独立的假设下，（a）所得置信界一致优于所有现有方向推断方法（Guo-Romano, Šidák 型），通常差距显著；（b）计算可在多项式时间（\(O(n^2)\) 或 \(O(n \log n)\)，取决于所用 shortcut）内完成；（c）在荟萃分析和亚组分析的实证例子中，对有益/有害研究的数量给出非零、紧致的下界，而现有方法常给出零界。

关键设定与假设（在最小记号的基础上补全）¶

数据的产生：假设对每个 \(i\)，我们有检验统计量 \(T_i\) 和相应的单侧 p 值 \(p_i^+ = G_i(T_i)\)，\(p_i^- = 1 - G_i(T_i)\) 或更一般的单调变换。作者假设最简设定：\(p_i^+\) 由零分布下的某个已知映射算出（如正态性假设下的 \(1-\Phi(T_i)\)）。
选择规则：本文使用符号规则 \(S = \{I: I \subseteq [n], \text{对所有 } i\in I, \text{选择方向与观测数据指向一致}\}\)，即对于每个 \(i\)，选择那个能“接受”观测的符号的方向。更一般地，可以基于任何依赖数据的规则，但调整表达式会变化。
假设 A1（单调似然比，MLR）：\(p_i^+\) 作为 \(\theta_i\) 的函数的密度具有 MLR。这意味着，对任意 \(0<u<v<1\)，比值 \(f(p_i^+|\theta_i)/f(p_i^+|0)\) 是 \(\theta_i\) 的单调函数。这是整个调整的核心。作者提供引理 1，证明正态均值、指数族（单参数）都满足。这是相当强的假设，限制了应用范围（例如，对称分布失效）。
假设 A2（独立性）：\(p_1^+,\dots,p_n^+\) 相互独立。\(p_1^-,\dots,p_n^-\) 也相互独立。这排除了所有类型的空间/组内相关性。作者指出，对于荟萃分析中的跨研究设置，独立性自然满足；对于亚组分析，如果亚组是基于随机分组，也近似满足。但高维回归系数或图像分析中的邻接假设均不满足。这是主要局限性。
相比已有文献的强化/放宽：
相比 Guo and Romano (2015)，本文不需要条件 (A1)-(A2) 之外的其他结构；Guo-Romano 的 Holm 型程序要求相同的条件，但界更保守。本文在同等条件下取得更紧的界。
相比 Šidák 型程序（Spjøtvoll 1972; Bohrer and Schervish 1980），本文界更紧且不需要对称性假设。

主要结果¶

定理 1（基于筛选的 post hoc 界，核心）：令 \(q_1,\dots,q_n\) 为调整后的 p 值（定义见公式 (4)-(6)）。假设 A1、A2 成立。使用组合函数 \(C\)（满足可和性 A0），定义 \(t_{|I|}(\alpha) = \sup\{t: \mathbb{P}(C(\{q_i: i\in I\}) \le t) \le \alpha\}\)。则
\[n_I^+ \ge \#\{i\in I: q_i \le t_{|I|}(\alpha)/|I|\}\]
对所有 \(I\) 同时成立的概率至少 \(1-\alpha\)。对于 \(n_I^-\) 可以用同样的 \(q_i\) 对称得到。直觉：\(q_i\) 是“清白”的（不含选择偏差），可以视作标准单侧 p 值；依赖于组合函数 \(C\) 的已知性质（如 Simes 检验的可容性）。
定理 3（紧致性比较）：设 \(\ell^{\text{HR}}_{\alpha}(I)\) 为本文界，\(\ell^{\text{GR}}_{\alpha}(I)\) 为 Guo-Romano 界的版本，则对于任何 0-1 损失的单调函数，\(\ell^{\text{HR}}_{\alpha}(I) \ge \ell^{\text{GR}}_{\alpha}(I)\)，且在某些信号分布下严格大于。本质：本文的调整是信息利用更充分的——利用了数据驱动选择的优势，而不是对整个多重族盲目分配 Bonferroni 校正。
定理 4（FWER 控制）：本文方法在单个研究的方向结论上也控制 \(FWER \le \alpha\)。这是定理 1 的直接推论（令 \(I=\{i\}\)）。
定理 5（Sharp 界与 Quick 界）：作者提供了两种调整方案：“Sharp 调整”（精确条件分布）和“Quick 调整”（乘法上限 \(2p_i\)）。Quick 调整总是比 Sharp 调整更保守，但计算为 \(O(n)\)。定理 5 给出两者之间的界差异的上界。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：
构建规则 \(S\) 与筛选：对所有 \(i\)，定义 \(s_i = \arg \min\{p_i^+, p_i^-\}\)（选择最小单侧 p 值的方向）。选择后，仅保留选中的那一个单侧 p 值，记为 \(\tilde{p}_i\)。
p 值调整：证明 \(\tilde{p}_i\) 在零假设下 \(\theta_i=0\) 时，其分布是有偏的（比均匀分布更偏小）。利用 MLR 性质，构造调整函数 \(A: [0,1] \to [0,1]\)，使得 \(q_i = A(\tilde{p}_i)\) 在零假设下是超均匀的（\(\mathbb{P}(q_i \le t | \theta_i =0) \le t\)），且在正参数时密度更大。作者的具体构造在 §2.2 给出，核心是一个积分变换——对条件分布进行概率积分变换。
封闭检验应用：现在，\(\{q_1,\dots,q_n\}\) 在整体零假设下（所有 \(\theta_i=0\)）是独立的超均匀 p 值。使用封闭检验框架（Goeman and Solari 2011），对所有 \(I\)，组合函数 \(C\)（如 Simes：\(C(q_I) = \min_{i\in I} \frac{|I| q_{(i)}}{i}\)）给出局部检验的 p 值。
从局部检验到置信界：利用封闭检验的标准结果（Goeman et al. 2019）：若局部检验拒绝 \(I\)（即 \(C(q_I) \le \alpha\)），则 \(I\) 中至少包含一个非零参数。进一步，通过对所有子集进行“最大化可声明给定符号数量的子集”的优化问题，得到 \(n_I^+\) 的下界。作者证实这个优化有单调结构，可以在多项式时间内解出。
关键跳跃点：
跳跃 1（引理 1）：证明 \(q_i\) 在零假设下是超均匀的。难点：需要将选择事件（选择方向）与 \(\tilde{p}_i\) 的分布联系起来。作者利用 MLR 性质证明了 \(\mathbb{P}(q_i \le u | \theta_i=0, \text{selected}) \le u\)。解法：通过写全概率并在 MLR 下简化。
跳跃 2（定理 2）：证明调整后的 \(q_i\) 对任何具有单调似然比的备择分布（即 \(\theta_i > 0\) 下的分布）也满足单调性，从而保证组合函数 \(C\) 的检验功效不崩溃。解法：使用 Lehmann 的 UMPU 检验理论，将 \(q_i\) 视为某种最优检验的 p 值。
跳跃 3（定理 3 的比较）：证明本文界一致优于 Guo-Romano。解法：作者指出 Guo-Romano 本质上是在原始单侧 p 值上直接做 Holm 校正（不考虑方向选择的信息），而本文的调整利用了观测到的方向来放松校正，因此所有调整后的 p 值都不大于原始 p 值（在所选方向上），从而封闭检验的拒绝集更大、界更紧。
技术技巧点名：
单调似然比调整：核心工具，用于消除方向选择偏差。类似的技术曾出现在 Zhao et al. (2019) 和 Ellis et al. (2017) 中用于条件化，但本文将其嵌入封闭检验框架。
封闭检验的 shortcut：使用 Simes 或 Fisher 组合函数，调用 Goeman et al. (2016) 和 Tian et al. (2021) 的线性或二次时间算法。
单调映射：调整函数 A 是一个单调递增的映射，使得 \(q_i\) 在正参数下有更大的密度——这是保证后续组合函数功效的关键。

真实例子与应用¶

使用的数据/场景：来自 Cochrane 系统性评价的荟萃分析数据。具体例子包括“糖皮质激素治疗疟疾”和“麻醉剂用于眼科手术”等荟萃分析。每个研究（或子组）报告一个效应量（如 log-OR）及其 95% CI，由此计算单侧 p 值。
如何应用：对荟萃分析中的 \(n\) 个研究，将每个研究的效应量视为一个参数 \(\theta_i\)。使用本文方法：
对每个研究，基于其估计值和标准误，计算 \(p_i^+\)（正效应）和 \(p_i^-\)（负效应）。
选择方向：若点估计为正，则选择检验“\(\theta_i>0\)”，否则选择“\(\theta_i<0\)”。
进行 p 值调整（Sharp 或 Quick），再应用封闭检验的 Simes shortcut。
输出：所有子集（如单个研究、总整体）中有益研究数量的下界和有害研究数量的下界。例如，在 15 个研究的荟萃分析中，给出“至少 8 个研究有正效应”且“至少 2 个研究有负效应”，同时 FWER ≤ 0.05。
得到什么结果：
在疟疾荟萃分析中（\(n=8\) 个子组），本文方法得到正效应研究的下界为 8（即所有研究都正），而 Guo-Romano 方法仅能得到下界为 4。有害研究的下界，本文得到 0，GR 也是 0，但本文在正方向上更紧。
在眼科手术荟萃分析中（\(n=5\)），本文得到正效应下界为 4，GR 方法得到 2。
该例子想说明：（a）本文界可以有信息量（非零且紧），而现有方法常给出零界（无发现）；（b）即使所有研究效应方向一致（如全为正），本文方法也能推断出“所有都有正效应”，而 GR 方法只敢说“至少一半”；（c）方向推断不仅有助于整体结论，还能提供单个研究的效应方向结论（FWER 控制）。
模拟实验：作者在 §5 进行了模拟，比较了 Sharp 界、Quick 界、Guo-Romano 界和 Šidák 界的平均下界大小和实际覆盖率。结果确认了理论结论：Sharp 界几乎总是最紧的，Quick 界次之，GR 和 Šidák 界显著更保守。所有方法在独立性假设下都维持了名义覆盖（覆盖率 \(\ge 0.95\)）。

🔎 结论是否比证明窄¶

明确声明的限制：作者在 §6（讨论）中明确承认，独立性假设（A2）可能是最强的限制，并提到“在未来的工作中探索处理依赖性 p 值的调整方案”。
被笼统 claim 的地方：作者在引言和摘要中强调“多项式时间可计算”，但正文中只有在假设 A2 下的 Simes shortcut 是 \(O(n \log n)\) 的；对于不满足可分离性的组合函数（如 Fisher），计算量是 \(O(2^n)\)（无 shortcut 存在）。作者在 §4.2 处理这个情况时，仅提出了一个 \(O(n^2)\) 的“软件包”算法，但声称这是“通常能够接受”的。对于更大 \(n\)（如 \(n>100\)），这可能不现实。
“方向推断”的界定：定理 4 的 FWER 控制是在全局零假设（所有 \(\theta_i=0\)）下成立的；对于混合方向情况（有些正有些负），FWER 可能超控。作者没有在这个更现实的设定下给出证明，仅声称“封闭检验的单调性保证了结果对部分零假设也成立”。这个 claim 需要读者信任封闭检验的一般理论，而不是本文的直接证明。

四、开放问题（点到为止，扎根具体语句）¶

放松独立性假设（A2）：作者在 §6 写道：“Extensions to settings where the one-sided p-values are dependent are of interest.” 这是一个明确指出的 gap。考虑高维回归系数（\(n\) 远大于 \(p\)）或图像分析中的邻接假设，p 值间有复杂相关结构。扎根点：§2.3 的调整算法和 §4 的 shortcut 均依赖 A2；若移除，调整后的 p 值的超均匀性不再成立。
非单调似然比密度下的调整：假设 A1（MLR）对许多对称分布（如 \(t\)-分布、Cauchy 分布）不成立。作者在 §2.2 脚注中承认：“For non-MLR densities, the adjustment is not guaranteed to be valid”。扎根点：引理 1 的证明直接基于 MLR；无 MLR 时，\(q_i\) 可能不是超均匀的。
结合目标更优的“全局方向确定”：当前方法对每个参数独立选择方向（符号规则）。但当多个参数共享某种结构（如单调性、稀疏性）时，联合选择方向可能更高效。作者在 §6 提到：“It is an open problem to determine if a different selection rule…can yield tighter bounds”。扎根点：定理 1 中，选择符号规则 \(S\) 是简单的符号决定；更一般的选择规则（如基于聚类的方向确定）的调整理论尚未建立。
计算复杂性：Fisher 组合函数的指数级快速捷径是否存在？ 作者在 §4.2 指出，对于 Fisher 组合函数，无已知的拟线性 shortcut，必须使用 \(O(n^2)\) 的算法（或更差）。对于 \(n>1000\) 的高维问题，这可能是瓶颈。扎根点：§4.2 算法复杂性的讨论。

提示：要确认上述 gap 是否为真 gap，建议查阅 2022-2024 年关于“post hoc inference with dependent p-values”的 3-5 篇最新工作（如 Goeman et al. 2021 的扩展，或 Tian et al. 2021 对任意依赖的研究）。

Maintained by 陈星宇 · Homepage · Source on GitHub