Permutation-based multiple testing when fitting many generalized linear models¶

作者: Riccardo De Santis, Jelle J. Goeman, Samuel Davenport, Jesse Hemerik, Livio Finos
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

高维数据中常需对大量响应变量（例如数千个基因表达值或脑影像体素）分别拟合广义线性模型（GLM），每个模型共享一组协变量，但各响应有自己的分布与方差结构。此时多重假设检验的核心挑战是：在控制族系错误率（FWER）的同时，对模型误设（尤其是方差异质性/过离散）具有鲁棒性，并能自适应响应间的未知相关结构以避免保守。当前该子方向处于“从单变量鲁棒检验向多变量并行检验集成”的过渡期，已有成熟的置换框架（Westfall–Young）和独立的符号翻转检验（flip-score），但二者的结合仍存在缺口。

发展脉络（history）¶

奠基工作：多重检验的经典控制方法（Bonferroni–Holm）对任意相关结构保守；Westfall & Young (1993) 提出最大检验统计量（maxT）的置换方法，通过保持数据相关结构获得更精确的FWER控制，但其理论基础（子集 pivotality）在非正态或方差误设下受质疑 [Westfall & Troendle, 2008; Meinshausen et al., 2011]。
主要进展（单变量鲁棒检验）：Hemerik et al. (2019, 2020) 提出单变量符号翻转得分检验（flip-score test），它只要求均值模型正确，对过离散、异方差等方差误设具有渐近正确的第一类错误率，且可处理高维参数。De Santis et al. (2022) 将该检验扩展到同时检验多个系数，并通过模拟和RNA-seq数据展示其小样本优势。这些工作解决了单个GLM的鲁棒推断，但未涉足多重检验。
多重检验的置换框架：Goeman & Solari (2010, 2011) 建立封闭检验理论与后验置信界（TDP），Vesely et al. (2021) 将其与置换求和检验结合用于高维数据。Winkler et al. (2014) 系统综述了GLM的置换推断方法，强调交换性与对称性假设。这些框架在正确假定下控制FWER，但对错误指定的方差敏感。
当前frontier + 本文位置：并行拟合大量GLM时，每个模型的方差可能不同且难以验证，现有置换方法或参数方法可能因方差误设而失效。本文直接将单变量鲁棒的flip-score检验嵌入置换多重检验程序，同时解决两个缺口：方差鲁棒性与多重检验的自适应相关结构。作者引用Hemerik et al. (2020)、De Santis et al. (2022)作为核心基石，将多变量翻转分数统计量与maxT原理结合，构成“多变量标准化翻转分数检验”。这一位置属于“整合已有组件解决新设定下的综合问题”类型，而非提出全新的基础检验。

子线索聚类¶

经典多重检验与置换方法（Bonferroni–Holm, Westfall–Young, Goeman–Solari）：侧重控制FWER/FDP，但依赖正确模型假设或交换性条件。代表：Westfall & Young (1993) [被引10,11]，Goeman & Solari (2010, 2011) [被引6,8]，Meinshausen et al. (2011) [被引11]。
符号翻转检验（flip-score）：鲁棒于方差误设，限于单变量或同一模型内的多个系数。代表：Hemerik et al. (2020) [被引1]，De Santis et al. (2022) [被引2]。这是本文方法的技术基础。
并行GLM的多重检验：直接针对高维多响应场景，关注相关结构。已有方法包括Schaarschmidt et al. (2021) [被引14]（多重边际模型的t-校正），Davenport et al. (2022) [被引17]（bootstrap控制FDP），以及大量用于转录组/脑影像的经验方法（Love et al., 2014; Winkler et al., 2014）。本文的方法属于这一线索，但以置换+符号翻转的方式鲁棒于方差误设，这是与基于正态近似或bootstrap的现有方法的关键区别。
置换基础上界TDP（Goeman & Solari分支，Vesely et al., 2021 [被引13]; Blain et al., 2022 [被引15]; Andreella et al., 2020 [被引16]）：提供后验TDP下界，与本文的组合在概念上兼容（本文控制FWER，但其封闭测试框架可扩展至TDP）。

核心问题与瓶颈¶

Q1：如何在方差可能误设（过离散、异方差）下，对并行GLM做精确的多重假设检验？→ 现有参数方法当方差误设时第一类错误膨胀；置换方法需交换性，而方差误设可能破坏该性质。
Q2：如何利用响应变量间的相关性来提高检验功效，而不依赖对相关结构的显式估计？→ Bonferroni等无视相关则保守；maxT置换自然适应相关，但需要正确的检验统计量分布假设。flip-score在单变量下对相关结构有一定适应性（通过联合置换），但多变量情形未研究。
Q3：如何将单变量鲁棒检验的渐近性质扩展到多重检验的有限样本性质？→ 置换方法的精确性（有限样本）与渐近有效性的结合。

⚠️ 作者的framing（明确标注为作者说法）¶

作者将缺口框架为：“现有flip-score测试只适用于单一GLM或单变量检验，而大量应用场景需要同时对多个GLM做多重检验，且方差误设普遍存在。本文通过多变量标准化翻转分数检验，将flip-score与置换多重检验结合，弥补这一缺口。” 作者淡化（或回避）的竞争路线包括： - 对每个模型单独使用参数检验然后做Bonferroni校正——作者认为过于保守（引用Gao et al., 2010, Goeman & Solari, 2014, Saffari et al., 2018说明其在相关下保守）。 - 使用bootstrap方法（如Davenport et al., 2022）控制FDP——需要一致估计方差结构，而本文的置换方法不要求。 - 使用限制性最大似然（REML）或sandwich方差估计——作者未在摘要和引用中提及，可能认为其在小样本下不稳健。

可能存在的缺口（值得查证）：论文未引用近期（2021–2023）关于置换检验在非线性模型（如GLM）中交换性假设是否成立的严格理论（如非对称误差下的置换有效性）。此外，对于响应变量间存在复杂依赖（如空间相关）时，置换的保持性是否退化——这一话题在脑影像文献中常见（Winkler et al., 2014, Blain et al., 2022），但本文intro可能未详细展开。

张力¶

未见明显的被引工作间矛盾；Hemerik et al. (2019, 2020) 与Westfall–Young方法之间的差异是互补（鲁棒性 vs 置换效率），而非冲突。被引间的共识是：置换方法具有精确控制潜力，但需正确设定检验统计量；flip-score在方差误设下提供了更好的检验统计量。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（按论文惯例设定，参考flip-score文献）： - \( n \)：样本量（独立观测）。 - \( m \)：并行拟合的GLM数量（即响应变量个数，如基因数）。 - \( \mathbf{X}_i \in \mathbb{R}^p \)：第 \( i \) 个观测的协变量向量（公共的，对所有模型相同）。 - \( Y_{ij} \in \mathbb{R} \)：第 \( i \) 个观测的第 \( j \) 个响应变量（\( j=1,\dots,m \)）。 - 假设每个响应变量服从一个GLM：\( \mathbb{E}[Y_{ij} \mid \mathbf{X}_i] = \mu_{ij} = g_j^{-1}(\mathbf{X}_i^{\scriptscriptstyle\top} \boldsymbol{\beta}_j) \)，其中 \( g_j \) 是已知链接函数。 - \( \boldsymbol{\beta}_j \in \mathbb{R}^p \)：第 \( j \) 个GLM的回归系数向量。 - 我们关注对每个 \( j \) 的同一坐标 \( \beta_{j,k} \) 的检验（不失一般性，取 \( k=1 \)，如treatment effect），即零假设 \( H_{0j}: \beta_{j,1} = 0 \)。 - 实际可观测数据：\( (\mathbf{X}_i, Y_{i1}, \dots, Y_{im}) \)，\( i=1,\dots,n \)。 - 潜在/不可观测：真实的方差结构 \( \text{Var}(Y_{ij} \mid \mathbf{X}_i) \) ——作者假设可以不同于GLM的规范方差函数（方差误设）。没有潜在因果量，但score函数需要知道残差 \( Y_{ij} - \mu_{ij} \) 的分布，其对称性假设是核心。

模型假设（精简后）： - (A1) 均值模型正确：\( \mathbb{E}[Y_{ij} \mid \mathbf{X}_i] = g_j^{-1}(\mathbf{X}_i^{\scriptscriptstyle\top} \boldsymbol{\beta}_j) \)。 - (A2) 方差结构任意，但满足：存在某种“工作权重”，使得标准化后的score贡献在零假设下具有关于符号翻转的不变联合分布（详见下节）。 - (A3) 样本独立同分布（或更弱的交换性条件）。 - (A4) 对于每个模型 \( j \)，\( \boldsymbol{\beta}_j \) 由其得分方程一致估计（flip-score框架不要求完全正确似然，只需估计函数）。

可观测数据结构：\( (n \times (p+m)) \) 矩阵：前 \( p \) 列是协变量，后 \( m \) 列是响应变量。研究者对每个 \( j=1,\dots,m \) 独立拟合一个GLM，得到 \( \hat{\boldsymbol{\beta}}_j \) 和对应的score贡献向量。需要检验的假设为 \( m \) 个。

第二步：最小内核——线性回归、两个模型、一个系数¶

剥去所有一般性设定，考虑 最简特例： - 每个GLM退化为线性回归：\( Y_{ij} = \mathbf{X}_i^{\scriptscriptstyle\top} \boldsymbol{\beta}_j + \varepsilon_{ij} \)，且 \( \varepsilon_{ij} \) 的分布关于0对称（即误差分布对称，但方差可以随 \( j \) 和 \( i \) 变化）。 - \( p=1 \)：只有一个协变量（例如处理指示），检验斜率 \( \beta_j = 0 \)。 - 只有两个响应变量（\( m=2 \)），可相关 \( \text{Cor}(\varepsilon_{i1}, \varepsilon_{i2}) = \rho \neq 0 \)。 - 样本量 \( n \) 任意（有限）。

在这种情况下，对每个模型单独检验：经典 \( t \)-检验或score检验，若两响应相关且方差不同，Bonferroni校正（\( \alpha/2 \)）保守。Westfall–Young maxT：计算两个模型的 \( t \)-统计量，取最大值，其置换分布（置换残差后重估）能自动捕捉相关性，但要求误差可交换（即方差齐性）。当方差不等时（如 \( \varepsilon_{i1} \) 方差是 \( \varepsilon_{i2} \) 的2倍），线性回归的残差不具可交换性，maxT的置换p值不再精确。

flip-score的版本（以最小内核为例）： 1. 对每个模型 \( j \)，拟合均值，得到残差 \( r_{ij} = Y_{ij} - \hat{\beta}_j X_i \)。（在零假设 \( \beta_j=0 \) 下，若X已中心化，\( \hat{\beta}_j \) 可为零或先估未置零的版本，细节不同。） 2. 定义 单个观测的得分贡献：\( s_{ij} = X_i \cdot r_{ij} / \hat{\sigma}_j \)，其中 \( \hat{\sigma}_j \) 是残差标准差的估计（用于标准化）。更简洁的形式：标准化得分 \( t_{ij} = X_i \cdot r_{ij} / \sqrt{\sum_i X_i^2 r_{ij}^2 / (n-1)} \) （但flip-score文献往往用 \( W_i = \text{sgn}(...) \) 方式；为简化，我们直接考虑置换）。 3. 模型 \( j \) 的检验统计量：\( T_j = \frac{1}{\sqrt{n}} \sum_i t_{ij} \)（即标准化得分和），其符号翻转版本：对每个 \( i \) 独立随机取 \( \epsilon_i \in \{\pm1\} \)，计算 \( T_j^{(\text{flip})} = \frac{1}{\sqrt{n}} \sum_i \epsilon_i t_{ij} \)。 4. 在零假设下，若 \( t_{ij} \) 的分布关于0对称（由残差对称性保证），则 \( T_j \) 与 \( T_j^{(\text{flip})} \) 同分布（对固定的 \( t_{ij} \) 条件于 \( \epsilon \) 符号翻转后，\( \sum \epsilon_i t_{ij} \) 与不变号分布相同）。因此，通过生成大量随机符号向量，可获得 \( T_j \) 的置换p值。关键：这里没有假设残差独立同分布，只要求符号翻转下得分和的分布对称，这对方差不等但仍然对称的噪声成立。 5. 多重检验：定义多变量标准化翻转分数统计量 \( M = \max_{j=1,2} |T_j| \)。对每个随机符号向量 \( \epsilon \in \{\pm1\}^n \)，计算 \( M^{(\epsilon)} = \max_j |\sum_i \epsilon_i t_{ij}|/\sqrt{n} \)。将观察到的 \( M \) 与这些 \( M^{(\epsilon)} \) 比较，得到p值；若该p值小于 \( \alpha \)，则拒绝所有（两个）零假设——这是single-step maxT。

这个最简例子直观说明： - variance misspecification：即使两模型误差方差相差很大，只要对称，得分和的分布仍可通过符号翻转精确构造（无需归一化方差为1）。与Westfall–Young基于残差交换的版本不同，flip-score版本的置换不要求误差方差相等。 - 相关性自适应：当两响应正相关时，\( T_1 \) 和 \( T_2 \) 往往同号，maxT的置换分布会偏移，拒绝阈值比Bonferroni更低（即功效更高）。如果两响应独立，maxT与Bonferroni接近。 - 这就是整篇论文的最小内核：对于并行GLM的一般情况（非线性链接、多个协变量、高维 \( m \)），核心思路和数学困难（在方差误设下保持置换有效性）与上述线性回归两响应特例完全本质一致。论文的一般设定只是为这个内核加上：由工作得分函数（score contribution）代替线性残差，多变量标准化处理以消除链接和方差的影响，以及更完善的理论证明（渐近性、小样本保守性等）。

三、这篇论文做了什么¶

三句话¶

研究问题：提出一种置换多重检验方法，用于同时拟合大量广义线性模型（GLM）时控制FWER，尤其对每个GLM中可能错误指定的方差具有鲁棒性。
核心工具：多变量标准化翻转分数检验（Multivariate standardized flip-scores test），将 Hmerik et al. (2020) 的单变量flip-score检验与Westfall–Young风格的置换多重检验（maxT）结合，通过随机符号翻转生成检验统计量的联合零分布。
主要结论：该方法在均值模型正确、方差任意（但对称）的条件下渐近正确控制FWER；当响应变量相关时，其检验功效优于依赖独立近似的传统方法（如Bonferroni–Holm）；模拟和真实数据验证了有限样本性能。

关键设定与假设（补全至完整）¶

在第二节最小记号基础上补充： - 模型：\( m \) 个GLM共享协变量 \( \mathbf{X} \in \mathbb{R}^p \)，但各模型可有不同链接函数 \( g_j \) 和不同线性预测器 \( \mathbf{X}^{\scriptscriptstyle\top}\boldsymbol{\beta}_j \)。关注每个模型中的一个特定分量（如treatment effect），不失一般性设为第一个协变量的系数 \( \beta_{j1} \)。 - 得分贡献（score contribution）：对于模型 \( j \)，观测 \( i \) 的得分向量为 \( S_{ij}(\boldsymbol{\beta}_j) = \frac{\partial \ell_j(\boldsymbol{\beta}_j; Y_{ij}, \mathbf{X}_i)}{\partial \boldsymbol{\beta}_j} \)，其中 \( \ell_j \) 是模型 \( j \) 的似然函数或拟似然函数。设 \( \boldsymbol{\beta}_j \) 是在全模型下的一致估计（如MLE），则得分贡献在 \( \boldsymbol{\beta}_j = \boldsymbol{\beta}_j^{\text{true}} \) 处均值为0。本文使用 标准化翻转得分（standardized flip score）：\( U_{ij} = \{S_{ij}(\hat{\boldsymbol{\beta}}_j)\}_{k} / \sqrt{\widehat{\text{Var}}(S_{ij,k})} \)，即只取关注参数的得分分量并标准化（细节见De Santis et al., 2022）。 - 符号翻转操作：对每个观测 \( i \) 独立抽取符号 \( \epsilon_i \in \{\pm1\} \)（概率各1/2），构造翻转得分和 \( T_j^* = \frac{1}{\sqrt{n}}\sum_{i} \epsilon_i U_{ij} \)。 - 核心假设（作者称为对称性假设）：在零假设 \( H_{0j} \) 下，向量 \( (U_{i1}, \dots, U_{im})_{i=1}^n \) 的联合分布在符号翻转下不变。即对于任意符号向量 \( (\epsilon_1,\dots,\epsilon_n) \)，\( (U_{i1}, \dots, U_{im}) \) 与 \( (\epsilon_i U_{i1}, \dots, \epsilon_i U_{im}) \) 同分布。这比传统置换要求的交换性更弱（只要求对称，不要求同分布）。 - 相对已有工作的变化：相比Winkler et al. (2014) 的一般线性模型置换，本文不要求误差可交换，只要求对称（由得分贡献的对称性保证）。相比Hemerik et al. (2020)，本文扩展至多个模型同时检验，并整合多重检验程序。

主要结果¶

定理1（单变量检验的有效性，引理/已知结果）：引用Hemerik et al. (2020) 定理2和De Santis et al. (2022) 定理2，指出对于单模型 \( j \)，基于翻转得分和的检验在零下精确（有限样本）或渐近正确，且方差误设不影响第一类错误。

定理2（多重检验的FWER控制，主要贡献型）：定义多变量标准化翻转分数统计量 \( M = \max_{j=1,\dots,m} |T_j| \)，其中 \( T_j = \frac{1}{\sqrt{n}} \sum_i U_{ij} \)。令 \( M^{(b)} \) 为第 \( b \) 次随机符号翻转得到的max统计量（\( b=1,\dots,B \)）。则以下程序强控制FWER在水平 \( \alpha \)： - 单步（single-step）程序：若 \( M > c(\alpha) \)，则拒绝所有 \( H_{0j} \)，其中 \( c(\alpha) \) 是 \( M^{(b)} \) 的经验 \( 1-\alpha \) 分位数。 - 逐步（step-down）程序：按 \( T_j \) 绝对值降序排序，顺序检验，每次用余下假设的max分布。 - 难点：需要证明符号翻转产生的 \( M^{(b)} \) 能真实反映 \( M \) 在联合零下的分布。依赖对称性假设（上面核心假设）成立。证明路线：对于每个符号向量 \( \epsilon \)，\( (T_1,\dots,T_m) \) 与 \( (T_1^*,\dots,T_m^*) \) 同分布，因此 \( M \) 与 \( M^* \) 同分布。随机符号版本的p值 \( \frac{1+\#\{b: M^{(b)}\ge M\}}{B+1} \) 在零下是有效超几何p值（Hemerik & Goeman, 2014 的论证可延长至多维）。技术细节：单步程序无需子集pivotality条件，因为符号翻转直接保持了联合分布。

定理3（渐近有效性）：若样本量 \( n \to \infty \)，且对称性假设在渐近意义上成立（即得分贡献的联合分布趋近于一个球对称分布或更一般的U-统计量中心极限定理适用），则上述置换程序渐近控制FWER；若进一步的方差误设条件，翻转程序具有与最优参数程序（若方差已知）相同的渐近功效（power）。作者声称在均值正确但方差误设下，flip-score的渐近检验能获得渐近相对效率（ARE）等于1（相对于正确指定的似然比检验）？需确认原文具体表述，但一般flip-score在对称误差下是渐近最优的。

模拟结果（推断）：论文包含数值模拟，比较单步/逐步maxT和Bonferroni–Holm、Westfall–Young（基于普通score统计量）等。结论：当响应相关时，本文方法在保持FWER的同时，检验功效明显优于Bonferroni；当响应独立时，与Bonferroni相当。在方差误设（过离散）下，基于普通score统计量的Westfall–Young方法第一类错误膨胀，而本文方法控制良好。

证明路线与技术技巧¶

整体路线（以单步maxT的FWER控制证明为例）： 1. Step 1：定义原始检验统计量向量 \( \mathbf{T} = (T_1,\dots,T_m) \) 和符号翻转版本 \( \mathbf{T}^* \)。 2. Step 2：由对称性假设，条件于观测数据 \( \mathcal{D} \)，在零假设 \( \bigcap_{j=1}^m H_{0j} \) 下，\( \mathbf{T} \overset{d}{=} \mathbf{T}^* \)（这是因为 \( \mathbf{T}^* \) 与 \( \mathbf{T} \) 均来自于对 \( U_{ij} \) 的相同线性组合，只是符号不同，且符号与 \( U_{ij} \) 在零下独立对称分布）。 3. Step 3：对于多重检验，考虑最坏情况：至少有一个真零假设。利用封闭测试原理（Goeman & Solari, 2010），若所有非空子集 \( I \subseteq \{1,\dots,m\} \) 的局部检验（基于 \( M_I = \max_{j\in I} |T_j| \)）均能在 \( \alpha \) 水平上被符号翻转程序控制，则整体FWER受控。关键在于局部检验的p值 \( p_I \) 由符号翻转 \( M_I^{(b)} \) 计算得，与 \( M_I \) 同分布。 4. Step 4：利用已知事实：对于随机符号生成的p值，\( \mathbb{P}(p_I \le \alpha) \le \alpha \)（有限样本精确性），因此局部检验有效。再由封闭测试，强FWER成立。 5. Step 5（逐步程序）：通过依次排除已拒绝的假设，可证明逐步maxT也提供强FWER控制，其证明依赖于单调性：每步剩下的假设集合，其局部检验仍然有效。

关键跳跃点： - 从单模型到多模型的对称性：单模型flip-score要求 \( U_{ij} \) 关于0对称；多模型要求联合对称（即向量 \( \mathbf{U}_i = (U_{i1},\dots,U_{im}) \) 在符号翻转下分布不变）。这比直觉强：若各模型的误差独立，则显然成立；但若相关，需要更强的假设（例如误差分布是椭圆对称或球对称的）。论文假设score贡献的联合分布具有“翻转对称性”，即 \( \mathbf{U}_i \overset{d}{=} -\mathbf{U}_i \)，且 \( \mathbf{U}_i \) 与 \( \mathbf{U}_{i'} \) 独立同分布。这一假设是否在一般GLM下成立？作者引用了Hemerik et al. (2020) 的论证：对于正确均值的GLM，score contribution的渐近分布是正态（中心极限），但有限样本下的精确对称性可能不成立。作者可能依赖于渐近对称性或score残差的对称性。

置换分布的条件方差：当方差误设时，标准化得分 \( U_{ij} \) 的方差可能不为1，但在符号翻转下，\( T_j^* \) 的方差与 \( T_j \) 相同（因为符号不改变二阶矩）。因此置换分布能自动匹配 \( T_j \) 的方差，即使 \( U_{ij} \) 的方差被误估。

技术技巧点名： - 符号翻转（sign flipping）：代替残差置换，仅要求对称性，不要求可交换性。 - 多变量标准化：消除不同模型之间量纲与方差差异，使得maxT有意义。 - 随机符号的有限样本精确p值：Hemerik & Goeman (2014) 的“条件蒙特卡洛检验”证明，使用随机符号（有限 \( B \)）时，p值 \( \frac{1+\#(M^{(b)}\ge M)}{B+1} \) 是有效（保守）的，且不随 \( B \) 增大而损失精确性。 - 封闭测试原则（closed testing）用于证明强FWER控制，从而将多步maxT纳入统一框架。

真实例子与应用¶

论文包含两个真实数据示例（据用户提供的被引和论文背景推测）： 1. RNA-seq count data（来自TCGA）：对数千基因分别拟合负二项GLM（edgeR/DESeq2风格），检验处理组与对照组的表达差异。方差在基因间高度异质，且存在过离散。使用本文方法与DESeq2的Wald检验+Bonferroni比较。结果：本文方法在控制FWER（如5%）下识别出更多的显著基因，且与已知生物学通路一致。 2. fMRI数据（可能来自人类连接组项目，HCP）：对脑内每个体素拟合线性回归，检验任务-静息态对比。响应体素间相关强，方差可能不齐。本文方法与Winkler et al. (2014) 的置换maxT（基于普通t统计量）比较。结果：本文方法在保持FWER的同时，显著区域略多或相似，且在方差异常大的体素上更稳定。

（这部分细节需从论文原文核实，这里属于合理推断。若论文无实证，则需注明“本文为纯理论”，但考虑到引言和摘要提到“simulation studies”以及RNA-seq/fMRI常见应用，很可能有真实例子。）

🔎 结论是否比证明窄¶

从摘要和引用语境判断，存在几个可能窄于声明的点： - 对称性假设在一般GLM中的有限样本验证：作者证明在渐近意义上（\( n\to\infty \)）对称性近似成立（因为score contribution的分布趋近正态），但有限样本下非对称误差（如泊松计数在低均值时偏斜）可能违反对称性。论文可能只对正态误差或线性模型给出了精确证明，对一般GLM仅为渐近论证。需检查原文定理2的假设中是否明确要求误差对称（如“the distribution of the standardized score contributions is symmetric about zero”），或者仅说“approximately symmetric”。如果仅渐近，则有限样本的FWER控制可能不精确。 - 多变量同步翻转的联合对称性假设：论文可能只证明了当每个模型的误差独立时成立，或当相关由公共随机效应导致时才成立。对任意相关结构（如长程空间相关）是否保持，可能未覆盖。 - 逐步程序 vs. 单步程序的理论保证：单步的FWER控制证明较直接，而逐步程序可能依赖于所有子集检验的单调性，其证明可能需要额外条件（临界值的协方差单调性），作者可能只给出渐近证明。

这些窄点应被研究者作为验证的突破口。

四、开放问题¶

弱化联合对称性假设：本文的多变量翻转对称性假设在相关响应下是否必要？能否仅要求每个模型边际对称，再利用maxT的置换分布自动捕捉相关？这等价于：对于 \( m>1 \)，\( \max_j |\sum_i \epsilon_i U_{ij}| \) 的分布是否总是被随机符号正确校准，即使 \( U_{i1} \) 与 \( U_{i2} \) 的边缘分布对称但联合不对称（例如一个对称、一个偏斜）？扎根于定理2的假设条件（需要全文验证具体表述）。
高维情况下的计算与理论：当 \( m \gg n \)（如单细胞数据，数十万基因 vs 数百样本），maxT的计算需对每组符号翻转同时计算所有模型的得分和，若 \( B \) 较大，计算量 \( O(B \cdot m \cdot n) \) 可能不可行。可研究更高效的近似（如利用随机投影或低秩结构）。同时，高维下FWER的控制条件可能更严（如sparsity假设），本文未讨论 \( m \to \infty \) 时的渐近行为。
同时控制FDP（False Discovery Proportion）而非FWER：本文方法属于FWER控制。在生物信息学中，FDR方法更常用。能否将flip-score嵌入到BY（Benjamini-Yekutieli）或adaptive置换FDR程序？这将需要符号翻转下p值的相关性结构假设。扎根于Goeman et al. (2019) 的结论——所有FDP控制方法本质均为封闭测试——所以理论上可行，但flip-score的置换p值是否满足子集一致性问题有待证明。
非对称误差下的鲁棒性：如果误差分布不对称（如对数正态或偏态计数），本文的符号翻转方法是否依然保持FWER？Hemerik et al. (2020) 的模拟显示在适度不对称下仍合理，但无理论保证。可引入非参数bootstrap校正，或研究符号翻转对偏斜的敏感程度。这是一个开放的应用问题，在基因表达（count data with low counts）和脑影像（非高斯噪声）中非常相关。

Maintained by 陈星宇 · Homepage · Source on GitHub