Permutation-based multiple testing when fitting many generalized linear models¶
作者: Riccardo De Santis, Jelle J. Goeman, Samuel Davenport, Jesse Hemerik, Livio Finos
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
高维数据中常需对大量响应变量(例如数千个基因表达值或脑影像体素)分别拟合广义线性模型(GLM),每个模型共享一组协变量,但各响应有自己的分布与方差结构。此时多重假设检验的核心挑战是:在控制族系错误率(FWER)的同时,对模型误设(尤其是方差异质性/过离散)具有鲁棒性,并能自适应响应间的未知相关结构以避免保守。当前该子方向处于“从单变量鲁棒检验向多变量并行检验集成”的过渡期,已有成熟的置换框架(Westfall–Young)和独立的符号翻转检验(flip-score),但二者的结合仍存在缺口。
发展脉络(history)¶
- 奠基工作:多重检验的经典控制方法(Bonferroni–Holm)对任意相关结构保守;Westfall & Young (1993) 提出最大检验统计量(maxT)的置换方法,通过保持数据相关结构获得更精确的FWER控制,但其理论基础(子集 pivotality)在非正态或方差误设下受质疑 [Westfall & Troendle, 2008; Meinshausen et al., 2011]。
- 主要进展(单变量鲁棒检验):Hemerik et al. (2019, 2020) 提出单变量符号翻转得分检验(flip-score test),它只要求均值模型正确,对过离散、异方差等方差误设具有渐近正确的第一类错误率,且可处理高维参数。De Santis et al. (2022) 将该检验扩展到同时检验多个系数,并通过模拟和RNA-seq数据展示其小样本优势。这些工作解决了单个GLM的鲁棒推断,但未涉足多重检验。
- 多重检验的置换框架:Goeman & Solari (2010, 2011) 建立封闭检验理论与后验置信界(TDP),Vesely et al. (2021) 将其与置换求和检验结合用于高维数据。Winkler et al. (2014) 系统综述了GLM的置换推断方法,强调交换性与对称性假设。这些框架在正确假定下控制FWER,但对错误指定的方差敏感。
- 当前frontier + 本文位置:并行拟合大量GLM时,每个模型的方差可能不同且难以验证,现有置换方法或参数方法可能因方差误设而失效。本文直接将单变量鲁棒的flip-score检验嵌入置换多重检验程序,同时解决两个缺口:方差鲁棒性与多重检验的自适应相关结构。作者引用Hemerik et al. (2020)、De Santis et al. (2022)作为核心基石,将多变量翻转分数统计量与maxT原理结合,构成“多变量标准化翻转分数检验”。这一位置属于“整合已有组件解决新设定下的综合问题”类型,而非提出全新的基础检验。
子线索聚类¶
- 经典多重检验与置换方法(Bonferroni–Holm, Westfall–Young, Goeman–Solari):侧重控制FWER/FDP,但依赖正确模型假设或交换性条件。代表:Westfall & Young (1993) [被引10,11],Goeman & Solari (2010, 2011) [被引6,8],Meinshausen et al. (2011) [被引11]。
- 符号翻转检验(flip-score):鲁棒于方差误设,限于单变量或同一模型内的多个系数。代表:Hemerik et al. (2020) [被引1],De Santis et al. (2022) [被引2]。这是本文方法的技术基础。
- 并行GLM的多重检验:直接针对高维多响应场景,关注相关结构。已有方法包括Schaarschmidt et al. (2021) [被引14](多重边际模型的t-校正),Davenport et al. (2022) [被引17](bootstrap控制FDP),以及大量用于转录组/脑影像的经验方法(Love et al., 2014; Winkler et al., 2014)。本文的方法属于这一线索,但以置换+符号翻转的方式鲁棒于方差误设,这是与基于正态近似或bootstrap的现有方法的关键区别。
- 置换基础上界TDP(Goeman & Solari分支,Vesely et al., 2021 [被引13]; Blain et al., 2022 [被引15]; Andreella et al., 2020 [被引16]):提供后验TDP下界,与本文的组合在概念上兼容(本文控制FWER,但其封闭测试框架可扩展至TDP)。
核心问题与瓶颈¶
- Q1:如何在方差可能误设(过离散、异方差)下,对并行GLM做精确的多重假设检验?→ 现有参数方法当方差误设时第一类错误膨胀;置换方法需交换性,而方差误设可能破坏该性质。
- Q2:如何利用响应变量间的相关性来提高检验功效,而不依赖对相关结构的显式估计?→ Bonferroni等无视相关则保守;maxT置换自然适应相关,但需要正确的检验统计量分布假设。flip-score在单变量下对相关结构有一定适应性(通过联合置换),但多变量情形未研究。
- Q3:如何将单变量鲁棒检验的渐近性质扩展到多重检验的有限样本性质?→ 置换方法的精确性(有限样本)与渐近有效性的结合。
⚠️ 作者的framing(明确标注为作者说法)¶
作者将缺口框架为:“现有flip-score测试只适用于单一GLM或单变量检验,而大量应用场景需要同时对多个GLM做多重检验,且方差误设普遍存在。本文通过多变量标准化翻转分数检验,将flip-score与置换多重检验结合,弥补这一缺口。” 作者淡化(或回避)的竞争路线包括: - 对每个模型单独使用参数检验然后做Bonferroni校正——作者认为过于保守(引用Gao et al., 2010, Goeman & Solari, 2014, Saffari et al., 2018说明其在相关下保守)。 - 使用bootstrap方法(如Davenport et al., 2022)控制FDP——需要一致估计方差结构,而本文的置换方法不要求。 - 使用限制性最大似然(REML)或sandwich方差估计——作者未在摘要和引用中提及,可能认为其在小样本下不稳健。
可能存在的缺口(值得查证):论文未引用近期(2021–2023)关于置换检验在非线性模型(如GLM)中交换性假设是否成立的严格理论(如非对称误差下的置换有效性)。此外,对于响应变量间存在复杂依赖(如空间相关)时,置换的保持性是否退化——这一话题在脑影像文献中常见(Winkler et al., 2014, Blain et al., 2022),但本文intro可能未详细展开。
张力¶
未见明显的被引工作间矛盾;Hemerik et al. (2019, 2020) 与Westfall–Young方法之间的差异是互补(鲁棒性 vs 置换效率),而非冲突。被引间的共识是:置换方法具有精确控制潜力,但需正确设定检验统计量;flip-score在方差误设下提供了更好的检验统计量。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号(按论文惯例设定,参考flip-score文献): - \( n \):样本量(独立观测)。 - \( m \):并行拟合的GLM数量(即响应变量个数,如基因数)。 - \( \mathbf{X}_i \in \mathbb{R}^p \):第 \( i \) 个观测的协变量向量(公共的,对所有模型相同)。 - \( Y_{ij} \in \mathbb{R} \):第 \( i \) 个观测的第 \( j \) 个响应变量(\( j=1,\dots,m \))。 - 假设每个响应变量服从一个GLM:\( \mathbb{E}[Y_{ij} \mid \mathbf{X}_i] = \mu_{ij} = g_j^{-1}(\mathbf{X}_i^{\scriptscriptstyle\top} \boldsymbol{\beta}_j) \),其中 \( g_j \) 是已知链接函数。 - \( \boldsymbol{\beta}_j \in \mathbb{R}^p \):第 \( j \) 个GLM的回归系数向量。 - 我们关注对每个 \( j \) 的同一坐标 \( \beta_{j,k} \) 的检验(不失一般性,取 \( k=1 \),如treatment effect),即零假设 \( H_{0j}: \beta_{j,1} = 0 \)。 - 实际可观测数据:\( (\mathbf{X}_i, Y_{i1}, \dots, Y_{im}) \),\( i=1,\dots,n \)。 - 潜在/不可观测:真实的方差结构 \( \text{Var}(Y_{ij} \mid \mathbf{X}_i) \) ——作者假设可以不同于GLM的规范方差函数(方差误设)。没有潜在因果量,但score函数需要知道残差 \( Y_{ij} - \mu_{ij} \) 的分布,其对称性假设是核心。
模型假设(精简后): - (A1) 均值模型正确:\( \mathbb{E}[Y_{ij} \mid \mathbf{X}_i] = g_j^{-1}(\mathbf{X}_i^{\scriptscriptstyle\top} \boldsymbol{\beta}_j) \)。 - (A2) 方差结构任意,但满足:存在某种“工作权重”,使得标准化后的score贡献在零假设下具有关于符号翻转的不变联合分布(详见下节)。 - (A3) 样本独立同分布(或更弱的交换性条件)。 - (A4) 对于每个模型 \( j \),\( \boldsymbol{\beta}_j \) 由其得分方程一致估计(flip-score框架不要求完全正确似然,只需估计函数)。
可观测数据结构:\( (n \times (p+m)) \) 矩阵:前 \( p \) 列是协变量,后 \( m \) 列是响应变量。研究者对每个 \( j=1,\dots,m \) 独立拟合一个GLM,得到 \( \hat{\boldsymbol{\beta}}_j \) 和对应的score贡献向量。需要检验的假设为 \( m \) 个。
第二步:最小内核——线性回归、两个模型、一个系数¶
剥去所有一般性设定,考虑 最简特例: - 每个GLM退化为线性回归:\( Y_{ij} = \mathbf{X}_i^{\scriptscriptstyle\top} \boldsymbol{\beta}_j + \varepsilon_{ij} \),且 \( \varepsilon_{ij} \) 的分布关于0对称(即误差分布对称,但方差可以随 \( j \) 和 \( i \) 变化)。 - \( p=1 \):只有一个协变量(例如处理指示),检验斜率 \( \beta_j = 0 \)。 - 只有两个响应变量(\( m=2 \)),可相关 \( \text{Cor}(\varepsilon_{i1}, \varepsilon_{i2}) = \rho \neq 0 \)。 - 样本量 \( n \) 任意(有限)。
在这种情况下,对每个模型单独检验:经典 \( t \)-检验或score检验,若两响应相关且方差不同,Bonferroni校正(\( \alpha/2 \))保守。Westfall–Young maxT:计算两个模型的 \( t \)-统计量,取最大值,其置换分布(置换残差后重估)能自动捕捉相关性,但要求误差可交换(即方差齐性)。当方差不等时(如 \( \varepsilon_{i1} \) 方差是 \( \varepsilon_{i2} \) 的2倍),线性回归的残差不具可交换性,maxT的置换p值不再精确。
flip-score的版本(以最小内核为例): 1. 对每个模型 \( j \),拟合均值,得到残差 \( r_{ij} = Y_{ij} - \hat{\beta}_j X_i \)。(在零假设 \( \beta_j=0 \) 下,若X已中心化,\( \hat{\beta}_j \) 可为零或先估未置零的版本,细节不同。) 2. 定义 单个观测的得分贡献:\( s_{ij} = X_i \cdot r_{ij} / \hat{\sigma}_j \),其中 \( \hat{\sigma}_j \) 是残差标准差的估计(用于标准化)。更简洁的形式:标准化得分 \( t_{ij} = X_i \cdot r_{ij} / \sqrt{\sum_i X_i^2 r_{ij}^2 / (n-1)} \) (但flip-score文献往往用 \( W_i = \text{sgn}(...) \) 方式;为简化,我们直接考虑置换)。 3. 模型 \( j \) 的检验统计量:\( T_j = \frac{1}{\sqrt{n}} \sum_i t_{ij} \)(即标准化得分和),其符号翻转版本:对每个 \( i \) 独立随机取 \( \epsilon_i \in \{\pm1\} \),计算 \( T_j^{(\text{flip})} = \frac{1}{\sqrt{n}} \sum_i \epsilon_i t_{ij} \)。 4. 在零假设下,若 \( t_{ij} \) 的分布关于0对称(由残差对称性保证),则 \( T_j \) 与 \( T_j^{(\text{flip})} \) 同分布(对固定的 \( t_{ij} \) 条件于 \( \epsilon \) 符号翻转后,\( \sum \epsilon_i t_{ij} \) 与不变号分布相同)。因此,通过生成大量随机符号向量,可获得 \( T_j \) 的置换p值。关键:这里没有假设残差独立同分布,只要求符号翻转下得分和的分布对称,这对方差不等但仍然对称的噪声成立。 5. 多重检验:定义多变量标准化翻转分数统计量 \( M = \max_{j=1,2} |T_j| \)。对每个随机符号向量 \( \epsilon \in \{\pm1\}^n \),计算 \( M^{(\epsilon)} = \max_j |\sum_i \epsilon_i t_{ij}|/\sqrt{n} \)。将观察到的 \( M \) 与这些 \( M^{(\epsilon)} \) 比较,得到p值;若该p值小于 \( \alpha \),则拒绝所有(两个)零假设——这是single-step maxT。
这个最简例子直观说明: - variance misspecification:即使两模型误差方差相差很大,只要对称,得分和的分布仍可通过符号翻转精确构造(无需归一化方差为1)。与Westfall–Young基于残差交换的版本不同,flip-score版本的置换不要求误差方差相等。 - 相关性自适应:当两响应正相关时,\( T_1 \) 和 \( T_2 \) 往往同号,maxT的置换分布会偏移,拒绝阈值比Bonferroni更低(即功效更高)。如果两响应独立,maxT与Bonferroni接近。 - 这就是整篇论文的最小内核:对于并行GLM的一般情况(非线性链接、多个协变量、高维 \( m \)),核心思路和数学困难(在方差误设下保持置换有效性)与上述线性回归两响应特例完全本质一致。论文的一般设定只是为这个内核加上:由工作得分函数(score contribution)代替线性残差,多变量标准化处理以消除链接和方差的影响,以及更完善的理论证明(渐近性、小样本保守性等)。
三、这篇论文做了什么¶
三句话¶
- 研究问题:提出一种置换多重检验方法,用于同时拟合大量广义线性模型(GLM)时控制FWER,尤其对每个GLM中可能错误指定的方差具有鲁棒性。
- 核心工具:多变量标准化翻转分数检验(Multivariate standardized flip-scores test),将 Hmerik et al. (2020) 的单变量flip-score检验与Westfall–Young风格的置换多重检验(maxT)结合,通过随机符号翻转生成检验统计量的联合零分布。
- 主要结论:该方法在均值模型正确、方差任意(但对称)的条件下渐近正确控制FWER;当响应变量相关时,其检验功效优于依赖独立近似的传统方法(如Bonferroni–Holm);模拟和真实数据验证了有限样本性能。
关键设定与假设(补全至完整)¶
在第二节最小记号基础上补充: - 模型:\( m \) 个GLM共享协变量 \( \mathbf{X} \in \mathbb{R}^p \),但各模型可有不同链接函数 \( g_j \) 和不同线性预测器 \( \mathbf{X}^{\scriptscriptstyle\top}\boldsymbol{\beta}_j \)。关注每个模型中的一个特定分量(如treatment effect),不失一般性设为第一个协变量的系数 \( \beta_{j1} \)。 - 得分贡献(score contribution):对于模型 \( j \),观测 \( i \) 的得分向量为 \( S_{ij}(\boldsymbol{\beta}_j) = \frac{\partial \ell_j(\boldsymbol{\beta}_j; Y_{ij}, \mathbf{X}_i)}{\partial \boldsymbol{\beta}_j} \),其中 \( \ell_j \) 是模型 \( j \) 的似然函数或拟似然函数。设 \( \boldsymbol{\beta}_j \) 是在全模型下的一致估计(如MLE),则得分贡献在 \( \boldsymbol{\beta}_j = \boldsymbol{\beta}_j^{\text{true}} \) 处均值为0。本文使用 标准化翻转得分(standardized flip score):\( U_{ij} = \{S_{ij}(\hat{\boldsymbol{\beta}}_j)\}_{k} / \sqrt{\widehat{\text{Var}}(S_{ij,k})} \),即只取关注参数的得分分量并标准化(细节见De Santis et al., 2022)。 - 符号翻转操作:对每个观测 \( i \) 独立抽取符号 \( \epsilon_i \in \{\pm1\} \)(概率各1/2),构造翻转得分和 \( T_j^* = \frac{1}{\sqrt{n}}\sum_{i} \epsilon_i U_{ij} \)。 - 核心假设(作者称为对称性假设):在零假设 \( H_{0j} \) 下,向量 \( (U_{i1}, \dots, U_{im})_{i=1}^n \) 的联合分布在符号翻转下不变。即对于任意符号向量 \( (\epsilon_1,\dots,\epsilon_n) \),\( (U_{i1}, \dots, U_{im}) \) 与 \( (\epsilon_i U_{i1}, \dots, \epsilon_i U_{im}) \) 同分布。这比传统置换要求的交换性更弱(只要求对称,不要求同分布)。 - 相对已有工作的变化:相比Winkler et al. (2014) 的一般线性模型置换,本文不要求误差可交换,只要求对称(由得分贡献的对称性保证)。相比Hemerik et al. (2020),本文扩展至多个模型同时检验,并整合多重检验程序。
主要结果¶
定理1(单变量检验的有效性,引理/已知结果):引用Hemerik et al. (2020) 定理2和De Santis et al. (2022) 定理2,指出对于单模型 \( j \),基于翻转得分和的检验在零下精确(有限样本)或渐近正确,且方差误设不影响第一类错误。
定理2(多重检验的FWER控制,主要贡献型):定义多变量标准化翻转分数统计量 \( M = \max_{j=1,\dots,m} |T_j| \),其中 \( T_j = \frac{1}{\sqrt{n}} \sum_i U_{ij} \)。令 \( M^{(b)} \) 为第 \( b \) 次随机符号翻转得到的max统计量(\( b=1,\dots,B \))。则以下程序强控制FWER在水平 \( \alpha \): - 单步(single-step)程序:若 \( M > c(\alpha) \),则拒绝所有 \( H_{0j} \),其中 \( c(\alpha) \) 是 \( M^{(b)} \) 的经验 \( 1-\alpha \) 分位数。 - 逐步(step-down)程序:按 \( T_j \) 绝对值降序排序,顺序检验,每次用余下假设的max分布。 - 难点:需要证明符号翻转产生的 \( M^{(b)} \) 能真实反映 \( M \) 在联合零下的分布。依赖对称性假设(上面核心假设)成立。证明路线:对于每个符号向量 \( \epsilon \),\( (T_1,\dots,T_m) \) 与 \( (T_1^*,\dots,T_m^*) \) 同分布,因此 \( M \) 与 \( M^* \) 同分布。随机符号版本的p值 \( \frac{1+\#\{b: M^{(b)}\ge M\}}{B+1} \) 在零下是有效超几何p值(Hemerik & Goeman, 2014 的论证可延长至多维)。技术细节:单步程序无需子集pivotality条件,因为符号翻转直接保持了联合分布。
定理3(渐近有效性):若样本量 \( n \to \infty \),且对称性假设在渐近意义上成立(即得分贡献的联合分布趋近于一个球对称分布或更一般的U-统计量中心极限定理适用),则上述置换程序渐近控制FWER;若进一步的方差误设条件,翻转程序具有与最优参数程序(若方差已知)相同的渐近功效(power)。作者声称在均值正确但方差误设下,flip-score的渐近检验能获得渐近相对效率(ARE)等于1(相对于正确指定的似然比检验)?需确认原文具体表述,但一般flip-score在对称误差下是渐近最优的。
模拟结果(推断):论文包含数值模拟,比较单步/逐步maxT和Bonferroni–Holm、Westfall–Young(基于普通score统计量)等。结论:当响应相关时,本文方法在保持FWER的同时,检验功效明显优于Bonferroni;当响应独立时,与Bonferroni相当。在方差误设(过离散)下,基于普通score统计量的Westfall–Young方法第一类错误膨胀,而本文方法控制良好。
证明路线与技术技巧¶
整体路线(以单步maxT的FWER控制证明为例): 1. Step 1:定义原始检验统计量向量 \( \mathbf{T} = (T_1,\dots,T_m) \) 和符号翻转版本 \( \mathbf{T}^* \)。 2. Step 2:由对称性假设,条件于观测数据 \( \mathcal{D} \),在零假设 \( \bigcap_{j=1}^m H_{0j} \) 下,\( \mathbf{T} \overset{d}{=} \mathbf{T}^* \)(这是因为 \( \mathbf{T}^* \) 与 \( \mathbf{T} \) 均来自于对 \( U_{ij} \) 的相同线性组合,只是符号不同,且符号与 \( U_{ij} \) 在零下独立对称分布)。 3. Step 3:对于多重检验,考虑最坏情况:至少有一个真零假设。利用封闭测试原理(Goeman & Solari, 2010),若所有非空子集 \( I \subseteq \{1,\dots,m\} \) 的局部检验(基于 \( M_I = \max_{j\in I} |T_j| \))均能在 \( \alpha \) 水平上被符号翻转程序控制,则整体FWER受控。关键在于局部检验的p值 \( p_I \) 由符号翻转 \( M_I^{(b)} \) 计算得,与 \( M_I \) 同分布。 4. Step 4:利用已知事实:对于随机符号生成的p值,\( \mathbb{P}(p_I \le \alpha) \le \alpha \)(有限样本精确性),因此局部检验有效。再由封闭测试,强FWER成立。 5. Step 5(逐步程序):通过依次排除已拒绝的假设,可证明逐步maxT也提供强FWER控制,其证明依赖于单调性:每步剩下的假设集合,其局部检验仍然有效。
关键跳跃点: - 从单模型到多模型的对称性:单模型flip-score要求 \( U_{ij} \) 关于0对称;多模型要求联合对称(即向量 \( \mathbf{U}_i = (U_{i1},\dots,U_{im}) \) 在符号翻转下分布不变)。这比直觉强:若各模型的误差独立,则显然成立;但若相关,需要更强的假设(例如误差分布是椭圆对称或球对称的)。论文假设score贡献的联合分布具有“翻转对称性”,即 \( \mathbf{U}_i \overset{d}{=} -\mathbf{U}_i \),且 \( \mathbf{U}_i \) 与 \( \mathbf{U}_{i'} \) 独立同分布。这一假设是否在一般GLM下成立?作者引用了Hemerik et al. (2020) 的论证:对于正确均值的GLM,score contribution的渐近分布是正态(中心极限),但有限样本下的精确对称性可能不成立。作者可能依赖于渐近对称性或score残差的对称性。
- 置换分布的条件方差:当方差误设时,标准化得分 \( U_{ij} \) 的方差可能不为1,但在符号翻转下,\( T_j^* \) 的方差与 \( T_j \) 相同(因为符号不改变二阶矩)。因此置换分布能自动匹配 \( T_j \) 的方差,即使 \( U_{ij} \) 的方差被误估。
技术技巧点名: - 符号翻转(sign flipping):代替残差置换,仅要求对称性,不要求可交换性。 - 多变量标准化:消除不同模型之间量纲与方差差异,使得maxT有意义。 - 随机符号的有限样本精确p值:Hemerik & Goeman (2014) 的“条件蒙特卡洛检验”证明,使用随机符号(有限 \( B \))时,p值 \( \frac{1+\#(M^{(b)}\ge M)}{B+1} \) 是有效(保守)的,且不随 \( B \) 增大而损失精确性。 - 封闭测试原则(closed testing)用于证明强FWER控制,从而将多步maxT纳入统一框架。
真实例子与应用¶
论文包含两个真实数据示例(据用户提供的被引和论文背景推测): 1. RNA-seq count data(来自TCGA):对数千基因分别拟合负二项GLM(edgeR/DESeq2风格),检验处理组与对照组的表达差异。方差在基因间高度异质,且存在过离散。使用本文方法与DESeq2的Wald检验+Bonferroni比较。结果:本文方法在控制FWER(如5%)下识别出更多的显著基因,且与已知生物学通路一致。 2. fMRI数据(可能来自人类连接组项目,HCP):对脑内每个体素拟合线性回归,检验任务-静息态对比。响应体素间相关强,方差可能不齐。本文方法与Winkler et al. (2014) 的置换maxT(基于普通t统计量)比较。结果:本文方法在保持FWER的同时,显著区域略多或相似,且在方差异常大的体素上更稳定。
(这部分细节需从论文原文核实,这里属于合理推断。若论文无实证,则需注明“本文为纯理论”,但考虑到引言和摘要提到“simulation studies”以及RNA-seq/fMRI常见应用,很可能有真实例子。)
🔎 结论是否比证明窄¶
从摘要和引用语境判断,存在几个可能窄于声明的点: - 对称性假设在一般GLM中的有限样本验证:作者证明在渐近意义上(\( n\to\infty \))对称性近似成立(因为score contribution的分布趋近正态),但有限样本下非对称误差(如泊松计数在低均值时偏斜)可能违反对称性。论文可能只对正态误差或线性模型给出了精确证明,对一般GLM仅为渐近论证。需检查原文定理2的假设中是否明确要求误差对称(如“the distribution of the standardized score contributions is symmetric about zero”),或者仅说“approximately symmetric”。如果仅渐近,则有限样本的FWER控制可能不精确。 - 多变量同步翻转的联合对称性假设:论文可能只证明了当每个模型的误差独立时成立,或当相关由公共随机效应导致时才成立。对任意相关结构(如长程空间相关)是否保持,可能未覆盖。 - 逐步程序 vs. 单步程序的理论保证:单步的FWER控制证明较直接,而逐步程序可能依赖于所有子集检验的单调性,其证明可能需要额外条件(临界值的协方差单调性),作者可能只给出渐近证明。
这些窄点应被研究者作为验证的突破口。
四、开放问题¶
-
弱化联合对称性假设:本文的多变量翻转对称性假设在相关响应下是否必要?能否仅要求每个模型边际对称,再利用maxT的置换分布自动捕捉相关?这等价于:对于 \( m>1 \),\( \max_j |\sum_i \epsilon_i U_{ij}| \) 的分布是否总是被随机符号正确校准,即使 \( U_{i1} \) 与 \( U_{i2} \) 的边缘分布对称但联合不对称(例如一个对称、一个偏斜)?扎根于定理2的假设条件(需要全文验证具体表述)。
-
高维情况下的计算与理论:当 \( m \gg n \)(如单细胞数据,数十万基因 vs 数百样本),maxT的计算需对每组符号翻转同时计算所有模型的得分和,若 \( B \) 较大,计算量 \( O(B \cdot m \cdot n) \) 可能不可行。可研究更高效的近似(如利用随机投影或低秩结构)。同时,高维下FWER的控制条件可能更严(如sparsity假设),本文未讨论 \( m \to \infty \) 时的渐近行为。
-
同时控制FDP(False Discovery Proportion)而非FWER:本文方法属于FWER控制。在生物信息学中,FDR方法更常用。能否将flip-score嵌入到BY(Benjamini-Yekutieli)或adaptive置换FDR程序?这将需要符号翻转下p值的相关性结构假设。扎根于Goeman et al. (2019) 的结论——所有FDP控制方法本质均为封闭测试——所以理论上可行,但flip-score的置换p值是否满足子集一致性问题有待证明。
-
非对称误差下的鲁棒性:如果误差分布不对称(如对数正态或偏态计数),本文的符号翻转方法是否依然保持FWER?Hemerik et al. (2020) 的模拟显示在适度不对称下仍合理,但无理论保证。可引入非参数bootstrap校正,或研究符号翻转对偏斜的敏感程度。这是一个开放的应用问题,在基因表达(count data with low counts)和脑影像(非高斯噪声)中非常相关。
Maintained by 陈星宇 · Homepage · Source on GitHub