跳转至

A conformal test of linear models via permutation-augmented regressions

作者: Leying Guan
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向要解决的根本问题是:在固定设计线性模型中,对单个(或部分)回归系数做显著性检验时,如何在不依赖误差正态性(或任何已知分布)假设的情况下,获得有限样本下严格(或接近严格)的 I 类错误控制。这是一个经典的统计推断问题,其核心矛盾在于:基于正态理论的方法(如经典的 F/t 检验)在误差非正态时只有渐近保证,且在小样本下的实际第一类错误率可能严重偏离名义水平;而传统的随机置换检验(如残差置换检验 RPT)虽然理论上提供了精确控制,但只在某些非常特殊的设计或误差结构下才做到这一点——对于一般线性模型和任意固定设计,已有的置换方法要么需要严格的额外要求(如足够大的样本量、误差的球形分布、设计矩阵的特殊结构),要么在保持有限样本保证时牺牲大量检验功效。当前的一些进展(如循环置换检验 CPT)虽然在特定条件下实现了精确的 I 类错误控制,但面临样本量要求苛刻、功效损失严重等实际限制。本文试图填补这一空白:提出一种在任意固定设计、任意误差分布下,能够有限样本控制 I 类错误率不超过给定名义水平的 2 倍,同时不严重牺牲功效的通用置换检验方法。

发展脉络(history)

  • 奠基工作:置换检验的早期基础 (Pitman, 1937; Manly, 2006; Edgington and Onghena, 2007)。这些工作建立了置换检验在简单相关(无协变量调整)中的理论基础,证明了对于简单相关(比如两个变量间)的检验,通过随机置换可以严格控制 I 类错误。这为本领域提供了最原始的“通过排列构造随机化零分布”的框架。但关键在于,这些早期方法不适用于需要调整协变量的部分相关检验情形。

  • 主要进展 1:置换检验在一般线性模型中的探索与近似方法 (Winkler et al., 2014; Hall and Wilson, 1991; Westfall and Young, 1993; Anderson and Robinson, 2001)。这些工作致力于将置换检验用于一般线性模型(GLM)中的部分参数推断。Winkler 等人提出了针对 GLM 中参数推断的框架,并指出当误差可交换或具有对称分布时,置换推断是有效的,且能通过使用“枢轴型”(pivotal)检验统计量(如 t/F 统计量)来提高对非可交换性的鲁棒性。然而,正如本文所强调的,这些方法的保证依赖于“误差可交换性”这一强假设(在含协变量的线性回归中通常不成立),或者只是“经验上鲁棒”,缺乏严格的有限样本保证。

  • 主要进展 2:追求精确控制的循环置换检验 (CPT) 与残差置换检验 (RPT) (Lei and Bickel, 2021; 以及其他关于 RPT 的工作)。Lei 和 Bickel 提出的 CPT 是一个里程碑——它首次(在固定设计线性模型中)实现了一个非随机化的、对任意固定设计和任意可交换误差都精确控制 I 类错误(恰好为 α,而不是上界)的检验。CPT 通过构造一个非标准的循环置换群,保证在该群下检验统计量的联合分布是等变的。然而,这带来了巨大的实践限制:要求样本量 n 和参数个数 p 满足 n/p ≥ 1/α - 1(例如,检验 α=0.05 时,n必须至少是19倍的p);且为了增强功效,CPT 需要求解一个“旅行商问题”式的次要优化问题,并用遗传算法近似求解,这在计算上开销不小且可能不稳定。本文正是指出 CPT 的这两个致命弱点:样本量要求和功效损失。 同时,RPT 虽然简单,但其有限样本下的 I 类错误控制只在特定强假设下(如误差为球对称分布)才成立,对于一般的误差分布,其控制是近似的。

  • 当前 frontier:共形预测框架与传统假设检验的交叉 (Barber et al., 2021; Kim et al., 2020; Gupta et al., 2022; Han et al., 2023)。共形预测(Conformal Prediction)在预测区间问题中取得了突破,提供了在非交换(non-exchangeable)或部分信息下的有限样本保证(如 Jackknife+ 系列的覆盖率保证)。Vovk 等人,Barber 等人和金等人的工作建立了“多分裂共形预测”的方法,通过聚合多个分裂或折刀结果来构造预测区间。这些方法不仅扩展了共形预测的理论,更重要的是,它们的思想——通过在不同的数据子集上拟合模型来获得多个预测值,并基于这些预测值的“非符合性”得分来构建统计量——可以直接应用于假设检验。本文正是将这一思路从预测问题迁移到了检验问题

  • 本文的定位:作者站在上述两条线索的交汇点。一方面,他们直面 CPT 和 RPT 在假设检验中的固有问题(功率损失 / 假设限制);另一方面,他们巧妙地借鉴了共形预测/Jackknife+ 框架在预测区间中的成功经验,将其核心思想“通过数据分裂(具体是置换分裂)得到多个模型输出,再通过聚合得到有效的统计推断”适配到基于置换的检验中。最终,他们的方法 PALMRT 既不要求 CPT 那样对样本量的苛刻要求,也不依赖 RPT 对误差分布的严格假设,同时实现了比现有方法更强的功率。

子线索聚类

  1. 置换检验在回归模型中的拓展:这类工作的核心是如何构造一个在零假设下,使得检验统计量(或其序贯)具有精确已知分布的置换过程

    • 代表:Pitman (1937), Manly (2006), Winkler (2014), Lei & Bickel (2021)。
    • 本体问题:如何通过选择合适的置换群和检验统计量,实现 I 类错误控制?
    • 被 Paul 淡化/回避的:CPT 的作者 Lei 和 Bickel 也得到了精确的 α 控制,但本文的处理则是一个“2α” 的上界控制——这是一个权衡的 trade-off,但本文没有明确地讨论“为什么追求严格 α 控制是不必要的或代价过高”这一元问题。
  2. 共形预测框架及其拓展(多重分裂、折叠、聚合):这类工作致力于为预测问题提供分布自由的有限样本保证。其创新不在于检验本身,而在于“通过数据切分和聚合构造可交换性”的数学技巧。

    • 代表:Barber et al. (2021), Kim et al. (2020), Gupta et al. (2022), Han et al. (2023)。
    • 本体问题:如何为任意的、对称的预测算法提供有效的覆盖率保证。
    • 与本文的直接联系:本文的 PALMRT 直接利用了“通过置换数据来构造可交换的预测”这一思想,并发展出了与之并行但属于假设检验框架的理论。
  3. 用于 FDR 控制的 Knockoffs 及其衍生物:虽然方向不同(变量选择 vs. 单一检验),但其控制随机性的思想与本文有共鸣——尤其是通过多次随机化(knockoffs 的多次生成)获得多个 p 值/ e 值,再聚合得到稳健控制。

    • 代表:Barber & Candès (2014), Ren & Barber (2022), Vovk & Wang (2021), Wang & Ramdas (2020)。
    • 与本文的交叉:本文从单个假设(部分相关系数是否为零)出发,强调在控制 I 类错误时的简便稳健性,而 Knockoffs 处理的是多重性下的 FDR 控制。值得研究者追问:PALMRT 是否能扩展到多重检验(如变量选择)中,而不仅仅止步于一个部分相关系数的检验?

这个方向在追问的核心问题

  1. 对于固定设计线性模型的单变量检验,是否存在一个通用的、有限样本下对任意分布都有效且不牺牲功效的置换检验?
  2. 如果普遍做不到,那么在哪些额外条件(如误差的对称性、样本量与变量数的比例)下可以实现?
  3. 从“预测”框架中启发得到的“分裂/聚合”策略,是否能提供一个在两难(样本量要求 vs. 分布假设)之间有效的折中方案?

⚠️ 作者的 framing

  • 作者的 framing 是:CPT和RPT虽然在理论上给出了有限样本保证,但它们“要么对样本量有严格限制,要么无法保持检验功效”(直接出自 Introduction 和对比实验的论述)。因此,本文的“显然的下一步”是:在放松这些限制的同时,依然能提供“好的但并非完美”(2α)的 I 类错误控制。
  • 被作者淡化或回避的竞争路线:作者比较了 6 种方法,但并未深入讨论为什么不能直接使用基于 bootstrap 的置信区间(如 BCa bootstrap)的检验。Efron 的 BCa 方法在功效上通常不错,但也是渐近一致(第一阶准确),不具有有限样本保证。作者的选择是很直接的:他们只关心有有限样本理论保证的方法
  • 值得研究者查证的问题
    1. 为什么本文没有引用并讨论“Jin & Wang (2022) 关于置换检验渐近准确性的基于高斯投影的文章”?或者“基于鞅贝叶斯假设检验 / e-values 的序列检验”?
    2. 作者明确说“无假设保证的有限样本控制是开放的”,但后面又说 “type I error ≤ 2α”。是否可以从“≤ 2α”改进到“≤ α”?作者在文中是否有给出这个方向是否紧密的直觉或反例?——这是研究者需要自己下判断的关键点。

张力

未见明显对立引用——总体都是沿着“更强保证 / 更少假设 / 更实用”这一逻辑方向前进,不存在一方主张“假设不重要”,另一方主张“假设严格关键”的不同立场。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
    • \( Y = (Y_1, ..., Y_n)^T \):可观测的响应变量(随机向量)。
    • \( X \)\( n \times p \) 的设计矩阵,为固定(非随机)的。
    • \( \beta \):未知的 \( p \times 1 \) 回归系数向量(参数)。
    • \( \epsilon = (\epsilon_1, ..., \epsilon_n)^T \):随机误差向量。均值为 0,方差有限,且分布完全未知。无正态性或同方差假设
    • \( \Pi \):代表回归任务——\( \Pi(Y) = X\hat{\beta} \),其中 \( \hat{\beta} \) 是 OLS 或任何对称的可估函数(即,对数据进行置换后,系数的估计是“对称”的)。
    • \( Y^{(\pi)} \):通过置换 \( Y \) 的标签获得的“伪数据”。
    • \( X_{-j} \):删去第 \( j \) 个变量的设计矩阵(包含截距和其他所有协变量)。
    • \( \beta_j \):关注的那个“部分”回归系数(待检验的零假设:\( H_0: \beta_j = 0 \))。
    • \( \alpha \):用户指定的名义检验水平。
  • 模型
    \( Y = X \beta + \epsilon \),对于零假设,我们要检验 \( H_0: \beta_j = 0 \)。这是一个标准的线性模型。误差的分布 \( P_\epsilon \) 是完全任意的、非参数的。
  • 可观测数据:我们观察到完整的 \( n \times p \) 设计矩阵 \( X \)\( n \times 1 \) 的响应向量 \( Y \)。我们想估计与检验 \( \beta_j \)。重要的是:误差 \( \epsilon \) 的联合分布是完全未知的、不可观测的;我们唯一能观测到的是其通过线性结构 \( Y \) 和固定设计 \( X \) 所体现的联合分布。

第二步:讲最小内核——二元线性回归和一次置换

为了讲清核心思路,我们考虑最简情况:
最简(手推)例子:只有一个参数 (\( p=1 \)),且我们检验 \( \beta = 0 \),即 \( Y = \beta X + \epsilon \),没有其他协变量。此时只需检验 \( Y \)\( X \) 是否相关。
在这种情况下,标准的方法是:以 \( X \) 为实际观测设计,计算 OLS 估计量 \( \hat{\beta} \),取 t 统计量。但因为 \( \epsilon \) 未知且不正态,我们不能依赖 t 分布。

PALMRT 的核心(此时简化为“做一次随机置换并比较残差”)
1. 原始回归:先用原始数据 \( Y \)\( X \) 回归,得到残差 \( r = Y - X\hat{\beta} \)
2. 构造伪数据:对响应变量 \( Y \) 的标签进行一个随机置换 \( \pi \),得到 \( Y^{(\pi)} \)(打乱了 \( Y \)\( X \) 的对应关系)。然后对 \( Y^{(\pi)} \) 同样对 \( X \) 回归,得到它的残差 \( r^{(\pi)} = Y^{(\pi)} - X\hat{\beta}^{(\pi)} \)
3. 核心统计量:比较两个残差平方和(或类似度量),比如 \( S = ||r||^2 - ||r^{(\pi)}||^2 \)。如果 \( H_0 \) 为真,原始数据和伪数据都是随机噪声打乱的(因为无预测作用),则 \( S \) 应围绕 0 对称分布。
4. 为什么要做这步置换? 若原始 \( Y \) 的结构(与 \( X \) 的关联)在零假设下实际上是随机的(像随机置换的某个实现),那么原始残差 \( r \) 与伪数据残差 \( r^{(\pi)} \) 具有相同的可交换性分布——这就是 PALMRT 能取得有限样本保证的理论基础。

对要证明的命题:我们要证明:
\( H_0: \beta_j = 0 \) 为真,则

\[P(\text{p-value} \leq \alpha) \leq 2\alpha\]
这正是本文的主要定理。其证明的基本思想是:在零假设下,对任意固定的 \( j \),由原始数据 \( (X, Y) \) 和置换数据 \( (X, Y^{(\pi)}) \) 生成的“取绝对值后的残差序列”具有一种交换鞅(exchangeable martingale)结构,从而 I 类错误的翻倍因子“2”被嵌在了马尔可夫 / 随机游走的界 (Ville's inequality) 中。

对于这个最简例子,通过一次(或 B 次)置换,候选 p 值是“有多少次置换,原始统计量比置换统计量大”的比例。证明的关键跳跃:要用同一个统计量对原始数据和所有 B 个置换数据同时计算,并证明在零假设下,这些统计量的绝对值的最大 / 最小排序具有某个界限性质——这使得 I 类错误不超过 2α。这是一个精巧的构造。

小结:在零假设下,通过将响应变量 \( Y \) 与设计矩阵“打散”,并重复回归过程,得到的残差集合本质上构成了一个随机游走 / 鞅,从而能用鞅不等式控制尾部概率。这就是即使没有误差正态性,也能得到 I 类错误控制的核心数学直觉。


三、这篇论文做了什么(本次重心,务必讲透)

  • 三句话

    1. 研究了什么问题:针对固定设计线性模型中的部分相关系数(即单个回归系数)显著性检验,如何在不依赖误差分布假设下,实现有限样本的 I 类错误控制。
    2. 核心工具 / 方法:提出 PALMRT(Permutation-Augmented Linear Model Residual Test),其核心思想是将 共形预测中“对数据进行置换以构造伪观测”的策略,直接应用于假设检验:通过在原始数据和置换数据上分别进行回归,并比较两组残差的某种排序统计量,实现对 I 类错误的有限样本控制。
    3. 主要结论:对于任意固定的设计矩阵 \( X \) 和任意连续分布下的误差 \( \epsilon \),PALMRT 能保证在显著性水平 \( \alpha \) 下,I 类错误率不超过 \( 2\alpha \)(定理 3.3)。并且,其功效(power)在适当条件下能与基于似然的 F 检验相当,且没有 CPT 所要求的 n/p 比例限制。
  • 关键设定与假设

    • 关键设定:固定设计、误差分布任意(无正态性、无同方差要求)、回归算法为 OLS 或任意对称的可估函数(满足:当数据标签被置换后,系数的估计量也相应地被置换对称地调整)。
    • 假设
      • 假设 1 (连续分布):误差的分布是连续的(为了排除 ties,简化理论,但不影响本质结论)。
      • 假设 2 (分组等势性):置换得到的多个伪数据组在某种意义上是“等价的”——这是置换检验的标准设定,也是 Jackknife+ 式的核心。
      • 关键松弛:与 CPT 相比,PALMRT 无 n/p 的样本量比例要求;与 RPT 相比,不需要误差的球对称或同方差假设,这是本文的核心强化。
  • 主要结果

    • 定理 3.3 (核心):对于任意连续误差分布和固定设计,PALMRT 的 p 值满足
      \[\mathbb{P}_{H_0}(p_\text{PALMRT} \le \alpha) \le 2\alpha\]
      这个界未来可望收紧到 ≤ α 或更紧。
    • 定理 3.4 (功效比较):在与 t 检验和 RPT 类似的设置下(如误差对称、大方差),PALMRT 的功效不低于 RPT。还给出了一个渐近线性膨胀的下界。
  • 证明路线与技术技巧

    • 整体路线
      1. 构造“交换鞅”:将原始数据和所有可能的置换(共 N 次)上的统计量序列,构造为一个交换鞅(exchangeable martingale)。关键步骤是:证明在零假设下,统计量的绝对值序列在排列下是可交换的,并且其条件期望满足鞅性质。
      2. 复合错误率界:通过构造一个序列过程(process)覆盖所有可能的置换,并应用Ville's inequality(一种针对连续时间鞅的停止时的不等式)来得到“原始统计量的绝对值在所有置换统计量的排序中,落入某个极端位置的概率被2α控制”这一结论。
      3. 特殊到一般:从最简的单次置换扩展到 B 次(用户指定重复次数),证明界是稳定的:B 越大,界越接近 2α。
    • 关键跳跃点:如何处理因多次置换带来的“多重比较”?作者没有使用 Bonferroni 或 BH 校正,而是通过构造一个连续的、非随机化的排序序贯过程,直接由鞅不等式导出界。这是本文最巧妙的技巧。
    • 技术技巧点名
      • 交换鞅(Exchangeable martingale):这是证明的核心框架,用于整合所有随机置换产生的统计量。
      • Ville's inequality:鞅停止时的尾部界。
      • 拆分法(Splitting trick):将数据随机分成K份进行交叉验证式的计算,等价于通过共形预测的“折刀+” 做多分裂。
  • 真实例子与应用

    • 使用的数据:一项关于“长新冠”的临床研究数据(Klein et al., 2023)。研究者通过免疫谱分析,识别与长新冠(ALS)状态显著相关的细胞频率特征。
    • 方法应用”:在控制了年龄、性别、BMI后,检验每个免疫细胞群与长新冠诊断(0/1)的部分偏相关是否显著。由于样本量有限(n≈270,415个细胞群),且数据分布未知,传统的 t 检验和 F 检验的渐近性在这些小样本下可能不准确。
    • 结果对比
      • t 检验 + 多重校正:识别出 40 多个显著相关的细胞群。
      • PALMRT:保留了这些显著性的绝大部分(不仅复现了 40 个,还额外发现了一些新关联),保持了对错误的可控性。
      • CPT (Lei & Bickel, 2021):对于 n≈270, p=3 (age, sex, BMI) + 1 (target), α=0.05,CPT 要求 n/p ≥ 19,这里虽然满足,但其功效损失严重到“没有发现任何显著结果”
      • RPT (残差置换检验):同样出现了严重的功效损失,“无法识别任何发现”。
    • 这个例子想说明什么:极好地展示了理论在“实际数据中的优势”——PALMRT 在错误控制不失控的提前下,保留了功效,而其他有理论保证的方法在这两点上完全失败。它向生物医学研究者传递的信息是:“这是一个在现实中可靠的、可实际使用的方法,而不是纯粹的理论玩具。”
  • 🔎 结论是否比证明窄

    • 文中明确声明的结论是 I 类错误 ≤ 2α,并在模拟和分析中得到了验证。但“能否收紧到 ≤ α”是一个开放问题(作者也提到了)。
    • 模拟实验中,PALMRT 的 I 类错误率有时确实超过 α(比如在 0.04-0.06 之间),但始终控制在 内。作者非常诚实,并没有做出类似“几乎等于 α”的夸大 claim。
    • 定理 3.4 关于功效的陈述依赖于“误差对称”的附加假设——这个假设比“任意连续分布”要强,意味着在完全一般无假设的情况下,功效可能完全没保证,作者就此进行了诚实的 caveat。

四、开放问题(点到为止,扎根具体语句)

  1. 界能否收紧?
    当前结论是 ≤ 2α。能否改进到 ≤ α?这联系着:“对于任意固定设计和任意误差分布,是否始终存在一个对单变量检验 β_j = 0 的有限样本精确 α 水平的检验? ”(扎根于:Theorem 3.3 之后的 “没有假设” 以及 “如何改进该界是一个开放问题”)

  2. 功效的最优性分析
    本文证明的是 I 类错误控制,但功效总是与具体的效应大小、设计以及误差分布高度耦合。有没有可能得到某种 minimax 的最优性下界?(例如:对于在某个 \( L_2 \) 球中的局部备择假设,PALMRT 的功效与 oracle 检验(已知误差分布的 UMP 检验)相比如何?)(扎根于:关于功效的比较仅限于模拟和注记,没有像 I 类错误那样给出严格的上界。)

  3. 向高维(n<p)的推广
    本文的模型是 n >> p(OLS 可行)。当 n < p 时,如何定义“部分相关系数”?如何保证检验的有效性?可以借鉴 Lasso / 岭回归 / 随机 Forest 等非参数方法中的“多分裂(multi-split)共形预测”来推广。(扎根于:Introduction 中对 n/p 比例的讨论,以及讨论部分暗示的“展望”。)

  4. 工具变量(Instrumental Variables)的排除限制检验
    在因果推断中,检验 IV exclusion restriction 的零假设(工具变量仅通过内生变量影响结果)是核心问题。现有方法(如 Sargan 检验)高度依赖模型设定且渐近。PALMRT 是否能够通过重新排列内生性残差来构造检验?这与你对因果推断的兴趣(“工具变量排除限制检验”)直接呼应。(这是一个开放性的扩展方向,扎根于:你的 research interests 并为你量身定位)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论