A conformal test of linear models via permutation-augmented regressions¶

作者: Leying Guan
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在固定设计线性模型中，对单个（或部分）回归系数做显著性检验时，如何在不依赖误差正态性（或任何已知分布）假设的情况下，获得有限样本下严格（或接近严格）的 I 类错误控制。这是一个经典的统计推断问题，其核心矛盾在于：基于正态理论的方法（如经典的 F/t 检验）在误差非正态时只有渐近保证，且在小样本下的实际第一类错误率可能严重偏离名义水平；而传统的随机置换检验（如残差置换检验 RPT）虽然理论上提供了精确控制，但只在某些非常特殊的设计或误差结构下才做到这一点——对于一般线性模型和任意固定设计，已有的置换方法要么需要严格的额外要求（如足够大的样本量、误差的球形分布、设计矩阵的特殊结构），要么在保持有限样本保证时牺牲大量检验功效。当前的一些进展（如循环置换检验 CPT）虽然在特定条件下实现了精确的 I 类错误控制，但面临样本量要求苛刻、功效损失严重等实际限制。本文试图填补这一空白：提出一种在任意固定设计、任意误差分布下，能够有限样本控制 I 类错误率不超过给定名义水平的 2 倍，同时不严重牺牲功效的通用置换检验方法。

发展脉络（history）¶

奠基工作：置换检验的早期基础 (Pitman, 1937; Manly, 2006; Edgington and Onghena, 2007)。这些工作建立了置换检验在简单相关（无协变量调整）中的理论基础，证明了对于简单相关（比如两个变量间）的检验，通过随机置换可以严格控制 I 类错误。这为本领域提供了最原始的“通过排列构造随机化零分布”的框架。但关键在于，这些早期方法不适用于需要调整协变量的部分相关检验情形。
主要进展 1：置换检验在一般线性模型中的探索与近似方法 (Winkler et al., 2014; Hall and Wilson, 1991; Westfall and Young, 1993; Anderson and Robinson, 2001)。这些工作致力于将置换检验用于一般线性模型（GLM）中的部分参数推断。Winkler 等人提出了针对 GLM 中参数推断的框架，并指出当误差可交换或具有对称分布时，置换推断是有效的，且能通过使用“枢轴型”（pivotal）检验统计量（如 t/F 统计量）来提高对非可交换性的鲁棒性。然而，正如本文所强调的，这些方法的保证依赖于“误差可交换性”这一强假设（在含协变量的线性回归中通常不成立），或者只是“经验上鲁棒”，缺乏严格的有限样本保证。
主要进展 2：追求精确控制的循环置换检验 (CPT) 与残差置换检验 (RPT) (Lei and Bickel, 2021; 以及其他关于 RPT 的工作)。Lei 和 Bickel 提出的 CPT 是一个里程碑——它首次（在固定设计线性模型中）实现了一个非随机化的、对任意固定设计和任意可交换误差都精确控制 I 类错误（恰好为 α，而不是上界）的检验。CPT 通过构造一个非标准的循环置换群，保证在该群下检验统计量的联合分布是等变的。然而，这带来了巨大的实践限制：要求样本量 n 和参数个数 p 满足 n/p ≥ 1/α - 1（例如，检验 α=0.05 时，n必须至少是19倍的p）；且为了增强功效，CPT 需要求解一个“旅行商问题”式的次要优化问题，并用遗传算法近似求解，这在计算上开销不小且可能不稳定。本文正是指出 CPT 的这两个致命弱点：样本量要求和功效损失。 同时，RPT 虽然简单，但其有限样本下的 I 类错误控制只在特定强假设下（如误差为球对称分布）才成立，对于一般的误差分布，其控制是近似的。
当前 frontier：共形预测框架与传统假设检验的交叉 (Barber et al., 2021; Kim et al., 2020; Gupta et al., 2022; Han et al., 2023)。共形预测（Conformal Prediction）在预测区间问题中取得了突破，提供了在非交换（non-exchangeable）或部分信息下的有限样本保证（如 Jackknife+ 系列的覆盖率保证）。Vovk 等人，Barber 等人和金等人的工作建立了“多分裂共形预测”的方法，通过聚合多个分裂或折刀结果来构造预测区间。这些方法不仅扩展了共形预测的理论，更重要的是，它们的思想——通过在不同的数据子集上拟合模型来获得多个预测值，并基于这些预测值的“非符合性”得分来构建统计量——可以直接应用于假设检验。本文正是将这一思路从预测问题迁移到了检验问题。
本文的定位：作者站在上述两条线索的交汇点。一方面，他们直面 CPT 和 RPT 在假设检验中的固有问题（功率损失 / 假设限制）；另一方面，他们巧妙地借鉴了共形预测/Jackknife+ 框架在预测区间中的成功经验，将其核心思想“通过数据分裂（具体是置换分裂）得到多个模型输出，再通过聚合得到有效的统计推断”适配到基于置换的检验中。最终，他们的方法 PALMRT 既不要求 CPT 那样对样本量的苛刻要求，也不依赖 RPT 对误差分布的严格假设，同时实现了比现有方法更强的功率。

子线索聚类¶

置换检验在回归模型中的拓展：这类工作的核心是如何构造一个在零假设下，使得检验统计量（或其序贯）具有精确已知分布的置换过程。
- 代表：Pitman (1937), Manly (2006), Winkler (2014), Lei & Bickel (2021)。
- 本体问题：如何通过选择合适的置换群和检验统计量，实现 I 类错误控制？
- 被 Paul 淡化/回避的：CPT 的作者 Lei 和 Bickel 也得到了精确的 α 控制，但本文的处理则是一个“2α” 的上界控制——这是一个权衡的 trade-off，但本文没有明确地讨论“为什么追求严格 α 控制是不必要的或代价过高”这一元问题。
共形预测框架及其拓展（多重分裂、折叠、聚合）：这类工作致力于为预测问题提供分布自由的有限样本保证。其创新不在于检验本身，而在于“通过数据切分和聚合构造可交换性”的数学技巧。
- 代表：Barber et al. (2021), Kim et al. (2020), Gupta et al. (2022), Han et al. (2023)。
- 本体问题：如何为任意的、对称的预测算法提供有效的覆盖率保证。
- 与本文的直接联系：本文的 PALMRT 直接利用了“通过置换数据来构造可交换的预测”这一思想，并发展出了与之并行但属于假设检验框架的理论。
用于 FDR 控制的 Knockoffs 及其衍生物：虽然方向不同（变量选择 vs. 单一检验），但其控制随机性的思想与本文有共鸣——尤其是通过多次随机化（knockoffs 的多次生成）获得多个 p 值/ e 值，再聚合得到稳健控制。
- 代表：Barber & Candès (2014), Ren & Barber (2022), Vovk & Wang (2021), Wang & Ramdas (2020)。
- 与本文的交叉：本文从单个假设（部分相关系数是否为零）出发，强调在控制 I 类错误时的简便稳健性，而 Knockoffs 处理的是多重性下的 FDR 控制。值得研究者追问：PALMRT 是否能扩展到多重检验（如变量选择）中，而不仅仅止步于一个部分相关系数的检验？

这个方向在追问的核心问题¶

对于固定设计线性模型的单变量检验，是否存在一个通用的、有限样本下对任意分布都有效且不牺牲功效的置换检验？
如果普遍做不到，那么在哪些额外条件（如误差的对称性、样本量与变量数的比例）下可以实现？
从“预测”框架中启发得到的“分裂/聚合”策略，是否能提供一个在两难（样本量要求 vs. 分布假设）之间有效的折中方案？

⚠️ 作者的 framing¶

作者的 framing 是：CPT和RPT虽然在理论上给出了有限样本保证，但它们“要么对样本量有严格限制，要么无法保持检验功效”（直接出自 Introduction 和对比实验的论述）。因此，本文的“显然的下一步”是：在放松这些限制的同时，依然能提供“好的但并非完美”（2α）的 I 类错误控制。
被作者淡化或回避的竞争路线：作者比较了 6 种方法，但并未深入讨论为什么不能直接使用基于 bootstrap 的置信区间（如 BCa bootstrap）的检验。Efron 的 BCa 方法在功效上通常不错，但也是渐近一致（第一阶准确），不具有有限样本保证。作者的选择是很直接的：他们只关心有有限样本理论保证的方法。
值得研究者查证的问题：
1. 为什么本文没有引用并讨论“Jin & Wang (2022) 关于置换检验渐近准确性的基于高斯投影的文章”？或者“基于鞅贝叶斯假设检验 / e-values 的序列检验”？
2. 作者明确说“无假设保证的有限样本控制是开放的”，但后面又说 “type I error ≤ 2α”。是否可以从“≤ 2α”改进到“≤ α”？作者在文中是否有给出这个方向是否紧密的直觉或反例？——这是研究者需要自己下判断的关键点。

张力¶

未见明显对立引用——总体都是沿着“更强保证 / 更少假设 / 更实用”这一逻辑方向前进，不存在一方主张“假设不重要”，另一方主张“假设严格关键”的不同立场。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( Y = (Y_1, ..., Y_n)^T \)：可观测的响应变量（随机向量）。
- \( X \)：\( n \times p \) 的设计矩阵，为固定（非随机）的。
- \( \beta \)：未知的 \( p \times 1 \) 回归系数向量（参数）。
- \( \epsilon = (\epsilon_1, ..., \epsilon_n)^T \)：随机误差向量。均值为 0，方差有限，且分布完全未知。无正态性或同方差假设。
- \( \Pi \)：代表回归任务——\( \Pi(Y) = X\hat{\beta} \)，其中 \( \hat{\beta} \) 是 OLS 或任何对称的可估函数（即，对数据进行置换后，系数的估计是“对称”的）。
- \( Y^{(\pi)} \)：通过置换 \( Y \) 的标签获得的“伪数据”。
- \( X_{-j} \)：删去第 \( j \) 个变量的设计矩阵（包含截距和其他所有协变量）。
- \( \beta_j \)：关注的那个“部分”回归系数（待检验的零假设：\( H_0: \beta_j = 0 \)）。
- \( \alpha \)：用户指定的名义检验水平。
模型：
\( Y = X \beta + \epsilon \)，对于零假设，我们要检验 \( H_0: \beta_j = 0 \)。这是一个标准的线性模型。误差的分布 \( P_\epsilon \) 是完全任意的、非参数的。
可观测数据：我们观察到完整的 \( n \times p \) 设计矩阵 \( X \) 和 \( n \times 1 \) 的响应向量 \( Y \)。我们想估计与检验 \( \beta_j \)。重要的是：误差 \( \epsilon \) 的联合分布是完全未知的、不可观测的；我们唯一能观测到的是其通过线性结构 \( Y \) 和固定设计 \( X \) 所体现的联合分布。

第二步：讲最小内核——二元线性回归和一次置换¶

为了讲清核心思路，我们考虑最简情况：
最简（手推）例子：只有一个参数 (\( p=1 \))，且我们检验 \( \beta = 0 \)，即 \( Y = \beta X + \epsilon \)，没有其他协变量。此时只需检验 \( Y \) 与 \( X \) 是否相关。
在这种情况下，标准的方法是：以 \( X \) 为实际观测设计，计算 OLS 估计量 \( \hat{\beta} \)，取 t 统计量。但因为 \( \epsilon \) 未知且不正态，我们不能依赖 t 分布。

PALMRT 的核心（此时简化为“做一次随机置换并比较残差”）：
1. 原始回归：先用原始数据 \( Y \) 对 \( X \) 回归，得到残差 \( r = Y - X\hat{\beta} \)。
2. 构造伪数据：对响应变量 \( Y \) 的标签进行一个随机置换 \( \pi \)，得到 \( Y^{(\pi)} \)（打乱了 \( Y \) 与 \( X \) 的对应关系）。然后对 \( Y^{(\pi)} \) 同样对 \( X \) 回归，得到它的残差 \( r^{(\pi)} = Y^{(\pi)} - X\hat{\beta}^{(\pi)} \)。
3. 核心统计量：比较两个残差平方和（或类似度量），比如 \( S = ||r||^2 - ||r^{(\pi)}||^2 \)。如果 \( H_0 \) 为真，原始数据和伪数据都是随机噪声打乱的（因为无预测作用），则 \( S \) 应围绕 0 对称分布。
4. 为什么要做这步置换？ 若原始 \( Y \) 的结构（与 \( X \) 的关联）在零假设下实际上是随机的（像随机置换的某个实现），那么原始残差 \( r \) 与伪数据残差 \( r^{(\pi)} \) 具有相同的可交换性分布——这就是 PALMRT 能取得有限样本保证的理论基础。

对要证明的命题：我们要证明：
若 \( H_0: \beta_j = 0 \) 为真，则

\[P(\text{p-value} \leq \alpha) \leq 2\alpha\]

这正是本文的主要定理。其证明的基本思想是：在零假设下，对任意固定的 \( j \)，由原始数据 \( (X, Y) \) 和置换数据 \( (X, Y^{(\pi)}) \) 生成的“取绝对值后的残差序列”具有一种交换鞅（exchangeable martingale）结构，从而 I 类错误的翻倍因子“2”被嵌在了马尔可夫 / 随机游走的界 (Ville's inequality) 中。

对于这个最简例子，通过一次（或 B 次）置换，候选 p 值是“有多少次置换，原始统计量比置换统计量大”的比例。证明的关键跳跃：要用同一个统计量对原始数据和所有 B 个置换数据同时计算，并证明在零假设下，这些统计量的绝对值的最大 / 最小排序具有某个界限性质——这使得 I 类错误不超过 2α。这是一个精巧的构造。

小结：在零假设下，通过将响应变量 \( Y \) 与设计矩阵“打散”，并重复回归过程，得到的残差集合本质上构成了一个随机游走 / 鞅，从而能用鞅不等式控制尾部概率。这就是即使没有误差正态性，也能得到 I 类错误控制的核心数学直觉。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话：
1. 研究了什么问题：针对固定设计线性模型中的部分相关系数（即单个回归系数）显著性检验，如何在不依赖误差分布假设下，实现有限样本的 I 类错误控制。
2. 核心工具 / 方法：提出 PALMRT（Permutation-Augmented Linear Model Residual Test），其核心思想是将 共形预测中“对数据进行置换以构造伪观测”的策略，直接应用于假设检验：通过在原始数据和置换数据上分别进行回归，并比较两组残差的某种排序统计量，实现对 I 类错误的有限样本控制。
3. 主要结论：对于任意固定的设计矩阵 \( X \) 和任意连续分布下的误差 \( \epsilon \)，PALMRT 能保证在显著性水平 \( \alpha \) 下，I 类错误率不超过 \( 2\alpha \)（定理 3.3）。并且，其功效（power）在适当条件下能与基于似然的 F 检验相当，且没有 CPT 所要求的 n/p 比例限制。
关键设定与假设：
- 关键设定：固定设计、误差分布任意（无正态性、无同方差要求）、回归算法为 OLS 或任意对称的可估函数（满足：当数据标签被置换后，系数的估计量也相应地被置换对称地调整）。
- 假设：
  - 假设 1 (连续分布)：误差的分布是连续的（为了排除 ties，简化理论，但不影响本质结论）。
  - 假设 2 (分组等势性)：置换得到的多个伪数据组在某种意义上是“等价的”——这是置换检验的标准设定，也是 Jackknife+ 式的核心。
  - 关键松弛：与 CPT 相比，PALMRT 无 n/p 的样本量比例要求；与 RPT 相比，不需要误差的球对称或同方差假设，这是本文的核心强化。
主要结果：
- 定理 3.3 (核心)：对于任意连续误差分布和固定设计，PALMRT 的 p 值满足
  
  \[\mathbb{P}_{H_0}(p_\text{PALMRT} \le \alpha) \le 2\alpha\]
  这个界未来可望收紧到 ≤ α 或更紧。
- 定理 3.4 (功效比较)：在与 t 检验和 RPT 类似的设置下（如误差对称、大方差），PALMRT 的功效不低于 RPT。还给出了一个渐近线性膨胀的下界。
证明路线与技术技巧：
- 整体路线：
  1. 构造“交换鞅”：将原始数据和所有可能的置换（共 N 次）上的统计量序列，构造为一个交换鞅（exchangeable martingale）。关键步骤是：证明在零假设下，统计量的绝对值序列在排列下是可交换的，并且其条件期望满足鞅性质。
  2. 复合错误率界：通过构造一个序列过程（process）覆盖所有可能的置换，并应用Ville's inequality（一种针对连续时间鞅的停止时的不等式）来得到“原始统计量的绝对值在所有置换统计量的排序中，落入某个极端位置的概率被2α控制”这一结论。
  3. 特殊到一般：从最简的单次置换扩展到 B 次（用户指定重复次数），证明界是稳定的：B 越大，界越接近 2α。
- 关键跳跃点：如何处理因多次置换带来的“多重比较”？作者没有使用 Bonferroni 或 BH 校正，而是通过构造一个连续的、非随机化的排序序贯过程，直接由鞅不等式导出界。这是本文最巧妙的技巧。
- 技术技巧点名：
  - 交换鞅（Exchangeable martingale）：这是证明的核心框架，用于整合所有随机置换产生的统计量。
  - Ville's inequality：鞅停止时的尾部界。
  - 拆分法（Splitting trick）：将数据随机分成K份进行交叉验证式的计算，等价于通过共形预测的“折刀+” 做多分裂。
真实例子与应用：
- 使用的数据：一项关于“长新冠”的临床研究数据（Klein et al., 2023）。研究者通过免疫谱分析，识别与长新冠（ALS）状态显著相关的细胞频率特征。
- 方法应用”：在控制了年龄、性别、BMI后，检验每个免疫细胞群与长新冠诊断（0/1）的部分偏相关是否显著。由于样本量有限（n≈270，415个细胞群），且数据分布未知，传统的 t 检验和 F 检验的渐近性在这些小样本下可能不准确。
- 结果对比：
  - t 检验 + 多重校正：识别出 40 多个显著相关的细胞群。
  - PALMRT：保留了这些显著性的绝大部分（不仅复现了 40 个，还额外发现了一些新关联），保持了对错误的可控性。
  - CPT (Lei & Bickel, 2021)：对于 n≈270, p=3 (age, sex, BMI) + 1 (target), α=0.05，CPT 要求 n/p ≥ 19，这里虽然满足，但其功效损失严重到“没有发现任何显著结果”。
  - RPT (残差置换检验)：同样出现了严重的功效损失，“无法识别任何发现”。
- 这个例子想说明什么：极好地展示了理论在“实际数据中的优势”——PALMRT 在错误控制不失控的提前下，保留了功效，而其他有理论保证的方法在这两点上完全失败。它向生物医学研究者传递的信息是：“这是一个在现实中可靠的、可实际使用的方法，而不是纯粹的理论玩具。”
🔎 结论是否比证明窄：
- 文中明确声明的结论是 I 类错误 ≤ 2α，并在模拟和分析中得到了验证。但“能否收紧到 ≤ α”是一个开放问题（作者也提到了）。
- 模拟实验中，PALMRT 的 I 类错误率有时确实超过 α（比如在 0.04-0.06 之间），但始终控制在 2α 内。作者非常诚实，并没有做出类似“几乎等于 α”的夸大 claim。
- 定理 3.4 关于功效的陈述依赖于“误差对称”的附加假设——这个假设比“任意连续分布”要强，意味着在完全一般无假设的情况下，功效可能完全没保证，作者就此进行了诚实的 caveat。

四、开放问题（点到为止，扎根具体语句）¶

界能否收紧？
当前结论是 ≤ 2α。能否改进到 ≤ α？这联系着：“对于任意固定设计和任意误差分布，是否始终存在一个对单变量检验 β_j = 0 的有限样本精确 α 水平的检验？ ”（扎根于：Theorem 3.3 之后的 “没有假设” 以及 “如何改进该界是一个开放问题”）
功效的最优性分析
本文证明的是 I 类错误控制，但功效总是与具体的效应大小、设计以及误差分布高度耦合。有没有可能得到某种 minimax 的最优性下界？（例如：对于在某个 \( L_2 \) 球中的局部备择假设，PALMRT 的功效与 oracle 检验（已知误差分布的 UMP 检验）相比如何？）（扎根于：关于功效的比较仅限于模拟和注记，没有像 I 类错误那样给出严格的上界。）
向高维（n<p）的推广
本文的模型是 n >> p（OLS 可行）。当 n < p 时，如何定义“部分相关系数”？如何保证检验的有效性？可以借鉴 Lasso / 岭回归 / 随机 Forest 等非参数方法中的“多分裂（multi-split）共形预测”来推广。（扎根于：Introduction 中对 n/p 比例的讨论，以及讨论部分暗示的“展望”。）
工具变量（Instrumental Variables）的排除限制检验：
在因果推断中，检验 IV exclusion restriction 的零假设（工具变量仅通过内生变量影响结果）是核心问题。现有方法（如 Sargan 检验）高度依赖模型设定且渐近。PALMRT 是否能够通过重新排列内生性残差来构造检验？这与你对因果推断的兴趣（“工具变量排除限制检验”）直接呼应。（这是一个开放性的扩展方向，扎根于：你的 research interests 并为你量身定位）。

Maintained by 陈星宇 · Homepage · Source on GitHub