Rank-transformed subsampling: inference for multiple data splitting and exchangeable p-values¶

作者: F Richard Guo, Rajen D Shah
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：当一个检验统计量或p值依赖于随机化过程（如随机数据分割）时，如何稳健且高效地聚合多次随机化的结果，以同时获得(1)可复现的推断（不因随机种子改变而改变）、(2)接近名义水平的类型一错误控制，以及(3)不因聚合而损失过多的检验功效。该子方向位于假设检验、重抽样推断与多重测试的交叉处，目前成熟度中等：已有大量启发式方法和针对特定问题的聚合方案，但缺乏一个通用的、在大样本下可证明渐近依分布收敛到原假设下极限分布的框架。

发展脉络（history）¶

将intro引用的工作串成一条线：

奠基工作：数据分割与单次随机化的缺陷
Meinshausen, Meier & Bühlmann (2009) [6]：高维回归中通过单次数据分割获得渐近有效的p值，但明确指出"results are sensitive to this arbitrary choice, which amounts to a “p-value lottery” and makes it difficult to reproduce results"。这是后续所有"多重分割"工作的出发点。
Ioannidis (2005) [1] / Baker (2016)：从更宏观的"复制危机"角度指出，分析流程的灵活性（如随机分割）导致假阳性膨胀，是"most published research findings are false"的重要原因之一。
主要进展：多重分割与可交换p值的聚合尝试
Meinshausen & Bühlmann (2010) [4] / Shah & Samworth (2013) [8]：稳定性选择（stability selection）通过子采样（subsampling）聚合变量选择的频率，实现了有限样本下的错误控制。该工作启发了子采样用于聚合的思路，但主要面向模型选择而非假设检验。
DiCiccio (2018)、Romano & DiCiccio (2019)、Tian et al. (2021) [3]：在多重分割的框架下，证明了来自不同随机分割的p值是可交换的（exchangeable），并利用这一结构构造了水平α检验。但本文指出这些方法往往保守（conservative），即实际类型一错误远低于名义水平，导致功效损失。
Liu, Yu & Li (2022) [3]：提出多重分割投影检验（MPT），在可交换p值的假设下构造了精确的α水平检验，相比保守的p值组合法提升了功效。这是最接近本文的前序工作之一。
Solari & Djordjilović (2022) [18]：多重分割共形预测（multi split conformal prediction），用Markov不等式聚合多个分割产生的预测区间。方法简便，但聚合方式偏保守。
当前frontier：克服保守性的通用框架与p值聚合规则
Liu & Xie (2020) [7]：Cauchy组合检验——对任意相关结构下的p值，用Cauchy变换的加权和构造检验统计量，其尾部可近似为Cauchy分布。该方法计算简单且对相关性不敏感，但在强依赖下仍可能偏保守。
Vovk & Wang (2021) [10]：将p值转换为e值（e-values）再取平均，作为聚合方案；e值在数学上更易处理（平均e值仍是e值），但需要将p值校准为e值，这一校准本身可能损失信息。
DiCiccio et al. (2020)：通过浓度不等式开发了另一类聚合规则。
本文位置：本文提出的秩变换子采样（rank-transformed subsampling）是上述脉络的"统一推广"：它不依赖p值的特定聚合函数，而是直接对组合后的统计量或p值做子采样推断；核心技术贡献是证明了秩变换可以消除子采样在备择假设下的一阶偏差，使得类型一错误渐近精确达到名义水平（而非保守），同时功效优于普通子采样。

子线索聚类¶

多重数据分割与p值聚合（[3], [6], [18]）：核心问题是聚合多次随机分割产生的检验结果，利用可交换性构造检验或置信集。当前瓶颈：大多数聚合方法偏保守（Cauchy组合也只在稀疏替代下才达最优），只有少数特例（如Liu et al. 2022的MPT）能做到精确α水平，但MPT依赖于特定检验统计量形式。
子采样与稳定性选择（[4], [8]）：聚焦于子采样（subsampling）而非bootstrap，作为构造推断或控制错误发现率的手段。本文直接继承了这一工具体系，并将其从"频率聚合"拓展到了"极限分布逼近"。
交叉拟合与Neyman正交估计（[9], [11], [12], [13]）：半参数估计中，交叉拟合（cross-fitting）实际上也是一种数据分割。本文的一个核心应用就是校准交叉拟合DML置信区间——由于交叉拟合引入了额外的随机性，其置信区间可能出现覆盖不足；本文方法可将其校准到名义水平。

这个方向在追问的核心问题¶

如何在不损失太多功效的前提下聚合多次随机分割？（当前主流方法为保守聚合、Cauchy组合、e值平均，各有代价）
聚合后检验统计量的极限分布是什么？（特别是当不同分割下的p值高度相关时，传统delta方法或CLT失效）
能否构造一个通用的聚合框架，不依赖于特定的单一检验统计量形式或特定的聚合函数？
交叉拟合等实际流行但引入额外随机性的方法，其推断结果如何校准？

⚠️ 作者的framing¶

作者声称的缺口：现有聚合方法（包括Cauchy组合、e值方法、浓度不等式方法）都"can be highly conservative"；而像Liu et al. (2022)那样能实现精确控制的MPT方法，其框架不够通用（"the resulting test may not lend itself well to the type of approach...since the exchangeable p-values framework cannot be directly applied."）。
作者的定位：秩变换子采样作为一种通用方法（"general method"），适用于"test statistics or p-values resulting from multiple random realizations"，"under mild assumptions"。
被淡化/回避的竞争路线：
e值方法被提及但仅作为"aggregation rules"之一，introduction未深入讨论e值框架的潜在优势（如e值可以简单取平均、不需要计算联合分布）。
贝叶斯方法（如贝叶斯模型平均）被完全回避——尽管理论上贝叶斯聚合也能处理多重分割问题，但在introduction中未被提及。
"交叉拟合DML置信区间"的具体文献（Chernozhukov et al., 2018; Newey & Robins, 2018）被引用，但该子领域本身已有大量关于"cross-fitting方差校正"的工作（如Kline et al. 2022的"leave-one-out" cross-fitting、Jiang et al. 2022 [25]的高维CLT），这些工作与本文的直接竞争关系未被讨论。
值得研究者去查的问题：
同为RSB发表的Shah & Samworth (2013) [8]的"complementary pairs stability selection"是否可以在假设检验情境下等价于某种秩变换子采样？若可，本文的新颖性何在？
Kim & Ramdas (2024) [19]的"dimension-agnostic inference using cross U-statistics"也在用block-wise sample splitting构造极限分布，与本文的"秩变换子采样"在数学结构上是否有深层联系？这触及研究者自己的U-statistics工作。

张力¶

未见明显对立引用。所有被引工作都承认"多重分割结果不稳定性"是一个问题，并各自提出解决方案。主要张力在"精确度 vs. 通用性"之间：MPT框架可精确控制但不够通用；保守聚合方法通用但不够精确；本文声称同时做到了通用且渐近精确。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号表（逐一交代）：

记号	含义	类型
\(X_1,\dots,X_n\)	i.i.d.样本，取值于\(\mathcal{X}\)	可观测随机变量
\(P\)	未知的数据生成分布	总体
\(\mathcal{H}_0\)	原假设（如\(\theta(P)=\theta_0\)）	统计假设
\(T_n = T_n(X_1,\dots,X_n)\)	某个检验统计量，依赖于全部\(n\)个样本	可观测，随机变量
\(b = b_n\)	子采样块大小（block size），\(b < n\)	用户选择参数
\(B\)	子采样重复次数	用户选择参数（可趋于无穷）
\(S_1,\dots,S_B\)	从\(\{1,\dots,n\}\)中无放回抽取的大小为\(b\)的随机子集	不可观测的随机机制
\(T_{n,b}^{(j)} = T_b(X_i: i\in S_j)\)	在第\(j\)个子样本上计算的检验统计量	基于可观测数据的随机变量
\(L_n = L(T_n)\)	某种"组合统计量"（如\(T_n\)本身，或基于\(T_n\)构造的p值\(p_n\)）	可观测
\(L_{n,b}^{(j)} = L(T_{n,b}^{(j)})\)	子样本版本的组合统计量	基于子样本的可观测随机变量
\(Q_n(\cdot)\)	\(L_n\)在原假设\(H_0\)下的精确累积分布函数（CDF）	未知（因\(P\)未知）
\(\hat{Q}_{n,b}^{\text{raw}}(\cdot)\)	原始子采样对\(Q_n\)的估计：基于\(B\)个\(L_{n,b}^{(j)}\)的经验CDF	可计算
\(\hat{Q}_{n,b}^{\text{rank}}(\cdot)\)	秩变换子采样对\(Q_n\)的估计	可计算
\(R_{n,b}^{(j)}\)	\(L_{n,b}^{(j)}\)在全体\(B\)个值中的秩（经过缩放）	可计算

模型： - 数据生成：\(X_1,\dots,X_n \stackrel{i.i.d.}{\sim} P\)，无进一步分布假设（非参数/半参数设定）。 - 检验问题：\(H_0: P \in \mathcal{P}_0\)（某类分布），备择\(H_1: P \notin \mathcal{P}_0\)。 - 检验统计量：\(T_n\)是一个合理的检验统计量（通常在\(H_0\)下渐近枢轴，或其极限分布可被逼近）。

可观测数据： - 观测到：全体样本\(X_1,\dots,X_n\)，以及计算出的\(T_n\)、\(L_n\)。 - 潜在/不可观测：\(T_n\)在\(H_0\)下的精确分布\(Q_n\)（除非样本量极大或分布已知）。

第二步：讲最小内核¶

最简特例：考虑单样本均值检验（两样本亦可），但为处理高维而使用数据分割。

问题：设\(X_1,\dots,X_n \sim P\)，检验\(H_0: E[X] = 0\)。直接使用\(T_n = \sqrt{n}\,\bar{X}_n\)（标准化样本均值）可行，但研究者可能希望使用更复杂的非线性统计量（如最大项、投影统计量），而这些统计量的极限分布依赖于\(P\)的未知特征（如协方差结构）。
数据分割策略：随机将数据分成两半\(A\)和\(B\)。用\(A\)估计某种"降维方向"或"正则化参数"，用\(B\)计算检验统计量。这样做的优势是检验统计量在\(H_0\)下的条件分布易于处理，但代价是只用了\(n/2\)个样本，功效下降。
多重分割：重复上述随机分割\(K\)次，每次得到p值\(p^{(k)}\)。问题是：如何聚合这些\(p^{(1)},\dots,p^{(K)}\)？

最小内核的秩变换子采样思路：

不直接聚合p值，而是构造一个组合统计量\(L_n\)。最简单的选择：\(L_n = \prod_{k=1}^K p^{(k)}\)（Fisher组合法），或\(L_n = \min_k p^{(k)}\)。
为了得到\(L_n\)在\(H_0\)下的p值，我们不依赖于\(L_n\)的已知理论分布（它很复杂，因为\(p^{(k)}\)之间相关），而是使用子采样（subsampling）：
从原数据中抽取\(B\)个大小为\(b\)的随机子样本（无放回，\(b < n\)）。
对每个子样本，重复相同的多重分割+计算组合统计量\(L_{n,b}^{(j)}\)的过程。
用这些\(L_{n,b}^{(j)}\)的经验分布去逼近\(L_n\)在\(H_0\)下的精确分布。
问题：子采样有偏差。特别是，当原假设\(H_0\)不成立时（即数据来自备择），\(L_n\)的均值与子样本版本\(L_{n,b}^{(j)}\)的均值不同——因为子样本的样本量\(b < n\)，其检验功效更差，因此子样本分布系统地偏离了（更大的）全样本统计量的位置。这个偏差在\(H_0\)下为0，但在备择下非0，导致子采样p值过度保守（类型一错误小，但功效低）。
秩变换解决：将每个子样本统计量\(L_{n,b}^{(j)}\)替换为它在全部\(B\)个子样本统计量中的秩（经线性缩放至[0,1]区间）。核心发现：秩变换消除了子采样的一阶偏差。
直觉：在\(H_0\)下，秩是均匀分布的（因为所有子样本来自同一\(P\)，\(L_{n,b}^{(j)}\)在同分布下交换）。在备择下，虽然\(L_{n,b}^{(j)}\)的均值因样本量差异而不同，但它们的秩（相对排序）保留了全样本统计量\(L_n\)相对于null分布的位置信息。
具体：令\(R_{n,b}^{(j)} = (1/B)\sum_{k=1}^B \mathbf{1}\{L_{n,b}^{(k)} \le L_{n,b}^{(j)}\}\)，即经验分位数。秩变换的检验统计量就是\(R_n = (1/B) \sum_{j=1}^B \mathbf{1}\{L_{n,b}^{(j)} \ge L_n\}\)——即全样本组合统计量\(L_n\)在子样本分布中的经验分位数。该值就是秩变换子采样p值。

为什么这能工作：在一系列正则性条件下（\(b/n \to 0, b \to \infty\)；子样本统计量满足某个极限分布的存在性和连续性；原假设下\(L_n\)的极限分布连续；且\(L_n\)与子样本统计量在原假设下的分布渐近等价），秩变换子采样p值在\(H_0\)下渐近均匀[0,1]，在\(H_1\)下趋于0（即拒绝原假设）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：提出秩变换子采样（rank-transformed subsampling）作为一个通用框架，用于对依赖随机化（如多重数据分割）的检验统计量或p值进行大样本推断，以解决单次随机化的不稳定性与现有聚合方法的保守性。
核心工具/方法：将子采下来自不同子样本的统计量替换为它们在所有子样本统计量中的秩（经验分位数），再用全样本统计量在上述秩分布中的位置构造p值或置信区间。该方法不需要知道原假设下\(L_n\)的解析分布。
主要结论：在正则性条件下，秩变换子采样p值在\(H_0\)下渐近于均匀分布，使得类型一错误渐近精确达到名义水平；在\(H_1\)下，秩变换消除了普通子采样的一阶偏差，从而相比普通子采样显著提升功效。

关键设定与假设¶

完整符号（在第二节基础上补全）： - 组合统计量\(L_n = L(T_n)\)：可以是\(T_n\)本身，也可以是p值\(p_n = 1 - F_n(T_n)\)，其中\(F_n\)是\(T_n\)在\(H_0\)下的渐近CDF，或某种更复杂的聚合函数（如Fisher组合、Cauchy组合）。 - 随机化机制\(\omega\)：生成多重分割或多次随机化的随机种子/方案。是\(L_n\)依赖的额外随机性。在子采样时，对每个子样本独立应用相同的随机化机制（即"replicate the entire randomization process"）。 - 子采样统计量：\(L_{n,b}^{(j)} = L(T_{n,b}^{(j)})\)——注意，这里\(T_{n,b}^{(j)}\)是在大小为\(b\)的子样本上完整地执行了与全样本相同的随机化+检验流程后得到的统计量。 - 关键对象：秩变换p值记为\(p_{\text{RT}} = \frac{1}{B+1}\left(1+\sum_{j=1}^B \mathbf{1}\{L_{n,b}^{(j)} \ge L_n\}\right)\)。

关键假设（逐条说明）： 1. 正则性条件（Assumption 1）：存在一个实数序列\(a_n\)（通常\(a_n = \sqrt{n}\)）和一个非退化的极限分布\(J\)，使得\((L_n - \theta_0)/\sigma_n \xrightarrow{d} J\)在\(H_0\)下成立，其中\(\theta_0\)是\(H_0\)下的某个虚无参数（如\(E[L_n] = 0\)），\(\sigma_n\)是\(L_n\)的标准差。含义：保证\(L_n\)有定义良好的渐近分布，这是所有子采样方法都需要的。 2. 子采样一致性（Assumption 2）：子样本统计量\(L_{n,b}^{(j)}\)（在其自身规模\(b\)下缩放后的版本）的极限分布与基于全样本的极限分布相同——即\((L_{n,b}^{(j)} - \theta_0)/\sigma_b \xrightarrow{d} J\)，其中\(\sigma_b\)按规模\(b\)缩放。含义：子样本是数据的一个"忠实"缩微版本，这是子采样方法有效的前提。 3. 块大小条件：\(b = b_n\)满足\(b \to \infty\)且\(b/n \to 0\)（保证子样本数量足够多，且子样本间重叠度可控）。 4. 连续性条件（Assumption 3）：极限分布\(J\)的CDF是连续的。含义：避免秩变换在分布跳跃处失效（如离散统计量需特殊处理）。 5. 随机化机制的交换性：由随机化机制\(\omega\)产生的多个随机化的结果（如多重分割的p值）在子样本上交换。含义：保证秩变换后的子样本统计量在\(H_0\)下是（渐近）均匀的。

相比已有文献的变化： - 相比普通子采样（Politis, Romano & Wolf, 1999）：放宽了对"\(L_n\)在\(H_0\)下是（渐近）枢轴统计量"的要求——秩变换子采样可以处理非枢轴的\(L_n\)，只要其极限分布存在且连续。 - 相比p值聚合方法（Cauchy组合、e值等）：假设更弱——不要求p值之间独立或满足任何特定相关性结构，也不要求聚合函数的形式（如Cauchy变换必须是加权和）。

主要结果¶

Theorem 1（秩变换子采样p值的渐近有效性）： - 陈述：在以上正则性条件下，以及在\(H_0\)下，秩变换p值\(p_{\text{RT}}\)渐近均匀于\([0,1]\)：

\[P_{H_0}(p_{\text{RT}} \le \alpha) \to \alpha, \quad \text{as } n\to\infty.\]

- 直觉：证明分三步：(i) 在\(H_0\)下，全样本统计量\(L_n\)与（缩放后的）子样本统计量\(L_{n,b}^{(j)}\)的联合分布趋近于（极限分布\(J\)的）独立同分布乘积；(ii) 因此\(L_n\)在全体\(B\)个\(L_{n,b}^{(j)}\)中的秩趋近于均匀分布；(iii) 取极限\(B \to \infty\)后，经验分位数收敛到真实分位数。 - 必要条件：子采样块大小\(b\)必须足够快增长以让子样本统计量收敛到极限，但增长足够慢以让\(B\)个独立子样本间的相关性可忽略。 - 解决的技术难点：如何处理子样本之间重叠导致的相关性？证明使用Politis & Romano的"子采样CLT"框架和适当的混合性条件（mixing），最终表明重叠引入的相关性在\(b/n\to0\)下消失。

Theorem 2（秩变换子采样p值的偏校正性质）： - 陈述：在备择假设下，普通子采样p值的期望偏向一阶（即\(E[p_{\text{sub}}] \ge \alpha + c\cdot \delta\)，其中\(\delta\)是效应大小）；而秩变换子采样p值的期望偏差是二阶小量（\(E[p_{\text{RT}}] \to \alpha\)在局部备择下）。更精确地说，对于在原假设附近局部偏离的备择（contiguous alternatives），秩变换子采样p值的渐近分布与基于已知极限分布\(J\)的"oracle p值"相同。 - 直觉：普通子采样用大小为\(b\)的子样本分布逼近全样本分布，但备择下\(b\)与\(n\)对应的功效不同，导致系统性高估p值（偏保守）。秩变换通过比较全样本统计量在子样本分布中的位置，相对排序消除了这一均值漂移。 - 难点：需要证明秩变换后，备择下\(L_n\)与\(L_{n,b}^{(j)}\)之间仍然保持一个"序关系"——即如果原假设不成立，\(L_n\)倾向于比大多数\(L_{n,b}^{(j)}\)更大。

Theorem 3（p值的一致性聚合）: - 陈述：如果已经有来自\(K\)次随机分割的\(K\)个可交换p值\(p_1,\dots,p_K\)，可以将秩变换子采样直接应用于这些p值的某个组合函数（如\(\min_k p_k\)）——即把"分割后计算p值"视为随机化机制\(\omega\)的一个实例，然后对组合统计量做秩变换子采样。得到的新p值比直接用Cauchy组合等方法更精确（类型一错误更接近名义水平）。

证明路线与技术技巧¶

整体路线（以Theorem 1为例，3-5步逻辑主干）：

步骤1：联合分布逼近。令\(U_n = a_n(L_n - \theta_0)\)，\(U_{n,b}^{(j)} = a_b(L_{n,b}^{(j)} - \theta_0)\)。利用混合条件（如\(\alpha\)-mixing或\(\beta\)-mixing）证明\(U_{n,b}^{(1)},\dots,U_{n,b}^{(B)}, U_n\)的联合分布趋近于\(B+1\)个独立同分布随机变量（极限分布\(J\)）。这一步依赖Politis & Romano (1994)的子采样收敛性引理以及\(b/n\to0\)条件。
步骤2：秩的渐近均匀性。定义\(\tilde{R}_n = \frac{1}{B}\sum_{j=1}^B \mathbf{1}\{U_{n,b}^{(j)} \le U_n\}\)。利用步骤1的联合分布逼近，\(\tilde{R}_n\)的极限分布是\(J(U)\)在均匀分布下的分位数——即在\(J\)连续的前提下，\(J(U) \sim \text{Unif}[0,1]\)，所以\(\tilde{R}_n \to \text{Unif}[0,1]\)。这里的关键是\(U_n\)和\(U_{n,b}^{(j)}\)在极限处独立同分布。
步骤3：有限\(B\)的修正。实际中\(B\)有限，但令\(B\to\infty\)（可任选），用Empirical CDF的一致收敛性质（Glivenko-Cantelli）表明有限\(B\)的误差可忽略。最终得到秩变换p值\(p_{\text{RT}}\)趋近于均匀分布。
步骤4（Theorem 2）：偏校正的证明。在局部备择下，写出\(U_n\)与\(U_{n,b}^{(j)}\)的联合分布的Le Cam展开。普通子采样计算\(E[p_{\text{sub}}]\approx P(J(U_n)\le \alpha)\)，但\(U_{n,b}^{(j)}\)的分布不同于\(U_n\)（子样本规模小，功效差），导致偏差。而秩变换子采样中，\(p_{\text{RT}}\)对应于\(U_n\)在\(U_{n,b}^{(j)}\)的经验分布中的分位数，该分位数在局部备择下可通过Taylor展开证明偏差仅与\(n/b\)的幂次相关，远小于普通子采样的线性偏差。

关键跳跃点： - 最吃功夫的引理是Lemma 2：证明秩变换后的子样本统计量在\(H_0\)下与原始子样本统计量具有相同的极限分布。换句话说，秩变换没有改变子采样统计量在原假设下的分布形态——这一结果并非显然（因为秩变换是离散的非线性变换），需要利用\(J\)的连续性和\(b/n\to0\)保证变换的一致连续性。 - 另一个难点是证明秩变换的偏差校正性质（Theorem 2）在非局部备择下也成立——即效应足够大时秩变换p值仍趋于0（拒绝）。证明用到子采样统计量的"stochastic monotonicity"性质：当样本量增加时，检验统计量的分布整体向备择方向平移。

技术技巧点名： 1. 子采样CLT（Politis, Romano & Wolf, 1999）：子采样的核心理论保证了在\(b/n\to0\)下，子样本统计量的边缘分布收敛到正确的极限。本文直接继承并扩展了这一理论。 2. 秩变换的连续性论证：将秩视为一个经验CDF的逆变换，利用极限分布\(J\)的连续性证明秩变换不会破坏渐近分布。这在技术上使用了van der Vaart (1998)的"连续映射定理"的扩展版本。 3. 局部备择下的Le Cam展开：在Theorem 2的证明中，用于显式计算秩变换p值的渐近偏差阶数。这是半参数理论中处理"轻微偏离零假设"的标准工具。 4. Bootstrap修正的类比：秩变换本质上是一种"基于秩的bootstrap"——与经典bootstrap不同，它不重新采样数据（有放回），而是基于子采样分布中的排序。这与"bootstrap分位数校正"（Efron, 1979）有相似之处，但修正对象不同（bootstrap修正偏差，秩变换修正位置偏移）。

真实例子与应用¶

本文包含4个真实数据/模拟例子，覆盖不同领域。以下逐一说明：

例1：高维单峰性检验（SigClust） - 数据/场景：模拟数据来自多元t分布（\(t_3\)），维度\(p=100\)，样本量\(n=1000\)。原假设是数据服从单峰分布（即只有一个聚类）。 - 方法使用：SigClust（Huang et al., 2015）使用数据分割来估计软阈值化的特征值，然后构造检验统计量。本文对SigClust的多重分割版本应用秩变换子采样：随机分割\(K=100\)次，每次从分割的第一部分估计特征值，第二部分计算检验统计量；然后对组合统计量（取中位数）做秩变换子采样（\(B=2500\)，\(b= n/2\)）。 - 结果：在\(H_0\)下（多元高斯分布），笔者声称秩变换子采样p值在0.05水平下的类型一错误约为0.06（接近名义水平），而普通子采样约为0.08（偏大），Cauchy组合约为0.03（保守）。在备择下（两个相隔\(\delta\)的聚类），秩变换子采样的功效约为0.85，普通子采样约为0.65，Cauchy组合约为0.45。 - 目的：展示秩变换子采样在非标准统计量（SigClust的软阈值化检验统计量）上的实用性，以及相比聚合p值方法在功效上的提升。

例2：参数分位回归拟合优度检验 - 数据/场景：模拟数据\(Y=m_0(X) + \epsilon\)，其中\(m_0\)是某个函数，\(\epsilon\)独立于\(X\)。原假设是分位回归模型（如线性分位回归）正确设定。 - 方法使用：Dong et al. (2019) [23]的检验方法基于数据分割构造检验统计量，但单次分割结果不稳定。本文对\(K=50\)次随机分割的结果（每次产生一个Z-统计量）做秩变换子采样。 - 结果：在\(H_0\)下，秩变换方法的类型一错误约为0.055（接近0.05），Cauchy组合约为0.035（保守），普通子采样约为0.07（偏大）。在备择下，秩变换子采样功效约为0.92，与Dong et al.的单次分割（0.88）相当但更稳定，且显著高于Cauchy组合（0.75）。 - 目的：展示秩变换子采样作为p值聚合的替代方案——即使检验统计量的结构不适合"可交换p值"框架，秩变换子采样仍可工作。

例3：序贯随机试验中的无直接效应检验 - 数据/场景：模拟一个两阶段的序贯随机试验（如对HIV感染风险的评估），每个阶段的治疗分配是随机的。检验原假设：治疗在第一阶段之后（假设患者存活）没有直接效应（即在控制第二阶段治疗时，第一阶段治疗不影响最终结果）。 - 方法使用：无直接效应的检验可利用广义条件独立性约束（Verma约束，Richardson et al., 2017 [2]），但这些约束无法用常规的置换检验处理。本文用多重分割（\(K=20\)次分割训练/测试划分）构造检验统计量，然后对组合统计量做秩变换子采样。 - 结果：秩变换子采样的类型一错误为0.048（接近0.05），而所有p值聚合方法（Cauchy组合、Fisher组合等）的类型一错误在0.01-0.03之间。功效方面，秩变换约为0.75，聚合方法约0.5-0.6。 - 目的：展示秩变换子采样在因果推断中非标准假设检验问题上的应用，特别是那些常规置换检验不可用、依赖数据分割构造检验统计量的场景。

例4：交叉拟合DML置信区间的校准 - 数据/场景：模拟ATE估计问题，使用LASSO估计倾向得分和结果回归，并采用交叉拟合（cross-fitting）构造AIPW估计量。交叉拟合后，基于渐近正态性的常规置信区间存在覆盖不足的问题（Jiang et al., 2022 [25]已证明在高维下文下的方差膨胀），本文方法用于校准。 - 方法使用：将交叉拟合的划分方案视为随机分割机制的实例。对同一数据集，重复\(K=50\)次不同的交叉拟合划分，每次得到ATE估计值及其标准误，构造Wald置信区间。取这些区间的下界和上界的某种组合统计量（如中位数，或最小上界/最大下界），然后对其做秩变换子采样获得校准区间。 - 结果：常规交叉拟合的区间覆盖率为0.88（名义90%），秩变换校准后的覆盖率为0.90；普通子采样校准后的覆盖率为0.93（偏保守）。 - 目的：展示秩变换子采样在半参数估计的推断校正中的应用——这是研究者领域（因果推断+效率理论）最直接相关的应用场景。文中明确提到与Jiang et al. (2022)的联系。

🔎 结论是否比证明窄¶

Theorem 1的渐近有效性要求极限分布\(J\)连续——但文中某些应用（如二值变量、离散检验统计量）中的极限分布可能离散。作者在第5.2节（离散数据）中承认，此时秩变换p值可能略偏保守（但仍优于普通子采样）。这是结论比原始证明窄的一个实例：Theorem 1的结论在离散分布下不成立，需退而求其次使用Theorem 1的保守版本。
文中对"子样本间独立性"的要求（Assumption 2中隐含的mixing条件）在时间序列数据中可能无法满足。作者在第6节（future work）中提及，但Theorem 1的证明高度依赖\(b/n\to0\)这一假定，序列相关条件下此假定是否足够尚不明确。
Theorem 2的"偏差消除"性质被证明是在局部备择（contiguous alternatives）下一阶成立。但作者在intro中更泛泛地声称"removes the first-order bias"，未强调"第二类偏差（二阶）仍可能存在"——这是结论泛化程度略强于证明的一个实例。具体来说，Theorem 2的证明仅在"与\(n^{-1/2}\)同阶的局部备择"下给出显式偏差阶数，对固定的全局备择，证明仅凭连续性论证给出了一个一致收敛的极限结果，未验证偏差的具体衰减速率。

四、开放问题（点到为止）¶

离散检验统计量的处理：作者在第5.2节承认，当极限分布\(J\)不连续时（如秩和检验、二值数据的检验），秩变换p值的均匀性不再成立，只能保证偏保守。扎根点：Section 5.2, "a slight conservative adjustment... but the power may be lower." 一个开放问题是：能否对秩变换本身做连续性修正（如加入随机化的打结处理），恢复渐近均匀性？
子采样块大小的自适应选择：目前的证明要求\(b/n\to0\)且\(b\to\infty\)，但没有给出具体的\(b\)选择准则（如最小化均方误差）。扎根点：Section 6, "the choice of block size b remains an important practical issue." 这与Politis & Romano子采样文献中的块大小选择问题一脉相承，但秩变换可能引入新的特征（如偏差与方差对\(b\)的非单调依赖）。
与e值框架的深层结合：本文的讨论仅限于p值的聚合，但e值聚合（取平均）天然不需要处理相关性，且e值可转换为p值。一个开放问题是：对e值（而非p值）应用秩变换子采样，是否会带来额外优势？扎根点：Section 6, "an interesting avenue for future research would be to study ... e-values." 引言中提及Vovk & Wang (2021)的e值工作，但未深入探讨。
秩变换子采样在高阶U-统计量中的应用：对于研究者本人的工作——高阶U-统计量的计算复杂度由treewidth/einsum刻画。多重分割可能导致高阶U-统计量的计算成本急剧上升（因为要在每个子样本上重新计算U-统计量）。一个开放问题是：能否利用U-统计量的加性结构（如基于多个分割的U-统计量本身可分解为重叠块的累加）设计一个计算高效版本的秩变换子采样？扎根点：全文的框架不假设检验统计量的具体形式（"general method"），但实际应用中计算成本是核心瓶颈；本文没有讨论这一点。

提醒：确认上述第4条是否是真gap，建议查阅Kim & Ramdas (2024) [19]中关于"cross U-statistics"的论述——他们的"leave-one-block-out"技巧是否可用于降低秩变换子采样在U-统计量场景下的计算成本？若可，则该方向可立即推进。

Maintained by 陈星宇 · Homepage · Source on GitHub