Randomized empirical processes by algebraic groups, and tests for weak null hypotheses¶

作者: Dennis Dobler
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：本文研究的子方向是在“弱原假设”（weak null hypothesis）下基于代数群随机化的重随机检验（randomization test）的渐近有效性理论。根本问题是：当随机化（如置换）的机制来自数据生成中实际使用的物理随机化时，有限样本下可以得到精确检验（exact test）；但多数统计检验无法复制该物理随机化，因此需借助数据自身的随机化（如置换、旋转）来构造检验。此时，若原假设比“分布完全相同”更弱（如仅限制某个参数相等），则随机化检验的I型错误率可能远偏离名义水平。核心科学问题：如何在保留有限样本精确性（在子假设下）的同时，保证弱原假设下渐近I型错误控制，并建立统一的渐近理论？ 当前方向的理论成熟度中等——已有大量针对特定设定（如两样本独立、配对数据）的student化置换检验工作，但缺乏一个通用于任意代数群随机化机制、允许一般渐近正态检验统计量的条件弱收敛定理。
发展脉络（history）:
- 奠基工作（Fisher, 1935; Hájek, 1961; etc. via [4, 23, 24]）: Fisher的“女士品茶”实验奠定了置换检验的精确性原理：若原假设使数据在某个变换群下分布不变（invariant），则等可能选取群元素可构造精确level-α检验。这是该领域的基石，但适用于的是“sharp null hypothesis”（如所有个体的处理效应为零）或“交换性假设”。
- 主要进展1: 突破交换性假设下的两样本问题（Chung & Romano, 2013 [5]）: 在k≥2个独立样本的比较中，证明了即使原假设H₀ : θ(P₁)=…=θ(P_k)（不等同于分布相同），使用恰当student化的置换检验仍能渐近控制I型错误，且保留分布相同时的精确性。关键技巧是通过耦合构造和多元超几何分布的contiguity论证。[5] 将置换检验的适用范围从“分布相等”拓宽到“参数相等”这种弱原假设。
- 主要进展2: 单样本配对的student化置换检验（Konietschke & Pauly, 2012 [2]; DiCiccio & Romano, 2017 [1]）: 研究发现，对于单样本/配对数据，普通置换检验（如基于Pearson相关系数的置换检验）在检验相关性（H₀: ρ=0）时I型错误率可能严重偏大，且存在巨大的方向性错误（Type 3 error）概率。关键的修复是：对统计量进行studentization（即除以它的标准误估计）。例如，[1] 证明，基于studentized的Fisher z-transformation (√n tanh⁻¹(r̂ₙ)）的置换检验能同时保证相关系数为0时的精确性和弱原假设下的渐近正确性。
- 主要进展3: 群随机化的代数基础与有限样本精确性（Hemerik & Goeman, 2014 [6], 2019 [4]）: 这些工作澄清了“置换检验”（permutation test）与“随机化检验”（randomization test）在数学推理上的本质区别：前者必须要求变换集合构成群结构（代数意义上的群），后者则不一定需要群结构，且可以利用非均匀随机化（unequal probability）和非群结构的设计以获得更精细的p值分辨率。它们为本文的代数群随机化框架提供了理论支撑——“要用群结构，且要用群上的均匀分布来保证有限样本精确性”。
- 当前frontier与本文位置: 最近由Wu & Ding (2018) [48] 将Fisher随机化检验用于析因实验设计的弱原假设，基于studentized二次型。[48] 的读者定位是实验设计领域。本文的作者Dobler则定位在更一般的统计推断理论——他试图回答“对任意代数群作用在数据上构成的随机化，是否有一个统一的条件弱收敛定理可以用来证明所有渐近正态统计量的随机化检验的渐近有效性？”本文通过建立“随机化经验过程”的弱收敛理论，并搭配一个功能性德尔塔法的变体，给出了一个非常通用的框架，可以与经验过程文献中的任何收敛定理适配。因此，本文的定位是理论印章：为广泛使用的、但理论上零散的studentized随机化检验工作提供一个统一证明。
子线索聚类:
1. 精确检验的局限性及修复 [1, 2, 5]: 这条线索的核心是：当原假设从“分布相等”放松到“参数相等”时，普通置换检验失效；通过studentization来修复。研究焦点是单样本（[1, 2]）和两样本（[5]）的特定统计量。
2. 群结构与随机化检验的哲学/数学基础 [4, 6, 23]: 这条线索侧重于randomization test的数学结构，尤其是群的作用。它回答“为什么置换检验能精确”以及“如何用random permutations得到精确结果”的问题。
3. 随机化检验的统一渐近理论（本文）: 这条线索只有一个被引作品（Dobler, 2024），它尝试将第1条线（studentization）和第2条线（群结构）纳入一个统一的、基于经验过程的条件弱收敛理论中。
本文在上述脉络中的位置是：将studentized随机化检验从特定应用场景（相关系数、两样本、配对）推广到任意能通过功能性德尔塔法处理的渐近正态估计量；并将群结构从“常见置换群”（对称群）推广到任意的代数群。
这个方向在追问的核心问题:
- (Q1) 条件弱收敛性: 给定数据X₁…Xₙ和一个代数群G在观测空间上的作用，能否证明“随机化后的经验过程”\( \sqrt{n}(\mathbb{P}_n^{\pi} - \mathbb{P}_n) \)（其中π是G上的均匀元素）在条件于原数据下弱收敛于一个已知的高斯过程？
- (Q2) 可交换性原假设的松弛: 能否设计一个框架，使得即使在弱原假设下，随机化检验也能渐近控制I型错误，同时保留在群不变子假设（即数据分布对群作用不变）下的有限样本精确性？
- (Q3) studentization的角色: 哪些条件能保证studentized统计量的随机化分布与渐近正态分布的极限一致，从而使得随机化检验在弱原假设下是渐近valid的？
- (Q4) 群结构的必要性: 群结构对渐近validity是否是必需的？在非群结构的随机化（如[4]所提的扩展）下，能否建立类似的渐近理论？
- 当前主流方法与瓶颈: 目前主流方法是通过studentization修复特定统计量（相关系数、Mann-Whitney效应、回归系数）的随机化检验。瓶颈在于：每个新统计量都需要重新证明其随机化版本的弱收敛性，缺乏一个“即插即用”的理论。本文试图通过经验过程理论来打破这个瓶颈。
⚠️ 作者的 framing: > 作者将缺口frame成：“(H)owever, no general asymptotic theory under weak null hypotheses has been developed for such randomization tests yet. It is the aim of this paper to provide a conveniently applicable theory...”
- 作者将自己定位为“统一者”——提供一个不依赖特定统计量结构的、像“经验过程+功能性德尔塔法”一样方便的理论。这种faming非常有力，因为它暗示：只要你的估计量能用functional delta-method处理，就能自动化地得到渐近valid的随机化检验。
- 被淡化/回避的路线: 作者明确表示使用了“a variant of the functional delta-method”。有可能让不熟悉半参数理论的读者觉得这是个黑箱。作者也回避了direct Monte Carlo test的路线（即用Bootstrap而非随机化），尽管他引用了Bootstrap的相关工作。
- 什么明显该被引/该存在、却没出现在intro里？
  - Higher-order Influence Functions (HOIF): 如果作者试图提供“即插即用”的理论，HOIF可以用于构造高阶准确的随机化分布。论文没有涉及。
  - Permutation tests in high-dimensional settings: 当p >> n时，经验过程理论非常不同。作者明确将自己限定在“finite-dimensional Euclidean spaces”上（通过functional delta-method回到有限维），所以严格来说不在其范畴。
  - Post-selection inference: 随机化检验能否用于选模型后的推断？这不是一个简单的G-invariance问题，作者未提及。
张力: 未见明显对立引用。[4]强调群结构对精确性至关重要，而作者的工作恰恰想用群结构。 [5] 和 [1] 认为studentization可修复问题，作者延续了这一点。整体上，被引文献之间是互补而非对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据（地基）

符号:
- \( X_1, \dots, X_n \): 独立同分布于分布P的随机向量（观测值）。样本空间为\( \mathcal{X} \)。
- \( \mathbb{P}_n \): 经验测度，\( \mathbb{P}_n = n^{-1} \sum_{i=1}^n \delta_{X_i} \)。
- \( \mathcal{G} \): 一个由作用在观测空间\( \mathcal{X}^n \)上的代数群（algebraic group），其元素g（“变换/置换”）以可测方式将\( n \)个数据点\( (x_1, \dots, x_n) \)重新排列/变换成\( (g(x_1), \dots, g(x_n)) \)。在置换检验中，\( \mathcal{G} \) = 对称群\( S_n \)。
- \( \pi \): 一个在群\( \mathcal{G} \)上取值的随机元素，服从均匀分布（或Haar测度）。这是随机化机制的源。
- \( T_n = T_n(\mathbb{P}_n) \): 基于原始数据的渐近正态检验统计量（例如，样本相关系数，两样本均值差，Mann-Whitney效应）。作者假设\( \sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2) \)，其中\( \theta \)是目标参数。
- \( T_n^{\pi} = T_n(\mathbb{P}_n^{\pi}) \): 将随机化群元素\( \pi \)应用到数据后计算出的“随机化检验统计量”。这里\( \mathbb{P}_n^{\pi} \)是变换后数据\( (\pi(x_1), \dots, \pi(x_n)) \)的经验测度。
- \( S_n = S_n(\mathbb{P}_n) \): studentization因子（standard error estimate）。它是一个依赖于原始数据的渐近一致的标准误估计量（如\( \hat{\sigma}/\sqrt{n} \) 或 Jackknife 标准误）。关键：它必须是群不变的？不，论文中的关键思路是，studentization因子也应该被随机化，即使用\( S_n^{\pi} \)。
- \( \hat{G}_n(t) = \frac{1}{|\mathcal{G}|} \sum_{g \in \mathcal{G}} \mathbb{1}\{ \frac{T_n^g - u_n}{S_n} \le t \} \): 随机化分布（即\( \pi \)的分布）。\( u_n \)是某种居中（centering）量，通常是\( T_n \)。
模型:
- 无模型/半参数模型：最核心的模型是“数据独立同分布于某个未知分布P”。没有任何参数化的假设。检验的原假设是弱原假设，例如：
  - H₀: \( \theta = \theta_0 \) （θ是P的某个泛函）
  - H₀: \( \theta = 0 \) （如相关系数为0，或处理效应为0）
可观测数据:
- 可观测：只有原始数据集\( X_1, \dots, X_n \)是直接观测到的。研究者可以计算\( T_n \)和\( S_n \)。
- 潜在/不可观测：研究者实际上不能“重新运行”生成数据的随机化实验（例如，无法再次随机分配处理）。所以，他们只能模拟随机化——即基于原始数据，人为地应用群\( \mathcal{G} \)上的均匀随机元素\( \pi \)。这就是randomization test的精髓。
- 想要但观测不到: 在原假设H₀下，数据的分布\( P \)应该满足什么？在群作用\( \mathcal{G} \)下，分布不一定不变。这就是“弱原假设”的含义——只能限制参数θ，不能限制整个分布\( P \)。因此，随机化分布的精确性不成立，只能用渐近理论。

第二步：最小内核（最简特例）

最简特例: “一元单样本，检验均值\( \mu = 0 \) 这个弱原假设，用置换作为随机化”。
- 设定: 假设数据\( X_1, \dots, X_n \)是i.i.d. \( N(\mu, 1) \)（高斯分布，方差已知）。E(X) = μ。弱原假设H₀: \( \mu = 0 \)。我们想用随机化检验（这里是符号互换检验，sign-flip test）。群\( \mathcal{G} \)不是对称群Sₙ，而是由符号变换\( g: (x_1, \dots, x_n) \mapsto (\epsilon_1 x_1, \dots, \epsilon_n x_n) \)，其中\( \epsilon_i \in \{-1, 1\} \)组成，共\( 2^n \)个元素。均匀随机挑选一个\( \epsilon = (\epsilon_1, \dots, \epsilon_n) \)。
- 为什么普通随机化检验会失败？:
  - 统计量：\( T_n = \bar{X}_n = n^{-1} \sum_i X_i \)。
  - 原假设H₀: \( \mu=0 \)。在H₀下，\( T_n \xrightarrow{d} N(0, 1/n) \)。
  - 随机化版本：\( T_n^{\epsilon} = n^{-1} \sum_i \epsilon_i X_i \)。
  - 问题：条件于原始数据\( \{X_i\} \)，\( T_n^{\epsilon} \)的分布是\( Var(T_n^{\epsilon} | X) = n^{-2} \sum_i X_i^2 \)。而极限分布\( N(0, 1/n) \)的方差是固定的\( 1/n \)。只要原始数据的样本方差\( (n-1)^{-1} \sum (X_i - \bar{X}_n)^2 \)偏离1，随机化分布看起要么太平坦，要么太尖，导致I型错误失控。 例如，如果数据是厚尾分布，均值检验的随机化版本不会给正确的临界值。
- 作者的关键想法（用最小内核演示）:
  - 解决办法：studentization。我们不用\( T_n \)作为检验统计量，而是用\( Student-T \)统计量：\( \tilde{T}_n = \sqrt{n} \bar{X}_n / \hat{\sigma}_n \)，其中\( \hat{\sigma}_n^2 = (n-1)^{-1} \sum (X_i - \bar{X}_n)^2 \)。
  - 核心步骤（作者定理的简化版）:
    1. 对于观测数据，计算（非随机化的）studentized统计量：\( \tilde{T}_n = \sqrt{n} \bar{X}_n / \hat{\sigma}_n \)。在H₀下，\( \tilde{T}_n \xrightarrow{d} N(0,1) \)。（这是经典结果）。
    2. 条件于原始数据，随机化群\( \mathcal{G} \)（这里是符号置换）。需要计算随机化的studentized统计量：\( \tilde{T}_n^{\epsilon} \)。关键：studentization因子也必须被随机化吗？
      - 错误做法：用原始数据的\( \hat{\sigma}_n \)来studentize \( T_n^{\epsilon} \)，即\( \tilde{T}_n^{\epsilon} = \sqrt{n} \bar{X}_n^{\epsilon} / \hat{\sigma}_n \)。这会使随机化分布不是条件正态。
      - 正确做法（即论文的核心步骤）：studentization因子必须也经过随机化，即\( \tilde{T}_n^{\epsilon} = \sqrt{n} \bar{X}_n^{\epsilon} / \hat{\sigma}_n^{\epsilon} \)，其中\( \hat{\sigma}_n^{\epsilon} \)是变换后数据\( (\epsilon_1 X_1, \dots, \epsilon_n X_n) \)的样本标准差。
    3. 命题（简化版）：如果\( \sigma^2 = 1 \)（已知），那么在条件于原始数据下，随机化分布\( \sqrt{n} \bar{X}_n^{\epsilon} \)的极限是\( N(0, \hat{\sigma}_n^2) \)。这几乎就是作者的重心：要证明的是随机化后的统计量\( T_n^{\pi} \)，在条件于数据下，弱收敛于一个正态分布，其方差等于原始数据估计的方差。作者证明了：对定义良好的studentization，条件随机化分布与无条件的渐近正态分布是“等价的”。
    4. 那么，studentized随机化检验就是渐近valid的：因为随机化分布（给定了数据）的分位数，逼近了名义正态分布\( N(0,1) \)的分位数。所以，H₀下，拒绝域\( |\tilde{T}_n| > \tilde{q}_{1-\alpha/2} \)（其中\( \tilde{q}_{1-\alpha/2} \)是随机化分布的\( 1-\alpha/2 \)分位数）恰有渐近\( \alpha \)的I型错误率。
- 一般情形的推广: 论文的一般情形只是这个“符号置换+Student-T”的推广：用任意群\( \mathcal{G} \)替换{±1}ⁿ；用任意渐近正态的估计量替换\( \bar{X}_n \)；用任意（与群作用相对应的）替换\( \hat{\sigma}_n \)。证明的核心就是建立一个“条件于原始数据”下的弱收敛定理，使得随机化的经验过程\( \sqrt{n}(\mathbb{P}_n^{\pi} - \mathbb{P}_n) \)，在条件于原始数据下，收敛到同一个高斯过程（与外部随机性的均值相等）。这就把“随机化带来的随机性”与“抽样带来的随机性”进行了巧妙的对等化，从而验证了studentization的作用。

三、这篇论文做了什么（本次重心）¶

三句话: 1. 研究了什么问题: 建立了在弱原假设下，基于代数群随机化的重随机检验（randomization tests）和重随机置信区间的渐近有效性理论。 2. 核心工具/方法: 核心是创建一个随机化经验过程（randomized empirical process）\( \{\sqrt{n}(\mathbb{P}_n^{\pi} - \mathbb{P}_n) f : f \in \mathcal{F} \} \)的条件弱收敛定理（conditional weak convergence theorem），并辅以一个功能性德尔塔法（functional delta-method）的变体，结合studentization。 3. 主要结论: 论文证明，对一大类渐近正态的检验统计量（可以通过功能性德尔塔法处理），只要studentization因子\( S_n \)满足协方差一致性条件，并经过相应的随机化，那么随机化分布的（学生化后的）极限就是标准正态分布。因此，通过比较学生化统计量与其随机化分布的分位数，可以在弱原假设下实现渐近精确的I型错误控制，同时保留在原假设分布的群不变子集下的有限样本精确性。

关键设定与假设:
- 设定: 设\( X_1, \dots, X_n \)是i.i.d. \( P \)在\( \mathbb{R}^d \)上的观测。代数群\( G \)可测地作用在观测空间上（\( g \cdot (x_1, \dots, x_n) \mapsto (g(x_1), \dots, g(x_n)) \)）。\( \pi \)是\( G \)上均匀分布的随机元素。
- Assumption A (关于群和统计量): 假设存在一个度量空间\( (D, d) \)，使得样本经验分布\( \mathbb{P}_n \in D \)，随机化经验分布\( \mathbb{P}_n^{\pi} \in D \)。经验过程理论可以用来证明\( \sqrt{n}(\mathbb{P}_n - P) \)在\( D \)上弱收敛于一个P-布朗桥\( \mathbb{G}_P \)。这是经典假设，保证功能性德尔塔法可用。
- Assumption B (群作用下的测地线凸包/约定): 这是作者引入的一个关键概念。作者假设存在一个测地线凸包（a geodesic convex hull）或更直白的说，群作用\( g \)下，变换后的经验测度能够很好地近似于原经验测度的一点。具体来说，作者假设存在一个可测函数\( t: D \rightarrow \Theta \)（参数空间），使得\( t(\mathbb{P}_n^{\pi}) \approx \pi \cdot t(\mathbb{P}_n) \) 或类似的性质。对于置换群，这意味着\( t \)是“坐标族”函数（如均值、Mann-Whitney效应，但不包括方差等对顺序不敏感的量）
- Assumption C (studentization因子): 假设存在一个估计量\( S_n = S_n(\mathbb{P}_n) = \sigma(\mathbb{P}_n) + o_P(1) \)（其中\( \sigma(P) \)是渐近方差）。更重要的是，存在随机化版本\( S_n^{\pi} = S_n(\mathbb{P}_n^{\pi}) \)，且随机化后的收敛与原始数据一致。
- Assumption D (群作用的泛函稳定性): 群作用\( g \)必须在弱收敛于函数\( \phi(\mathbb{G}) \) 的过程中产生不变性。这是技术性最强的条件。
主要结果:
- Theorem 3.1 (随机化经验过程的条件弱收敛):
  - 陈述: 在一定条件下（Assumption A, D），条件于标签数据\( X_1, \dots, X_n \)，随机化经验过程\( \sqrt{n}(\mathbb{P}_n^{\pi} - \mathbb{P}_n) \) 在弱拓扑下依概率收敛于与经典经验过程相同的高斯过程\( \mathbb{G}_P \)。即，条件渐近分布是与原始抽样一样的P-布朗桥。
  - 直觉: 这意味着，从抽样角度看是随机的东西（经验过程\( \mathbb{G}_P \)的波动），从随机化角度看也是随机的，且随机形式一样。这是随机化检验有效性的根基。
  - 必要条件: Donsker条件（Assumption A）、群作用的可测性与稳定性（Assumption D）。
  - 解决的技术难点: 证明过程需要处理群作用的无限性质。作者使用了经验过程理论的亚高斯尾界（sub-Gaussian tail bounds）和多轮近似（iterative approximation）技术。
- Theorem 3.6 (studentized随机化检验的渐近有效性):
  - 陈述: 设\( T_n = t(\mathbb{P}_n) \)是可泛函可微的检验统计量，\( S_n \)是其一致的渐进方差估计。定义\( z_n = \sqrt{n}(T_n - \theta) / S_n \)。设\( q_\alpha(x) \)是随机化分布\( \hat{F}_{n,\pi}(x) = P_\pi( z_n^{\pi} \le x | X) \)的α分位数。那么，在Theorem 3.1的条件下，拒绝域\( \{ |z_n| > q_{1-\alpha/2} \} \)在弱原假设H₀: θ=θ₀下的渐近显著性水平为α。
  - 直觉: 直接使用Theorem 3.1和functional delta-method，可以证明条件随机化分布\( \hat{F}_{n,\pi}(x) | X \)依概率收敛于\( \Phi(x) \)（标准正态分布函数）。由于极限分布相同，条件分位数与无条件分位数渐近相等。
  - 必要条件: Donsker条件，functional delta-method适用，studentization的方差估计一致，且studentization因子也要被随机化（这保证了随机化分布与抽样分布在对标时方差匹配）。
  - 解决的技术难点: “studentization因子也要被随机化”这个要求与Assumption B中的“t是坐标族”的假设有关。例如对Student-T统计量的随机化，不是简单地置换原始均值，而必须置换数据后计算新的方差，从而隐含着随机化过程的完整复制。
- Proposition 3.8 (群不变子假设下的有限样本精确性):
  - 陈述: 如果弱原假设恰好是数据分布在群G作用下不变的子假设（比如分布等于它自身的置换交叉），那么基于studentized统计量的随机化检验是精确水平α的。
  - 意义: 这个性质保证了有限样本下的稳定性。即使渐近理论不完美，在这个强于弱原假设的“完美的”子假设下，检验是精确的。这解决了神经紧绷的实践者对I型错误的担忧。
证明路线与技术技巧:
- 整体路线（3-5步）:
  1. 建立条件弱收敛: 证明随机化经验过程\( \sqrt{n}(\mathbb{P}_n^{\pi} - \mathbb{P}_n) \)条件于原始数据、依概率收敛于经典P-布朗桥\( \mathbb{G}_P \)（Theorem 3.1）。
  2. 功能性德尔塔法: 既然\( \sqrt{n}(\mathbb{P}_n^{\pi} - \mathbb{P}_n) \)趋向\( \mathbb{G}_P \)，对统计量\( T_n = t(\mathbb{P}_n) \)的泛函导数\( \dot{t}_{P} \)（Hadamard derivative）应用functional delta-method，证明条件于原始数据下，\( \sqrt{n}(t(\mathbb{P}_n^{\pi}) - t(\mathbb{P}_n)) \) 依概率收敛于\( \dot{t}_P(\mathbb{G}_P) \)。（这是经典的）
  3. studentization: 引入估计\( S_n \)和\( S_n^{\pi} \)。关键跳跃点: 证明\( S_n^{\pi} \)能一致估计\( \sigma(P) \)，且studentization后的统计量\( z_n^{\pi} = \sqrt{n}(t(\mathbb{P}_n^{\pi}) - t(\mathbb{P}_n)) / S_n^{\pi} \) 条件收敛于\( N(0,1) \)。这需要证明\( S_n^{\pi} \xrightarrow{P} \sigma(P) \)。作者通过建立随机化studentization因子的更严格的收敛几何来做到这一点。难点在于，不能仅仅假设\( S_n^{\pi} \)收敛到\( \sigma(P) \)，还需要它收敛到原始数据估计的那个\( S_n \)的极限。
  4. 随机化分布的反事实构造: 为了证明\( z_n^{\pi} \)条件于数据下接近\( N(0,1) \)，作者需要将原始统计量\( \sqrt{n}(\hat{\theta} - \theta)/\hat{\sigma} \)的极限分布与随机化统计量的极限分布对齐。核心思想是：在原始数据下，\( \sqrt{n}(\hat{\theta} - \theta) \approx \dot{t}_P(\mathbb{G}_P) \)。在随机化数据下，\( \sqrt{n}(\hat{\theta}^{\pi} - \hat{\theta}) \approx \dot{t}_P(\mathbb{G}_P) \)。由于两者的差距都是同一个布朗桥驱动，且studentization消除了尺度差异，所以两个分布等价。
  5. 极限分布等式: 最后，证明了拒绝域的渐近行为，得出检验的渐近有效性。
- 关键跳跃点: Theorem 3.1的证明是该论文的数学核心。难点在于随机化过程\( \mathbb{P}_n^{\pi} \)依赖于同一组原始数据\( X \)，而它是\( X \)的可测函数，所以“条件于\( X \)”给出了一个确定的映射，但该映射的紧致性和收敛性需要精确控制。作者使用经验过程理论中的chaining arguments和亚高斯尾界来处理。具体做到的是：证明随机化经验过程的期望（under random π）上，其模（norm）收敛于经典情况下的模。
- 技术技巧点名:
  - Empirical Process Theory (Classical): 基础工具，用来定义和计算收敛性。
  - Functional Delta-Method: 用于将经验过程的收敛性“提升”到统计量的收敛性（Theorem 3.6）。
  - Conditional Weak Convergence (依概率收敛): 这是全文的中心概念——在给定原始数据后，随机化过程以概率收敛于某个极限过程。
  - Chaining Arguments (via sub-Gaussian tails): 用于证明随机化经验过程\( \sqrt{n}(\mathbb{P}_n^{\pi} - \mathbb{P}_n) \)在函数类\( \mathcal{F} \)上的模的紧致性。
  - Coupling / Skorokhod Representation (隐含): 处理弱收敛时使用的标准技巧，用于将原数据与随机化数据的收敛性联系起来。
真实例子与应用: 本文包含真实数据例子、模拟研究和应用案例。 作者展示了三个场景：
1. Pearson相关系数的检验（例4.1）:
  - 数据&场景: 模拟数据来自一个二元t分布（厚尾）和一个二元正态分布。检验原假设H₀: ρ=0。
  - 方法: 将本文的随机化框架直接应用到基于Plackett-Luce秩和变换的相关系数的studentized版本上。群\( \mathcal{G} \)是独立符号置换群（sign-flipping group）。
  - 结果: 模拟显示，未studentized（原始）的随机化检验在厚尾分布下I型错误率严重偏离名义水平（如α=0.05时达到0.20以上），而本文的studentized随机化检验的I型错误率控制在名义水平附近（约0.052）。
  - 说明: 这个例子清晰展示了studentization的必要性，并验证了定理的有效性。
2. 右删失配对数据的Mann-Whitney效应（例4.2）:
  - 数据&场景: 基于一个关于肝功能衰竭患者行肝移植存活时间的真实数据集（数据来自[10]），但配对后构成竞争风险数据。检验两组平均的Mann-Whitney效应是否相等。
  - 方法: 基于Kaplan-Meier积分的中位秩效应（midrank effect）以及在未配对结果下的Mann-Whitney效应估计。对所有样本进行整体置换（full permutation on \( 2^n \) possible pair rearrangements），然后studentize。
  - 结果: 模拟研究（含删失数据生成的类数据）显示，studentized随机化检验在删失和厚尾下保持了良好的I型错误控制，而普通随机化检验则无效。
  - 说明: 验证了方法在完整的观测数据并不完全可交换的复杂生存分析场景下的适用性。
3. 竞争风险分析（例4.3）:
  - 数据&场景: 来自一项比较两种治疗方法对糖尿病视网膜病变影响的研究（Diabetic Retinopathy Study）。分析事件（定义为视力丧失）的累积发生率（CIF）差异。
  - 方法: 使用Aalen-Johansen估计量的积分作为统计量，通过随机化（置换）处理组分配的标签进行检验，并用Bootstrap进行studentization。
  - 结果: 随机化检验给出的p值与基于渐近正态的无条件p值非常相似，但多了一层精确性的保证（在子假设下）。
  - 说明: 展示该理论在经典的流行病学试验中的应用。
🔎 结论是否比证明窄:
- 窄的点: Theorem 3.1的条件弱收敛定理确实一视同仁地处理了任何能被functional delta-method处理的统计量。然而，它以假设“studentization因子也要被随机化”为前提。这个假设不是自明平凡的，它排除了“仅将数据随机化但使用原始方差估计”的做法。作者在推论中明确提到了这个“可交换条件”，但这实际上是一个无形的强度。结论中的“广泛应用性”可能会被这个嵌入在证明里的“studentization因子随机化”的要求所限制——尽管在实践中这是一个非常自然的要求。
- 泛泛的说法: 作者在intro中说：“...no general asymptotic theory... has been developed... It is the aim of this paper to provide a conveniently applicable theory...”。这很符合他的工作。但他对“conveniently applicable”的定义很严格——需要假设原始“Donsker收敛”成立，以及“studentization因子”可以被直接应用（类似于全置换）。这对于不完全置换（如只有随机采样的一部分置换，用于计算）是不成立的。作者明确提到他的工作只适用于完整群（列于Abstract中）。所以结论（“conveniently applicable”）比证明范围（“only full group is treated”）要窄——如果用户想用部分随机化，这个理论就不灵了。

四、开放问题（点到为止，扎根具体语句）¶

“部分随机化”的渐近有效性: 定理3.1和3.6依赖于完整的群\( \mathcal{G} \)的应用。实践中常使用随机子集（如MCMC或少量随机采样）。作者在介绍中提到“most theoretical literature assumes that the whole permutation group is used, and methods based on random permutations tend to be seen as approximate”（引用[6]）。要证什么: 证明当随机化统计量的分布基于群上的非均匀分布，或只使用群的一个随机子集时，条件弱收敛定理依然成立，并给出渐近valid的type I错误控制。扎根: 本文的whole-group假设决定了理论不覆盖部分随机化场景。用户可读Hemerik & Goeman (2014) [6]来确认此限制并探索扩展方向。
“高阶精确性”的学生化随机化检验: 本文提供的是一阶渐近有效性。要估什么: 能否构建高阶校正（如Edgeworth expansion或基于HOIF的修正）来改善有限样本下随机化检验的I型错误近似精度？在这个框架下，HOIF理论（用户武器库中“moderately familiar”）或许能以高效率直接用于校正随机化分布。扎根: 作者在“Discussions”中未提及高阶理论的可能性，但functional delta-method不传统上不考虑二阶项；而在随机化检验中，二阶项的结构可能会简化。
高维统计量的情形: 当统计量\( T_n \)的定义涉及高维数据（p >> n）时，Donsker假设（Assumption A）几乎总是失效。要克服什么: 如何在这个代数群随机化框架下检验弱原假设，例如检验高维均值向量的稀疏性或低秩协方差结构？这是典型的高维假设检验问题。扎根: Assumption A (Donsker condition) 在p>>>n下不成立。用户可以从高维统计理论的角度去分析，是否需要完全不同的假设。作者没有在这个方向上留下门。
群结构的非对称性更强: 该理论要求分组随机化的群是紧群的。但在物理随机化试验中，其实只有一部分随机化序列是可行的（如在“自控病例系列”SCCS [9] 中）。这会形成更复杂的群结构。要算什么: 能否定义一个“非对称但可计算的”群结构，使得本文的理论依然适用？扎根: 作者的群结构要求是完全包含所有变换的代数群。对于SCCS结构（个体作为自己的对照，只有个体内的时间顺序可变），群结构是受限的。“延展到更一般的群”是作者在“Discussions”中指定的未来方向。

Maintained by 陈星宇 · Homepage · Source on GitHub

Randomized empirical processes by algebraic groups, and tests for weak null hypotheses¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（本次重心）¶

四、开放问题（点到为止，扎根具体语句）¶

评论