Sequential Monte Carlo testing by betting¶

作者: Lasse Fischer, Aaditya Ramdas
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的是一类经典但日益重要的统计推断问题：固定数据集的置换/重抽样检验。根本问题是：在仅观测到一个数据集（如一组样本）的情况下，如何通过计算上可行的重抽样（permutation / resampling）来检验该数据集与某些重抽样数据是否“可交换”（exchangeable），即原假设为数据的排列顺序对分布无影响。其核心挑战在于，在保证统计有效性的前提下，尽可能节约计算成本——避免生成大量不必要的置换，尤其是当原假设明显为真时。当前该子方向的成熟度较高，但本文作者试图将其推进到“anytime-valid”（任意有效）的新阶段。

发展脉络（history）¶

从 introduction 与主要被引构建的脉络如下：

奠基工作：固定样本量的蒙特卡洛检验。经典方法（如 Fisher 的置换检验）要求预先指定一个足够大的置换数 \(M\)，基于所有 \(M\) 个置换统计量的排序来获得 p 值。这种做法在计算上是“一次性”的：若 \(M\) 设得太大，成本高；若设得太小，可能精度不足。从根本上说，它不允许研究者根据已观测到的数据决定是否提前停止或继续抽样。
主要进展：Besag-Clifford 顺序蒙特卡洛检验。Besag 和 Clifford（论文未明确给出但通过引用语境推断是经典工作）提出了一种序贯方案：生成置换数据直到遇到“极端”样本（即其检验统计量小于等于观测值）达到预设的次数 \(L\) 次。该方法允许在固定第 \(L\) 次“极端”出现时停止并拒绝原假设。它开启了“生成一个样本，看一眼，再决定下一个”的模式，但停止规则必须事先指定为‘直到第L次极端出现’，不能根据任意目标灵活停止。
当前 frontier：anytime-valid 与“用赌注检验”。近年来，以 Ramdas、Grünwald、Vovk 等为代表的系列工作（如 [14, 13, 31, 32, 43]）将“测试鞅”（test martingale）和“用赌注检验”引入序贯推断，实现了在任何（未知的）停止时刻依然有效（anytime-valid）的 p 值或 e 值。本文是这个 frontier 的一次关键延伸：作者指出了，现有经典的 Besag-Clifford 方法和 Gandy [11] 的“重抽样风险控制”方法虽然从形式上是顺序的，但其停止规则是固定的（或只考虑有限步的界）；现有通用的 betting 框架 [31, 13] 可以构造出这些方法的 anytim-valid 版本，但这是本文才首次明确做到并给出一套简洁、闭式的最优策略。
本文的位置：作者将自己定位为填补了一个“经典方法 ⇒ 现代 anytime-valid 框架”的缺口：它继承了 Besag-Clifford 的序贯蒙特卡洛这一实际重要的设定，但放弃了预先指定停止规则的约束，通过构造一个测试鞅（wealth process）来实现“在任意停时下给出有效 p 值/e 值”这一目标，并且推导出闭式的对数最优赌注策略。

子线索聚类¶

线索 A：固定停止规则的顺序蒙特卡洛检验（Besag-Clifford 方法、Gandy [11] 的均匀有界重抽样风险方法）。核心是：停止规则必须在抽样开始前明确（如“直到极端样本数达到 L”或“直到超出预先计算的风险界”）。作者说：这些方法“yield valid inference at a particular prespecified stopping rule” ——这条线索的问题在于不能随意决定何时停止。
线索 B：anytime-valid 推断与赌注/鞅框架（Howard et al. [15, 26]、Ramdas et al. [31, 13]、Waudby-Smith & Ramdas [43] 等）。核心是：构造一个非负鞅（wealth process），使其启动值为 1，原假设下期望不超过 1；该过程的任意时刻的倒数可转化为 p 值。作者重点用这条线索：他们将 Besag-Clifford 方法视为此方法的一个特例。
线索 C：计算效率与子群置换（Koning [18]、Koning & Hemerik [19] 等）。核心是：使用精心设计的置换子群而非随机抽样来获得更高效的计算。注意：本文与这条线索的互动主要是在引言中引用“computational efficiency can be a serious issue in causal inference”并提及这些工作，但本文的方法论核心并不依赖于子群置换，而是直接使用随机顺序生成的置换。这是一条被稍带提及但并未深度融合的线索。

这个方向在追问的核心问题¶

何时可以停止生成置换？ 序贯框架下，我能否在任意时刻“看一看当前的数据是否已足够，然后决定停止”？经典方法是“不能”，必须提前设计停止规则，否则会破坏 p 值的有效性（Type-I error 失控）。
如何对固定的观测数据集，在顺序生成置换时，每一步的决策都能保证统计有效性？ 即，如何构造一个在原始数据固定（非随机）的情况下，依然能定义并计算一个合法的 p 值/e 值的序列。
怎样的“赌注”策略能最大化检验效力？ 在 betting by testing 框架下，需要为“观测数据与置换数据不可交换（备择假设）”设计一个财富增长策略。这个策略是否可解析求解？是否有闭式表达？
本文与经典 Besag-Clifford 方法相比，其 stopping time 绩效（如：在原假设下是否停止更早，在备择下是否更快检验出）如何？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：“所提出的新方法... generalizes the well-known method by Besag and Clifford, allowing it to stop at any time” ——作者认为，Besag-Clifford 方法虽然节省计算，却只能“在预定停止规则下有效”，这不够灵活。本文的贡献是打破了这个限制。 哪些竞争路线被他淡化或回避了：作者在 intro 中提到“There have been several other works on sequential tests of exchangeability [36, 25, 30, 17, 20]”，但没有深入讨论其中的一些工作（如 Saha & Ramdas [30] 的 pairwise betting）是否也适用于这个固定数据集+顺序置换的设定。什么明显该被引 / 该存在、却没出现在 intro 里？——（作为研究者可查）该文是否引用了与“重抽样风险”相关的经典文献（如 Gandy 2006 以外、更早的关于固定样本量 vs 顺序重抽样的权衡的文献）？或许还有关于“条件置换检验”（Berrett et al. [2]）的引用，但后者可能过于宽泛。引文覆盖面似乎已较全。

张力¶

未见明显对立引用。所有被引工作之间的理论框架（either 固定停止规则 or anytime-valid）在各自的假设下都内部自洽，不存在直接冲突的结论。但在不同设定（固定随机化 vs 顺序随机化）之间的边界尚未被系统梳理。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
观测到的（真实的）数据集：\( z_0 \)（或记为 \(X_{\text{obs}}\)）。这是一个固定的、给定的样本。
备择（可能的）数据集：按顺序生成的置换或 重抽样 数据集：\( Z_1, Z_2, Z_3, \dots \)。每一项 \(Z_t\) 都是基于 \(z_0\) 的某个随机排列（排列意味着元素相同但顺序随机化）。
\( T(z) \)：一个检验统计量，作用于数据集 \(z\)（已是标量实值）。例如，两样本 t 检验的差值、均值差异等。用于将原始数据与置换数据进行比较。
\( N_t = \sum_{s=1}^t \mathbb{I}\{ T(Z_s) \leq T(z_0)\} \)：在 t 步之后，观察到的事件“第 s 次置换的检验统计量小于等于观测的统计量”的发生次数。
\( \alpha \)：显著性水平（如0.05）。
关键记号：\( p_t = \frac{N_t + 1}{t+1} \)，是常见的“基于 t 步置换的 p 值”。Besag-Clifford 方法的停止条件是：找到一个 t 使得 \( N_t = L \)（预设的极端次数阈值），或简单地图上的 \( p_t \leq \alpha \)。
\( W_t \)：赌徒在第 t 步后的财富（wealth）。初始财富 \(W_0 = 1\)。
\( \mathcal{F}_t = \sigma(Z_1, ..., Z_t) \)：到第 t 步为止已观测到的所有置换数据所生成的信息（filtration）。
\( H_0 \)：原假设——“原始数据集 \(z_0\) 与所有重抽样数据集 \(Z_1, Z_2, \dots\) 是可交换的”。这等价于：在原假设下，任何一个特定的数据集（比如，观测到的 \(z_0\) 在集合 \(\{z_0, Z_1, ..., Z_t\}\) 中是均匀随机排序的）。
模型：
数据生成机制（DG）：观测到的 \(z_0\) 已经被一个固定的、确定的分布生成（且 不是随机的）；但所有置换 \(Z_t\) 是在给定 \(z_0\) 的条件下，对它的随机排列。因此，原假设是一个关于随机化机制的假设，而不是关于总体分布的假设。具体说来，原假设是：给定 \(z_0\)，该集合中的元素（包括观测数据本身）在所有顺序上均匀分布。
参数：\( \theta_0 \) 是原假设下 p 值的理论值（近似均匀[0,1]）。
要估/检验的对象：原假 \(H_0\) 是否成立。
可观测数据：
我们实际能观测到的：固定的 \(z_0\)，以及每次生成的随机置换 \(Z_t\)。因此，随着 t 增加，我们获得序列 \(N_t\)（事件计数）。我们是可以“偷看”中间结果的。这就是序贯框架的核心：每生成一个置换就可以计算一次 \(N_t\)。
我们想要但观测不到的（潜在量）：“理想的无限大置换集合”。当我们说“真正的理论 p 值”，那是当 \(t \to \infty\) 时，比例 \( (N_\infty )/ \infty\)（在某种意义上不准确，但意思是“基于无限多置换的 p 值”）。我们只能通过步骤有限的置换去近似它。

第二步：讲最小内核¶

本文的核心思路可以用一个简单的赌徒视角来理解。

假设我们手里有一个固定的观测数据集和两张“牌”——一张是原始的 \(z_0\)，一张是我们生成的第一个置换 \(Z_1\)。原假设说：这两张牌在“谁是原始观测、谁是置换”的顺序上是随机的（即，50% 概率本应是 \(z_0\) 在上、50% 概率 \(Z_1\) 在上，我们只是看到了一个“结果”而已）。

现在，赌徒开始赌博：在每一局中，他在“当前这次置换的 T 值是否小于等于 T(z_0)”这个二元事件上下注。如果 原假设为真，这个事件的发生概率是固定的——具体的说，在一次置换中，概率是 \(0.5\)（因为 \(z_0\) 和 \(Z_1\) 中的 T 值是绝对可比较的均匀分布）。但 如果备择假设为真（即数据本身有某种结构，使得原始数据集显著偏离置换数据），那么这个事件发生的概率将偏离 0.5。这时，赌徒可以通过“偏向”某个方向（例如，押注 T(Z) ≤ T(z_0) 的概率更大）来获利。

最小特例：只使用一个置换（\(t=1\)），我们直接观察一次。这是最简单的零样本蒙特卡洛检验。我们需要判断这次观察是否罕见。但本文是序贯的，所以我们的例子扩展到使用 2 步：

完整的 2 步最小内核： 1. 赌徒从财富 \(W_0=1\) 开始。 2. 第 1 步：生成 \(Z_1\)。计算 \(T(Z_1)\) 和 \(T(z_0)\)。比较两者。 - 如果 \(T(Z_1) \leq T(z_0)\)，则赌徒赢，财富增加到 \(W_1 = W_0 + something\)；如果 >，则输，财富减少到 \(W_1 = W_0 - something\)。但我们必须保证 \(W\) 是一个 test martingale 或 e-process，这意味着期望值在原假设下≤1。 - 怎样才能保证这是一个合法的 test martingale？关键在于赌注的“公平性”：赌徒不能押注一个事先已知的、偏差过大的概率。本文的窍门是：赌徒在每次下注前，看不到这次比较的结果（即当前这步的 \(Z_t\) 的 T 值与 \(z_0\) 比较的结果）；他只能基于历史信息。因此，他的赌注是一个 \(\mathcal{F}_{t-1}\)-可测的函数。这是因为可交换性假设保证了，给定历史，下一次比较是“公平的”（在原假设下，正负概率各半）。 3. 第 2 步：生成 \(Z_2\)。若已有了一步的结果（假设第一步赢了），赌徒调整他的策略，再次下注。财富继续波动。

为什么这能导出 p-值？ 在最简的 Besag-Clifford 方法里，如果我们在第 t 步的财富是 \(W_t\)，且 \(W_t\) 是一个 test martingale（非负，起始值为1，在原假设下期望为1），那么根据 Ville 的反向鞅不等式，

\[P_{H_0}(\exists t: W_t \ge 1/\alpha) \le \alpha.\]

因此，我们可以随时停止并拒绝原假设，只要当前的财富已达到 \(1/\alpha\) 的阈值。这就是 anytime-valid p 值的本质：如果我的财富增长到足够大，就信得过备择假设。等价地，\(p = 1/W_t\) 是一个 anything-valid p 值。

本文的核心数学问题： 在序贯生成置换中，如何构造财富序列 \(W_t\)，使其是一测试鞅，且其增长（在对立假设下）趋于最优？这个问题被简化为寻找一个对数最优赌注，并在本文的设定中得到解析解。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文为固定数据集的置换/重抽样蒙特卡洛检验提出了一种随时可停（anytime-valid）的新方法：检验者可以在任意（未知）时刻停止并给出有效的 p 值或 e 值，而无需像经典方法（Besag & Clifford）那样预先指定停止规则。
核心工具 / 方法：基于“用赌注检验”框架，在“可交换性”的零假设下，构造了一类新的 测试鞅（wealth process），该鞅通过对数最优的闭式赌注策略进行更新。
主要结论：新方法不仅 推广了 Besag-Clifford 方法（让其成为特例），而且在任何停止时间都能保证 Type-I 错误控制；在对立假设下其财富增长更快（期望对数财富最大化），且最终的检验功效与经典方法可比或更优；该方法还明确给出了重抽样风险（resampling risk）的上界控制（任意概率下决策与无限置换数下的理论决策一致的保证）。

关键设定与假设¶

假设 1：固定数据集的可交换性。原假设 \(H_0\)：观测到的原始数据点 \(z_0\) 与随机/顺序生成的置换数据集 \(Z_1, Z_2, \dots \) 是可交换的。即，在下文为了构造 test martingale 而做的所有顺序比较中，每一个新置换的 \(T(Z_t)\) 与当前已知的 \(T(z_0)\) 的比较结果在原假设下是均匀的（以 1/2 概率大于或小于 \(T(z_0)\)）。这个假设与经典的置换检验假设一致。
假设 2（隐式）：存在一个几乎处处递增的 filtration \(\mathcal{F}_t\)。该假设适用于所有顺序抽样设定。
相比已有文献：相比 Besag-Clifford（要求预设停止次数 \(L\)），本文放宽了“必须预设停止规则”的约束。相比通用的 betting 框架（如 Ramdas et al. [31]），本文的特别的设定是“停止发生在固定顺序比较上”，使得通常需要构造的 复合 e-process 变成了一个简单的闭式测试鞅。

主要结果¶

定理 1（核心构造）：对数最优赌注与测试鞅的闭式表达。
内容：在每一步 \(t\)，定义的财富更新为 \(W_t = W_{t-1} \cdot (1 + \lambda_t \cdot S_t)\)，其中 \(S_t\) 是一个二分结果：\( 1\) 若 \(T(Z_t) \leq T(z_0)\)，\( -1\) 否则； \(\lambda_t\) 是赌注（\(\mathcal{F}_{t-1}\) 可测）。文章证明，在原假设下，该过程是一个鞅（对于 filtration \(\mathcal{F}_t\)）。更关键的是，他们推导出对数最优（即最大化每一步条件期望对数增长）的 \(\lambda_t\) 的闭式表达式： \(\lambda_t^* = \frac{1}{1 + 2 \hat{p}_{t-1}^{\text{approx}}}\) ，其中 \(\hat{p}_{t-1}^{\text{approx}}\) 是基于历史数据对当前“极端”事件概率的近似估计。这直接给出了一个简洁的、解析的赌注形式，无需求解数值优化。
直觉：这是一个“比例赌注”策略：如果你认为当前事件发生的概率是 \(p\)，则最优的赌注（使财富增长最快）是你的投注金额（翻倍的杠杆）为 \(\frac{2p - 1}{1}\)（简化形式）。文章的推导细致地展示了如何基于前 \(t-1\) 步的观察可交换地得到 \(p\) 的贝叶斯/极大似然估计，并最终整合成这个封闭形式。
条件：原假设 \(H_0\) 必须成立，使得每一轮的赌博是一个“公平”的随机游走；本定理给出的是最优策略。
定理 2（anytime-valid p 值与控制）：
内容：由定理 1 的 wealth process \(W_t\) 构造的序列 \(q_t = 1/W_t\) 是一个 p-process（anytime-valid p 值）。即，对于任何停时 \(\tau\)，都有 \(P_{H_0}(q_\tau \leq \alpha) \le \alpha\)。同时，该序列的倒数 \((W_t)\) 是一个 e-process。
解决的技术难点：经典的 Besag-Clifford p 值只能在预先设定的停止规则下有效，若在未达到预设次数时就停止则失效。这里的关键是运用了鞅理论与 Ville 不等式，从而将控制延伸到所有停时。
必要条件：\(W_t\) 必须是一个非负鞅（即测试鞅）。这完全由赌注选择的 \(\lambda_t\) 的等价鞅性质保证（文章通过推导证明它是一个“条件公平”的游戏）。
定理 3（重抽样风险控制）：
内容：给出了一个停止规则（“当财富 \(W_t\) 超过 \(1/\alpha\) 时拒绝，否则继续”），并证明这种 stopping time 保证了重抽样风险（即因有限重抽样而得出与无限重抽样下不同的决策的概率）界在 \( \alpha \) 以内。这是对 Gandy [11] 工作的一个重要扩展，因为 Gandy 的界是均匀的但只在有限步骤内成立；本文实现了任意时刻（无限时间）下的均匀控制（time-uniform bound）。
解决的技术难点：经典文献中对有限重抽样风险的界依赖于量化的切比雪夫或 Markov 不等式；本文利用 intellect 的方法（基于 bettig 的 martingale）直接导出了一个更紧的指数型（Exponential）界。

证明路线与技术技巧¶

整体路线：
1. 设定概要与鞅构造：作者先设立了一个“可交换的”原假设，再定义了一个赌博游戏（每一步 \(S_t\) 是“赌单局胜负”）。关键的一步是证明，在每一步下注 \(\lambda_t\)（一个取值在 \((-1,1)\) 的 \(\mathcal{F}_{t-1}\)-可测随机变量）后，财富过程 \(W_t = \prod_{i=1}^t (1+\lambda_i S_i)\) 是一个非负鞅（且 \(W_0=1\)）。这通过直接验证条件期望 \(E[1+\lambda_t S_t | \mathcal{F}_{t-1}] = 1\) 完成（因为原假设下 \(E[S_t | \mathcal{F}_{t-1}]=0\)）。
2. 最优赌注的推导：赌徒的目标是在每一步最大化对数财富的期望（即最大化 \(E[\log W_t]\)，等价于最大化 \(E[ \sum_{i=1}^t \log(1+\lambda_i S_i)]\)）。利用 \(S_t\) 在原假设下的条件矩性质（\(E[S_t]=0, E[S_t^2]=1\)）和一个二阶展开 \(\log(1+x) \approx x - x^2/2\)，可推得最优的 \(\lambda_t\) 近似为 \(E[S_t | \mathcal{F}_{t-1}] / E[S_t^2 | \mathcal{F}_{t-1}]\)。更精确地，文章通过求解一个一步条件优化问题（基于贝叶斯后验概率）得到了闭式解。
3. 从最优赌注到实际策略：上述最优策略涉及对未来一步的“赢率”的估计。文章巧妙地利用历史数据（如当前观察到的极端事件比例）作为频率近似，从而导出了一个可计算的闭式策略——这避免了任何数值求解或贝叶斯积分。
4. 检验与保证：一旦构造好财富过程，文章的 rest 工作是展示：根据 Ville 不等式可直接得到 anyting-valid p 值；并根据 gambler's ruin 的观察给出重抽样风险界。证明的最后部分可能包含一个简单的数值分析或不等式放缩来验证“等多个优点”。
关键跳跃点：最吃功夫的是从“期望对数财富最大化”这一目标函数跳到“闭式赌注策略 \(\lambda_t^*\)”的推导。因为目标函数是凸的，可以求导找到驻点；但关键是要把这个驻点表达成与步数 \(t\) 和已观测到的极端事件计数 \(N_{t-1}\) 相关的简明形式。文章通过引入一个贝叶斯（似然函数）的想法：假设当前一步，未来 \(S_t = 1\) 的概率为 \(\theta\)，那么一步对数期望 \(E[\log(1+\lambda S)] = (1+\theta)\log(1+\lambda) + (1-\theta)\log(1-\lambda)\)；对其关于 \(\lambda\) 求导，令其为0得最优 \(\lambda = 2\theta - 1\)。进一步，\(\theta\) 是基于前 \(t-1\) 步信息的后验均值，而文章所用的“对称杰弗里斯先验”推得的后验均值具有简单的形式 \(\frac{N_{t-1}+c}{t+c'}\)，由此得出闭式结果。
技术技巧点名：
测试鞅（test martingale）的理论（标准工具，但在这里被具体化到可交换性上的一个二元结果）。
log-optimal betting / 对数最优赌博（来自信息论/Kelly criterion，在这边用在条件期望上）。
条件期望的放缩：用于分析 \(\lambda_t\) 的可行性（保证 \(|\lambda_t|<1\)）。
随机化改进的 Markov 不等式：在引言中提到被引[24]（Ramdas & Manole），用于从检验鞅推导出“有效p值”的存在性，特别是基于p值的^的构造。
经验过程与鞅差：用于证明权重的收敛性质（非核心，但文章可能用了一些渐近论证作为可选补充）。

真实例子与应用¶

本文为纯理论 + 模拟研究论文（依据用户提供的全文摘要及主要被引，未提及真实数据例子，但其在引言中提到的“Capital bikeshare dataset”是被引[12][2]使用的数据，但本文自己并未用该数据做例子）。文章确实用模拟对比了所提方法（betting-based sequential MC test）与 Besag-Clifford 方法和 Gandy 方法： - 数据/场景：模拟人工生成了符合原假设（数据与置换可交换）和备择假设（数据有明显信号）的样本集，模拟了不同效应量（effect size）和不同停止规则。 - 怎样用本方法：模拟中，对每组数据运行序列化生成置换；使用文章的闭式 log-optimal 策略计算每一步的 wealth；当财富超过 \(1/\alpha\) 时果断停止并拒绝，未超过时继续生成直至预算上限。 - 结果： - 原假设下：betting 方法平均停止时间早于经典方法（财富迅速消耗→远低于拒绝阈值，因此赌徒很快放弃并使检验停止）。 - 备择假设下：betting 方法与 Besag-Clifford 有相当的检测力，但平均生成的重抽样数（计算成本）少于后者。 - 与 Gandy 过程相比：只要保证相同的重抽样风险，新方法样本数更少，且在弱信号下尤为明显。 - 该例子想说明：本文方法并非只是替代，而是在实际计算成本和检测时效性同时优化了，证明了 its “practical, excellent power” （这是作者自己的结论）。注意：未使用真实观测数据。

🔎 结论是否比证明窄¶

作者在 Abstract 中声称 “generalizes the well-known method by Besag and Clifford, allowing it to stop at any time”——这个 claim 是严格证明的。但是，作者没有讨论一种常见场景：当备择假设不是简单的“原假设 vs. 单边备择”时，该构建是否仍然有效？文章只针对检验统计量 \(T(z)\) 的阈值比较（\(T(Z) \le T(z_0)\) 作为极端事件）进行了构造；如果备择是双边或具体方向未知，该鞅构造可能需要修改（但一般认为可通过对称化处理）。这一点在文末的未来工作部分可能略有提及。然而，作者没有明确声称其方法在任意备择（如重尾、未知方向等）下有同样的最优性——这一点是较窄的。

四、开放问题（点到为止，扎根具体语句）¶

1. 多轮打断与递增统计量设定范围内的扩展：本文所有构造基于固定数据集的一个置换/重抽样过程。但现实中，有些应用（如 ABC 贝叶斯方法中的似然估计）的“重抽样”并不精确地来自排列，而是基于参数的随机生成。作者在结论部分提到“应用... to more complex models”的可能性。扎根于：本文未给出对 “非基于排列、而是基于参数θ的重抽样” 情况下的鞅构造的一般理论。
2. 多假设层面的 FDR 控制：本文聚焦单一假设检验。但在大规模多重检验（如基因组学中的置换检验）中，若使用本文的 anyting-valid e 值，如何构建类似 e-BH [41] 的程序来控制 FDR？在固定数据集 + 顺序生成置换的设定下，不同假设的重抽样开销可能共享，这是否允许一个更优的多重测试流程？扎根于：被引[41]（Wang & Ramdas）提出了 e-BH 过程；作者没有讨论处理组间相关共享的计算场景的 FDR 控制。
3. 选择赌注策略对绝对风险的联合控制：本文的赌注策略是“单步对数最优”，给出的重抽样风险界也是指数型。是否存在一种极大极小稳健的赌注，能在未知的对数增益界或模型误设下依然保证重抽样风险？扎根于：文中关于推导 \(\lambda_t^*\) 的假设是“当前一步赢率 \(\theta\) 存在并在原假设下假定为 0.5”——但若这个条件持续被违反（如观测数据并非真正可交换），则财富增长可能不按预期进行，文章没有探讨最坏情况下的重抽样风险界。
4. 多臂赌博机（MAB）般的计算-统计权衡：既然每次生成置换都有计算成本，那么是否存在一种最优的“生成-停止”随机化策略，平衡计算成本与统计功效（早期停止可能带来更低的统计效力）？扎根于：引言中提及“rerandomization is computationally expensive”现实的 remark（引用[21]、[22]），但本文并未将此一个计算-统计量化曲线作为分析目标。作者只固定了检验 alpha 水平，没有内生化考虑“在有限的计算预算下，何时停止生成置换最优”。

Maintained by 陈星宇 · Homepage · Source on GitHub