跳转至

Sequential Monte Carlo testing by betting

作者: Lasse Fischer, Aaditya Ramdas
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文研究的是一类经典但日益重要的统计推断问题:固定数据集的置换/重抽样检验。根本问题是:在仅观测到一个数据集(如一组样本)的情况下,如何通过计算上可行的重抽样(permutation / resampling)来检验该数据集与某些重抽样数据是否“可交换”(exchangeable),即原假设为数据的排列顺序对分布无影响。其核心挑战在于,在保证统计有效性的前提下,尽可能节约计算成本——避免生成大量不必要的置换,尤其是当原假设明显为真时。当前该子方向的成熟度较高,但本文作者试图将其推进到“anytime-valid”(任意有效)的新阶段。

发展脉络(history)

从 introduction 与主要被引构建的脉络如下:

  • 奠基工作:固定样本量的蒙特卡洛检验。经典方法(如 Fisher 的置换检验)要求预先指定一个足够大的置换数 \(M\),基于所有 \(M\) 个置换统计量的排序来获得 p 值。这种做法在计算上是“一次性”的:若 \(M\) 设得太大,成本高;若设得太小,可能精度不足。从根本上说,它不允许研究者根据已观测到的数据决定是否提前停止或继续抽样
  • 主要进展:Besag-Clifford 顺序蒙特卡洛检验。Besag 和 Clifford(论文未明确给出但通过引用语境推断是经典工作)提出了一种序贯方案:生成置换数据直到遇到“极端”样本(即其检验统计量小于等于观测值)达到预设的次数 \(L\) 次。该方法允许在固定第 \(L\) 次“极端”出现时停止并拒绝原假设。它开启了“生成一个样本,看一眼,再决定下一个”的模式,但停止规则必须事先指定为‘直到第L次极端出现’,不能根据任意目标灵活停止
  • 当前 frontier:anytime-valid 与“用赌注检验”。近年来,以 Ramdas、Grünwald、Vovk 等为代表的系列工作(如 [14, 13, 31, 32, 43])将“测试鞅”(test martingale)和“用赌注检验”引入序贯推断,实现了在任何(未知的)停止时刻依然有效(anytime-valid)的 p 值或 e 值。本文是这个 frontier 的一次关键延伸:作者指出了,现有经典的 Besag-Clifford 方法和 Gandy [11] 的“重抽样风险控制”方法虽然从形式上是顺序的,但其停止规则是固定的(或只考虑有限步的界);现有通用的 betting 框架 [31, 13] 可以构造出这些方法的 anytim-valid 版本,但这是本文才首次明确做到并给出一套简洁、闭式的最优策略。
  • 本文的位置:作者将自己定位为填补了一个“经典方法 ⇒ 现代 anytime-valid 框架”的缺口:它继承了 Besag-Clifford 的序贯蒙特卡洛这一实际重要的设定,但放弃了预先指定停止规则的约束,通过构造一个测试鞅(wealth process)来实现“在任意停时下给出有效 p 值/e 值”这一目标,并且推导出闭式的对数最优赌注策略。

子线索聚类

  • 线索 A:固定停止规则的顺序蒙特卡洛检验(Besag-Clifford 方法、Gandy [11] 的均匀有界重抽样风险方法)。核心是:停止规则必须在抽样开始前明确(如“直到极端样本数达到 L”或“直到超出预先计算的风险界”)。作者说:这些方法“yield valid inference at a particular prespecified stopping rule” ——这条线索的问题在于不能随意决定何时停止
  • 线索 B:anytime-valid 推断与赌注/鞅框架(Howard et al. [15, 26]、Ramdas et al. [31, 13]、Waudby-Smith & Ramdas [43] 等)。核心是:构造一个非负鞅(wealth process),使其启动值为 1,原假设下期望不超过 1;该过程的任意时刻的倒数可转化为 p 值。作者重点用这条线索:他们将 Besag-Clifford 方法视为此方法的一个特例。
  • 线索 C:计算效率与子群置换(Koning [18]、Koning & Hemerik [19] 等)。核心是:使用精心设计的置换子群而非随机抽样来获得更高效的计算。注意:本文与这条线索的互动主要是在引言中引用“computational efficiency can be a serious issue in causal inference”并提及这些工作,但本文的方法论核心并不依赖于子群置换,而是直接使用随机顺序生成的置换。这是一条被稍带提及但并未深度融合的线索。

这个方向在追问的核心问题

  1. 何时可以停止生成置换? 序贯框架下,我能否在任意时刻“看一看当前的数据是否已足够,然后决定停止”?经典方法是“不能”,必须提前设计停止规则,否则会破坏 p 值的有效性(Type-I error 失控)。
  2. 如何对固定的观测数据集,在顺序生成置换时,每一步的决策都能保证统计有效性? 即,如何构造一个在原始数据固定(非随机)的情况下,依然能定义并计算一个合法的 p 值/e 值的序列。
  3. 怎样的“赌注”策略能最大化检验效力? 在 betting by testing 框架下,需要为“观测数据与置换数据不可交换(备择假设)”设计一个财富增长策略。这个策略是否可解析求解?是否有闭式表达?
  4. 本文与经典 Besag-Clifford 方法相比,其 stopping time 绩效(如:在原假设下是否停止更早,在备择下是否更快检验出)如何?

⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)

作者把缺口 frame 成:“所提出的新方法... generalizes the well-known method by Besag and Clifford, allowing it to stop at any time” ——作者认为,Besag-Clifford 方法虽然节省计算,却只能“在预定停止规则下有效”,这不够灵活。本文的贡献是打破了这个限制。 哪些竞争路线被他淡化或回避了:作者在 intro 中提到“There have been several other works on sequential tests of exchangeability [36, 25, 30, 17, 20]”,但没有深入讨论其中的一些工作(如 Saha & Ramdas [30] 的 pairwise betting)是否也适用于这个固定数据集+顺序置换的设定。什么明显该被引 / 该存在、却没出现在 intro 里?——(作为研究者可查)该文是否引用了与“重抽样风险”相关的经典文献(如 Gandy 2006 以外、更早的关于固定样本量 vs 顺序重抽样的权衡的文献)?或许还有关于“条件置换检验”(Berrett et al. [2])的引用,但后者可能过于宽泛。引文覆盖面似乎已较全。

张力

未见明显对立引用。所有被引工作之间的理论框架(either 固定停止规则 or anytime-valid)在各自的假设下都内部自洽,不存在直接冲突的结论。但在不同设定(固定随机化 vs 顺序随机化)之间的边界尚未被系统梳理。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • 观测到的(真实的)数据集:\( z_0 \)(或记为 \(X_{\text{obs}}\))。这是一个固定的、给定的样本。
  • 备择(可能的)数据集:按顺序生成的 置换重抽样 数据集:\( Z_1, Z_2, Z_3, \dots \)。每一项 \(Z_t\) 都是基于 \(z_0\) 的某个随机排列(排列意味着元素相同但顺序随机化)。
  • \( T(z) \):一个检验统计量,作用于数据集 \(z\)(已是标量实值)。例如,两样本 t 检验的差值、均值差异等。用于将原始数据与置换数据进行比较。
  • \( N_t = \sum_{s=1}^t \mathbb{I}\{ T(Z_s) \leq T(z_0)\} \):在 t 步之后,观察到的事件“第 s 次置换的检验统计量小于等于观测的统计量”的发生次数。
  • \( \alpha \):显著性水平(如0.05)。
  • 关键记号\( p_t = \frac{N_t + 1}{t+1} \),是常见的“基于 t 步置换的 p 值”。Besag-Clifford 方法的停止条件是:找到一个 t 使得 \( N_t = L \)(预设的极端次数阈值),或简单地图上的 \( p_t \leq \alpha \)
  • \( W_t \):赌徒在第 t 步后的财富(wealth)。初始财富 \(W_0 = 1\)
  • \( \mathcal{F}_t = \sigma(Z_1, ..., Z_t) \):到第 t 步为止已观测到的所有置换数据所生成的信息(filtration)。
  • \( H_0 \):原假设——“原始数据集 \(z_0\) 与所有重抽样数据集 \(Z_1, Z_2, \dots\) 是可交换的”。这等价于:在原假设下,任何一个特定的数据集(比如,观测到的 \(z_0\) 在集合 \(\{z_0, Z_1, ..., Z_t\}\) 中是均匀随机排序的)。

  • 模型

  • 数据生成机制(DG):观测到的 \(z_0\) 已经被一个固定的、确定的分布生成(且 不是随机的);但所有置换 \(Z_t\) 是在给定 \(z_0\) 的条件下,对它的随机排列。因此,原假设是一个关于随机化机制的假设,而不是关于总体分布的假设。具体说来,原假设是:给定 \(z_0\),该集合中的元素(包括观测数据本身)在所有顺序上均匀分布。
  • 参数:\( \theta_0 \) 是原假设下 p 值的理论值(近似均匀[0,1])。
  • 要估/检验的对象:原假 \(H_0\) 是否成立。

  • 可观测数据

  • 我们实际能观测到的:固定的 \(z_0\),以及每次生成的随机置换 \(Z_t\)。因此,随着 t 增加,我们获得序列 \(N_t\)(事件计数)。我们是可以“偷看”中间结果的。这就是序贯框架的核心:每生成一个置换就可以计算一次 \(N_t\)
  • 我们想要但观测不到的(潜在量):“理想的无限大置换集合”。当我们说“真正的理论 p 值”,那是当 \(t \to \infty\) 时,比例 \( (N_\infty )/ \infty\)(在某种意义上不准确,但意思是“基于无限多置换的 p 值”)。我们只能通过步骤有限的置换去近似它。

第二步:讲最小内核

本文的核心思路可以用一个简单的赌徒视角来理解。

假设我们手里有一个固定的观测数据集和两张“牌”——一张是原始的 \(z_0\),一张是我们生成的第一个置换 \(Z_1\)。原假设说:这两张牌在“谁是原始观测、谁是置换”的顺序上是随机的(即,50% 概率本应是 \(z_0\) 在上、50% 概率 \(Z_1\) 在上,我们只是看到了一个“结果”而已)。

现在,赌徒开始赌博:在每一局中,他在“当前这次置换的 T 值是否小于等于 T(z_0)”这个二元事件上下注。如果 原假设为真,这个事件的发生概率是固定的——具体的说,在一次置换中,概率是 \(0.5\)(因为 \(z_0\)\(Z_1\) 中的 T 值是绝对可比较的均匀分布)。但 如果备择假设为真(即数据本身有某种结构,使得原始数据集显著偏离置换数据),那么这个事件发生的概率将偏离 0.5。这时,赌徒可以通过“偏向”某个方向(例如,押注 T(Z) ≤ T(z_0) 的概率更大)来获利

最小特例:只使用一个置换(\(t=1\),我们直接观察一次。这是最简单的零样本蒙特卡洛检验。我们需要判断这次观察是否罕见。但本文是序贯的,所以我们的例子扩展到使用 2 步

完整的 2 步最小内核: 1. 赌徒从财富 \(W_0=1\) 开始。 2. 第 1 步:生成 \(Z_1\)。计算 \(T(Z_1)\)\(T(z_0)\)。比较两者。 - 如果 \(T(Z_1) \leq T(z_0)\),则赌徒赢,财富增加到 \(W_1 = W_0 + something\);如果 >,则输,财富减少到 \(W_1 = W_0 - something\)。但我们必须保证 \(W\) 是一个 test martingalee-process,这意味着期望值在原假设下≤1。 - 怎样才能保证这是一个合法的 test martingale?关键在于赌注的“公平性”:赌徒不能押注一个事先已知的、偏差过大的概率。本文的窍门是:赌徒在每次下注前,看不到这次比较的结果(即当前这步的 \(Z_t\) 的 T 值与 \(z_0\) 比较的结果);他只能基于历史信息。因此,他的赌注是一个 \(\mathcal{F}_{t-1}\)-可测的函数。这是因为可交换性假设保证了,给定历史,下一次比较是“公平的”(在原假设下,正负概率各半)。 3. 第 2 步:生成 \(Z_2\)。若已有了一步的结果(假设第一步赢了),赌徒调整他的策略,再次下注。财富继续波动。

为什么这能导出 p-值? 在最简的 Besag-Clifford 方法里,如果我们在第 t 步的财富是 \(W_t\),且 \(W_t\) 是一个 test martingale(非负,起始值为1,在原假设下期望为1),那么根据 Ville 的反向鞅不等式,

\[P_{H_0}(\exists t: W_t \ge 1/\alpha) \le \alpha.\]
因此,我们可以随时停止并拒绝原假设,只要当前的财富已达到 \(1/\alpha\) 的阈值。这就是 anytime-valid p 值的本质:如果我的财富增长到足够大,就信得过备择假设。等价地,\(p = 1/W_t\) 是一个 anything-valid p 值

本文的核心数学问题: 在序贯生成置换中,如何构造财富序列 \(W_t\),使其是一测试鞅,且其增长(在对立假设下)趋于最优?这个问题被简化为寻找一个对数最优赌注,并在本文的设定中得到解析解。

三、这篇论文做了什么

三句话

  • 研究了什么问题:本文为固定数据集的置换/重抽样蒙特卡洛检验提出了一种随时可停(anytime-valid)的新方法:检验者可以在任意(未知)时刻停止并给出有效的 p 值或 e 值,而无需像经典方法(Besag & Clifford)那样预先指定停止规则。
  • 核心工具 / 方法:基于“用赌注检验”框架,在“可交换性”的零假设下,构造了一类新的 测试鞅(wealth process),该鞅通过对数最优的闭式赌注策略进行更新。
  • 主要结论:新方法不仅 推广了 Besag-Clifford 方法(让其成为特例),而且在任何停止时间都能保证 Type-I 错误控制;在对立假设下其财富增长更快(期望对数财富最大化),且最终的检验功效与经典方法可比或更优;该方法还明确给出了重抽样风险(resampling risk)的上界控制(任意概率下决策与无限置换数下的理论决策一致的保证)。

关键设定与假设

  • 假设 1:固定数据集的可交换性。原假设 \(H_0\):观测到的原始数据点 \(z_0\) 与随机/顺序生成的置换数据集 \(Z_1, Z_2, \dots \) 是可交换的。即,在下文为了构造 test martingale 而做的所有顺序比较中,每一个新置换的 \(T(Z_t)\) 与当前已知的 \(T(z_0)\) 的比较结果在原假设下是均匀的(以 1/2 概率大于或小于 \(T(z_0)\))。这个假设与经典的置换检验假设一致。
  • 假设 2(隐式):存在一个几乎处处递增的 filtration \(\mathcal{F}_t\)。该假设适用于所有顺序抽样设定。
  • 相比已有文献:相比 Besag-Clifford(要求预设停止次数 \(L\)),本文放宽了“必须预设停止规则”的约束。相比通用的 betting 框架(如 Ramdas et al. [31]),本文的特别的设定是“停止发生在固定顺序比较上”,使得通常需要构造的 复合 e-process 变成了一个简单的闭式测试鞅

主要结果

  • 定理 1(核心构造):对数最优赌注与测试鞅的闭式表达。
  • 内容:在每一步 \(t\),定义的财富更新为 \(W_t = W_{t-1} \cdot (1 + \lambda_t \cdot S_t)\),其中 \(S_t\) 是一个二分结果:\( 1\)\(T(Z_t) \leq T(z_0)\)\( -1\) 否则; \(\lambda_t\) 是赌注(\(\mathcal{F}_{t-1}\) 可测)。文章证明,在原假设下,该过程是一个 (对于 filtration \(\mathcal{F}_t\))。更关键的是,他们推导出对数最优(即最大化每一步条件期望对数增长)的 \(\lambda_t\) 的闭式表达式: \(\lambda_t^* = \frac{1}{1 + 2 \hat{p}_{t-1}^{\text{approx}}}\) ,其中 \(\hat{p}_{t-1}^{\text{approx}}\) 是基于历史数据对当前“极端”事件概率的近似估计。这直接给出了一个简洁的、解析的赌注形式,无需求解数值优化。
  • 直觉:这是一个“比例赌注”策略:如果你认为当前事件发生的概率是 \(p\),则最优的赌注(使财富增长最快)是你的投注金额(翻倍的杠杆)为 \(\frac{2p - 1}{1}\)(简化形式)。文章的推导细致地展示了如何基于前 \(t-1\) 步的观察可交换地得到 \(p\) 的贝叶斯/极大似然估计,并最终整合成这个封闭形式。
  • 条件:原假设 \(H_0\) 必须成立,使得每一轮的赌博是一个“公平”的随机游走;本定理给出的是最优策略。

  • 定理 2(anytime-valid p 值与控制):

  • 内容:由定理 1 的 wealth process \(W_t\) 构造的序列 \(q_t = 1/W_t\) 是一个 p-process(anytime-valid p 值)。即,对于任何停时 \(\tau\),都有 \(P_{H_0}(q_\tau \leq \alpha) \le \alpha\)。同时,该序列的倒数 \((W_t)\) 是一个 e-process
  • 解决的技术难点:经典的 Besag-Clifford p 值只能在预先设定的停止规则下有效,若在未达到预设次数时就停止则失效。这里的关键是运用了鞅理论与 Ville 不等式,从而将控制延伸到所有停时。
  • 必要条件\(W_t\) 必须是一个非负鞅(即测试鞅)。这完全由赌注选择的 \(\lambda_t\) 的等价鞅性质保证(文章通过推导证明它是一个“条件公平”的游戏)。

  • 定理 3(重抽样风险控制):

  • 内容:给出了一个停止规则(“当财富 \(W_t\) 超过 \(1/\alpha\) 时拒绝,否则继续”),并证明这种 stopping time 保证了重抽样风险(即因有限重抽样而得出与无限重抽样下不同的决策的概率)界在 \( \alpha \) 以内。这是对 Gandy [11] 工作的一个重要扩展,因为 Gandy 的界是均匀的但只在有限步骤内成立;本文实现了任意时刻(无限时间)下的均匀控制(time-uniform bound)。
  • 解决的技术难点:经典文献中对有限重抽样风险的界依赖于量化的切比雪夫或 Markov 不等式;本文利用 intellect 的方法(基于 bettig 的 martingale)直接导出了一个更紧的指数型(Exponential)界

证明路线与技术技巧

  • 整体路线:

    1. 设定概要与鞅构造:作者先设立了一个“可交换的”原假设,再定义了一个赌博游戏(每一步 \(S_t\) 是“赌单局胜负”)。关键的一步是证明,在每一步下注 \(\lambda_t\)(一个取值在 \((-1,1)\)\(\mathcal{F}_{t-1}\)-可测随机变量)后,财富过程 \(W_t = \prod_{i=1}^t (1+\lambda_i S_i)\) 是一个非负鞅(且 \(W_0=1\))。这通过直接验证条件期望 \(E[1+\lambda_t S_t | \mathcal{F}_{t-1}] = 1\) 完成(因为原假设下 \(E[S_t | \mathcal{F}_{t-1}]=0\))。
    2. 最优赌注的推导:赌徒的目标是在每一步最大化对数财富的期望(即最大化 \(E[\log W_t]\),等价于最大化 \(E[ \sum_{i=1}^t \log(1+\lambda_i S_i)]\))。利用 \(S_t\) 在原假设下的条件矩性质(\(E[S_t]=0, E[S_t^2]=1\))和一个二阶展开 \(\log(1+x) \approx x - x^2/2\),可推得最优的 \(\lambda_t\) 近似为 \(E[S_t | \mathcal{F}_{t-1}] / E[S_t^2 | \mathcal{F}_{t-1}]\)。更精确地,文章通过求解一个一步条件优化问题(基于贝叶斯后验概率)得到了闭式解。
    3. 从最优赌注到实际策略:上述最优策略涉及对未来一步的“赢率”的估计。文章巧妙地利用历史数据(如当前观察到的极端事件比例)作为频率近似,从而导出了一个可计算的闭式策略——这避免了任何数值求解或贝叶斯积分。
    4. 检验与保证:一旦构造好财富过程,文章的 rest 工作是展示:根据 Ville 不等式可直接得到 anyting-valid p 值;并根据 gambler's ruin 的观察给出重抽样风险界。证明的最后部分可能包含一个简单的数值分析或不等式放缩来验证“等多个优点”。
  • 关键跳跃点:最吃功夫的是从“期望对数财富最大化”这一目标函数跳到“闭式赌注策略 \(\lambda_t^*\)”的推导。因为目标函数是凸的,可以求导找到驻点;但关键是要把这个驻点表达成与步数 \(t\) 和已观测到的极端事件计数 \(N_{t-1}\) 相关的简明形式。文章通过引入一个贝叶斯(似然函数)的想法:假设当前一步,未来 \(S_t = 1\) 的概率为 \(\theta\),那么一步对数期望 \(E[\log(1+\lambda S)] = (1+\theta)\log(1+\lambda) + (1-\theta)\log(1-\lambda)\);对其关于 \(\lambda\) 求导,令其为0得最优 \(\lambda = 2\theta - 1\)。进一步,\(\theta\) 是基于前 \(t-1\) 步信息的后验均值,而文章所用的“对称杰弗里斯先验”推得的后验均值具有简单的形式 \(\frac{N_{t-1}+c}{t+c'}\),由此得出闭式结果。

  • 技术技巧点名

  • 测试鞅(test martingale)的理论(标准工具,但在这里被具体化到可交换性上的一个二元结果)。
  • log-optimal betting / 对数最优赌博(来自信息论/Kelly criterion,在这边用在条件期望上)。
  • 条件期望的放缩:用于分析 \(\lambda_t\) 的可行性(保证 \(|\lambda_t|<1\))。
  • 随机化改进的 Markov 不等式:在引言中提到被引[24](Ramdas & Manole),用于从检验鞅推导出“有效p值”的存在性,特别是基于p值的^的构造。
  • 经验过程与鞅差:用于证明权重的收敛性质(非核心,但文章可能用了一些渐近论证作为可选补充)。

真实例子与应用

本文为纯理论 + 模拟研究论文(依据用户提供的全文摘要及主要被引,未提及真实数据例子,但其在引言中提到的“Capital bikeshare dataset”是被引[12][2]使用的数据,但本文自己并未用该数据做例子)。文章确实用模拟对比了所提方法(betting-based sequential MC test)与 Besag-Clifford 方法和 Gandy 方法: - 数据/场景:模拟人工生成了符合原假设(数据与置换可交换)和备择假设(数据有明显信号)的样本集,模拟了不同效应量(effect size)和不同停止规则。 - 怎样用本方法:模拟中,对每组数据运行序列化生成置换;使用文章的闭式 log-optimal 策略计算每一步的 wealth;当财富超过 \(1/\alpha\) 时果断停止并拒绝,未超过时继续生成直至预算上限。 - 结果: - 原假设下:betting 方法平均停止时间早于经典方法(财富迅速消耗→远低于拒绝阈值,因此赌徒很快放弃并使检验停止)。 - 备择假设下:betting 方法与 Besag-Clifford 有相当的检测力,但平均生成的重抽样数(计算成本)少于后者。 - 与 Gandy 过程相比:只要保证相同的重抽样风险,新方法样本数更少,且在弱信号下尤为明显。 - 该例子想说明:本文方法并非只是替代,而是在实际计算成本和检测时效性同时优化了,证明了 its “practical, excellent power” (这是作者自己的结论)。注意:未使用真实观测数据。

🔎 结论是否比证明窄

作者在 Abstract 中声称 “generalizes the well-known method by Besag and Clifford, allowing it to stop at any time”——这个 claim 是严格证明的。但是,作者没有讨论一种常见场景:当备择假设不是简单的“原假设 vs. 单边备择”时,该构建是否仍然有效?文章只针对检验统计量 \(T(z)\) 的阈值比较(\(T(Z) \le T(z_0)\) 作为极端事件)进行了构造;如果备择是双边或具体方向未知,该鞅构造可能需要修改(但一般认为可通过对称化处理)。这一点在文末的未来工作部分可能略有提及。然而,作者没有明确声称其方法在任意备择(如重尾、未知方向等)下有同样的最优性——这一点是较窄的。

四、开放问题(点到为止,扎根具体语句)

  • 1. 多轮打断与递增统计量设定范围内的扩展:本文所有构造基于固定数据集的一个置换/重抽样过程。但现实中,有些应用(如 ABC 贝叶斯方法中的似然估计)的“重抽样”并不精确地来自排列,而是基于参数的随机生成。作者在结论部分提到“应用... to more complex models”的可能性。扎根于:本文未给出对 “非基于排列、而是基于参数θ的重抽样” 情况下的鞅构造的一般理论。
  • 2. 多假设层面的 FDR 控制:本文聚焦单一假设检验。但在大规模多重检验(如基因组学中的置换检验)中,若使用本文的 anyting-valid e 值,如何构建类似 e-BH [41] 的程序来控制 FDR?在固定数据集 + 顺序生成置换的设定下,不同假设的重抽样开销可能共享,这是否允许一个更优的多重测试流程?扎根于:被引[41](Wang & Ramdas)提出了 e-BH 过程;作者没有讨论处理组间相关共享的计算场景的 FDR 控制。
  • 3. 选择赌注策略对绝对风险的联合控制:本文的赌注策略是“单步对数最优”,给出的重抽样风险界也是指数型。是否存在一种极大极小稳健的赌注,能在未知的对数增益界模型误设下依然保证重抽样风险?扎根于:文中关于推导 \(\lambda_t^*\) 的假设是“当前一步赢率 \(\theta\) 存在并在原假设下假定为 0.5”——但若这个条件持续被违反(如观测数据并非真正可交换),则财富增长可能不按预期进行,文章没有探讨最坏情况下的重抽样风险界。
  • 4. 多臂赌博机(MAB)般的计算-统计权衡:既然每次生成置换都有计算成本,那么是否存在一种最优的“生成-停止”随机化策略,平衡计算成本与统计功效(早期停止可能带来更低的统计效力)?扎根于:引言中提及“rerandomization is computationally expensive”现实的 remark(引用[21]、[22]),但本文并未将此一个计算-统计量化曲线作为分析目标。作者只固定了检验 alpha 水平,没有内生化考虑“在有限的计算预算下,何时停止生成置换最优”。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论