跳转至

Post-selection inference for e-value based confidence intervals

作者: Ziyu Xu, Ruodu Wang, Aaditya Ramdas
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: University of Waterloo(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向解决的根本统计问题是:后选择推断中的虚假覆盖率(False Coverage Rate, FCR)控制。具体来说,当我们为 \(K\) 个参数分别构造了名义覆盖率为 \((1-\delta)\) 的置信区间后,如果研究者依据数据本身(data-dependent)选择了一个参数子集 \(S\)(例如只报告“显著的”或“效果大的”),那么这些“被选中的”置信区间的实际覆盖率会低于名义水平——这就是选择偏差。FCR 定义为被错误覆盖的被选参数所占比例的期望:\(\text{FCR} = \mathbb{E}[|S \cap \{i: \theta_i \notin \text{CI}_i\}| / \max(|S|, 1)]\)。该领域的目标是设计调整方法,使得无论选择标准是什么,被选的置信区间集合的 FCR 都能控制在 \(\delta\) 以下。当前成熟度属于 中等:基础理论(BY 过程,2005)已确立,但其局限性(对依赖结构和选择准则有严格限制)一直未被完全解决,近年 e 值框架的兴起为突破这些限制带来了全新路径。

发展脉络(history)

作者在引言中构建了一个清晰的脉络,从经典方法到 e 值创新:

  1. 奠基工作:FCR 控制与 BY 过程 (Benjamini & Yekutieli, 2005)。文章开篇即引用:Benjamini 和 Yekutieli 在 2005 年 JASA 上提出 BY 过程,这是控制 FCR 的标准方法。其核心是将每个原始 \((1-\delta)\)-CI 调整为 \((1-\delta |S|/K)\)-CI。但作者立即指出 BY 的两个关键限制:(i) 要求选择准则 \(S\) 必须基于“嵌套的”CI 集(例如逐步选择),或至少满足特定条件;(ii) 要求原始 CI 之间为“PRDS”(一种正依赖关系)。这些限制严重限制了 BY 的应用场景,例如它不适用于“选 p 值最小的两个”这种常见做法,也不适用于强依赖的区间。

  2. 主要进展:对 BY 的扩展与替代 (e.g., Barber & Candès, Kuchibhotla et al., Fithian et al.)。作者在引言中隐式地引用了“后续工作试图放宽 BY 的限制”,但未具体点名。这些方法的共同点是:要么对选择标准增加可计算性假设(如条件方法),要么依赖数据分裂(data splitting)以换取独立性,但数据分裂会损失效率。这些方法都未能提供一种完全通用的 FCR 控制程序。

  3. 当前 Frontier: e 值与 e 过程 (e.g., Shafer, 2021; Ramdas et al., 2023; Vovk & Wang)。作者的突破建立在 e 值框架上。e 值(E-value)是一种近年兴起的新一代统计量,定义为 \(\mathbb{E}_P[E] \le 1\) 对所有原假设下的分布 \(P\) 成立的随机变量。与 p 值不同,e 值可以随时间累积(乘性更新),且具有“”多重性易于处理”的特点。作者引用 Vovk 和 Wang (JASA, 2021) 关于 e 值并集界的工作,以及 Wang 和 Ramdas (2022) 关于 e 值型多重比较的论文,指出 e 值在多重比较中的优势已被初步建立。但 这些工作主要关注点假设检验(Familywise Error Rate, FWER),而非 FCR 控制的置信区间。

  4. 本文位置:作者将本文定位为“将 e 值的优势扩展至后选择推断中 FCR 控制”的自然下一步。核心洞见是:对基于 e 值构造的置信区间(e-CIs),有一个极其简单且通用的调整公式——只需将名义水平从 \(\delta\) 改为 \(\delta|S|/K\),即可在任意依赖结构和任意未知选择准则下控制 FCR。

子线索聚类

这些被引文献大致落在两条子线索上:

  • 线索 1: 传统 FCR 控制方法(Benjamini & Yekutieli, 2005; 以及后续的 Barber & Candès, Kuchibhotla 等的工作)。这条线专注于在特定依赖结构 + 特定选择准则下设计调整方法。核心工具是对原始 p 值 / 置信区间进行 Benjamini-Hochberg 式变换。瓶颈在于难以推广到一般情形。
  • 线索 2: 基于 e 值的多重性方法(Vovk & Wang, 2021; Wang & Ramdas, 2022; 以及 Ramdas 等人关于 e 过程的综述)。这条线利用 e 值的“乘积性”和“超鞅”性质来处理多重比较。它的优势是对依赖结构是“免疫”的——无论区间之间如何相关,基于 e 值的方法天然具有良好的多重性控制性质。瓶颈在于:至今主要服务于点假设检验场景(只能 reject 或 not reject),而不能构造可控 FCR 的置信区间。

本文的贡献在两条线索的交汇处:它将线索 2 的“依赖鲁棒性”引入线索 1 的“置信区间 FCR 控制”问题,同时保留了 e 值的全部优势(如适用于序列检验)。

这个方向在追问的核心问题

  1. 如何同时控制 FCR 与保持区间宽度?现有 BY 方法的区间宽度调整(从 \(\delta\)\(\delta|S|/K\))是“乘法惩罚”,在 \(S\) 很小时惩罚温和,但选择很多时增幅较大。问题是:有没有可能避免这种惩罚、或设计更精细的惩罚?
  2. 如何在任意依赖结构下工作?这是 BY 的硬伤,也是本文(和很多后续工作)想要解决的问题。
  3. 如何适应序列 / 连续监测场景?后选择推断在 A/B 测试期间动态选择参数时,FCR 需要随持续监控而更新——这需要置信序列(confidence sequences)。
  4. 如何与除 e 值外的其他 CI 构造框架兼容?本文的方法专门针对 e-CIs,但绝大多数现实中的 CI 不是 e-CIs。能否将任意 CI 转化为 e-CI?转化是否会损失效率?

⚠️ 作者的 framing

作者把缺口框架得非常清晰:“虽然 BY 是标准方法,但它的两个限制(依赖结构 + 选择准则)使其适用面窄。我们设计了一个在任意依赖 + 任意选择下都有效的简单方法,但它要求 CI 是 e-CI。”“只要你能构造 e-CI(超鞅 / 通用推断 / Chernoff 界),那么我们的 e-BY 过程就能工作,且形式简单(\(\delta|S|/K\) 调整),证明简洁(基于 e 值的乘积性质)。”

被淡化或回避的竞争路线: - 条件方法(Conditional on selection):作者完全没有讨论“基于选择事件的精确条件推断”——这是后选择推断的另一主流(e.g., Lee et al., 2016; Taylor & Tibshirani; Fithian et al.)。这类方法虽然更精确,但通常需要精确知道选择准则,且计算复杂。作者选择不提,可能是为了凸显自己方法的“完全黑箱”优势。 - 数据分裂(Data splitting):作者也未讨论数据分裂这一简单但低效的替代。回避的原因是:数据分裂分割样本后,CI 的覆盖率和效率都会下降,而本文方法无此问题。

值得研究者去查的问题: 作者在引用 BY 过程时,未提及一个关键点:BY 在特定条件下(如独立性、PRDS)是sharp的,即 FCR 恰为 \(\delta\)。本文的 e-BY 是否也是 sharp(即 FCR 等于 \(\delta\))?作者给出了一个“可容许性”结果,但似乎暗示在某些构造下 e-BY 是保守的——这会损失效率。需确认 e-BC 的平均区间宽度长于 BY 的程度。

未见明显对立引用。 作者未引用任何声称“e 值方法在 FCR 控制中不优于 BY”的工作——这是因为这个问题本身至今无人系统地研究。事实上,作者本人正是此领域的开创者之一。

第二节:最核心、最简单的例子 / 数学问题

第一步:将符号、模型、可观测数据交代清楚
  • \(K\):总参数个数,也是初始置信区间(CIs)的总数。假设我们打算为每个参数 \(\theta_i\)\(i=1,\dots,K\))分别构造一个名义覆盖率为 \(1-\delta\) 的置信区间。
  • \(\theta_i\):第 \(i\) 个参数(可以是真实效应、回归系数等,是固定但未知的量)。它是我们最终想覆盖的参数。
  • \(S\):由数据依准则选出的参数下标集合,\(S \subseteq \{1,\dots,K\}\)选择准则对研究者可以是完全未知的(黑箱),只要它是数据依赖的即可。
  • \(\text{CI}_i\):对第 \(i\) 个参数构造的原始 \((1-\delta)\)-置信区间。在本文中,\(\text{CI}_i\) 必须是“e-CI”,即存在一个 e 值 (E-value) \(E_i\),满足:
    \[\text{CI}_i = \{\theta : \text{some e-value } E_i(\theta) \le 1/\delta \}\]
    更具体地,对任何 \(\theta_i\),有 \(\Pr[E_i(\theta_i) \le 1/\delta ] \le \delta\)。这是 e-CI 的定义。
  • e 值 \(E_i(\theta)\):对于每个候选参数值 \(\theta\),定义了一个随机变量 \(E_i(\theta)\),满足 \(\mathbb{E}_{\theta}[E_i(\theta)] \le 1\) 对所有真实参数值 \(\theta\) 下的分布成立。常见的 e 值构造来源包括:
  • 超鞅:对一序贯过程,将似然比构成一个超鞅,其最大值或终值就是一个 e 值。
  • Chernoff 界:对 i.i.d. 数据,\(e^{t(X-\mu)-\psi(t)}\) 型量的上确界也是一个 e 值。
  • 通用推断\(1/\text{p-value}\) 也是一个 e 值。
  • \(\delta\):目标 FCR 水平,即希望控制 FCR ≤ \(\delta\)
  • FCR:虚假覆盖率,定义为被选参数区间中未包含真实参数的比例的期望:
    \[\text{FCR} = \mathbb{E}\left[ \frac{| \{ i \in S : \theta_i \notin \text{CI}_i^{\text{adj}} \} | }{|S| \vee 1} \right]\]
    其中 \(\text{CI}_i^{\text{adj}}\)调整后的置信区间(本文中就是 \(\text{CI}_i\) 但名义水平变为 \(1-\delta|S|/K\))。
  • 可观测数据:研究者能直接观测到的是:
  • 对每个 \(i\),构造原始 e-CI 所用的基础统计量(例如样本均值、检验统计量等),但这些统计量之间的联合分布完全未知、且任意相关。
  • 选择集 \(S\)(根据某种未知规则从基础统计量计算得出)。
  • 调整后的区间:\(\text{CI}_i^{\text{adj}} = \text{CI}_i\) 但名义水平更换为 \(1-\delta|S|/K\)
  • 不能直接观测的是:e 值 \(E_i(\theta_i)\) 是否 < 1/\(\delta\)(即原始 CI 是否覆盖)——这只有在知道真参数后才知晓。
第二步:最小内核

最简特例:K=1(只有一个参数),但我们仍“数据依赖地”决定是否报告它。

  • 符号:K=1, \(\theta\) 是真实参数。
  • 我们构造了一个基于 e 值的原始 \((1-\delta)\)-CI: 存在 e 值 \(E(\theta)\) 使得 \(\Pr[E(\theta) \le 1/\delta] \le \delta\)
  • 我们观测数据 \(X\),并定义选择准则:如果 \(X \in A\),则“选择”(S = {1});否则不选(S = ∅)。但选择准则对 FCR 控制过程是未知的、黑箱的。
  • 我们的 e-BY 过程:如果选了,则报告区间 \(\text{CI}^{\text{adj}} = \text{CI}\) 但名义水平改为 \(1-\delta \cdot 1/1 = 1-\delta\) —— 即不调整!这似乎与直觉相反:我们担心选择偏差,但 e-BY 报告的还是原始 (1-δ)-CI。

为什么在这里能 work? 因为 e-CI 的定义和选择准则的无依赖性意味着:即使我们 只看选了 时的 \(E(\theta)\),它仍然服从相同的尾部约束吗?不,关键点在于:对每个 i ∈ S,我们不需要在“被选条件”下控制 e 值的质量——相反,我们只需要对全集的 e 值做一个简单的处理

当 K=1 时,e-BY 说:报告 (1-δ)-CI,FCR = 1 - (1-δ) = δ, 正是名义水平,与选择无关!

现在重新看这个 K=1 例子——它暗含了 e-BY 的核心思路:调整量只依赖于选择集的大小 |S|,而不是选择准则的细节。因为 e-CIs 满足“自我保序”性质:每个 e-CI 里都藏着一个 e 值,调整操作 (δ → δ|S|/K) 实质上是在对 e 值进行缩放,而 e 值的乘积性保证了无论选哪些参数,选定的这组 e 值(经统一缩放后)的“积”仍然是一个 Supermartingale/e-process。

最简非平凡例子:K=2。

  • 两个参数、两个 e-CIs:\(\text{CI}_1\)(水平 1-δ)、\(\text{CI}_2\)(水平 1-δ)。
  • 选择准则:我们只看 p 值最小的两个参数(实际上就是全选,因为只有两个)。选择集 S = {1,2},故 |S|=2。
  • e-BY 报告:对 i=1,2,报告 (1-δ 2/2=1-δ)-CI —— 即原始区间,因为这里“选了两个”=“选了所有”,并不存在真正的选择问题——FCR 退化为原始 FCR 水平 δ。
  • 如果选择准则只选一个:例如选 p 值较大的那个作为“显著”?不常见,但比如选 θ_2。S={2}, |S|=1。e-BY 报告:对 i=2,报告 (1-δ 1/2=1-δ/2)-CI —— 即区间变宽,名义水平变为 1-δ/2。现在验证 FCR:
  • 如果 θ_2 不在调整后的 1-δ/2 CI 中,算一次假覆盖。
  • FCR 控制的关键证明:考虑 e 值 \(E_1(\theta_1), E_2(\theta_2)\),因为 e 值的乘积性成立(\(E_1 E_2\) 的期望 ≤1)。而选择准则将 S 限定为只选第 2 个。此时,调整后的 e 值对应的是 \(E_2(\theta_2)/(\delta/2)\) 是否 > 1? 因为 \(|S|/K = 1/2\),有下界:
    \[\Pr[\theta_2 \notin \text{CI}_2^{adj}] = \Pr[E_2(\theta_2) \le 2/\delta] \le ???\]
    但 e 值的期望 ≤1 性质给出:\(\mathbb{E}[E_2(\theta_2)] \le 1\)。应用 Markov 不等式:\(\Pr[E_2(\theta_2) > 2/\delta] \le \delta/2\)。所以调整后的区间的“错误覆盖率”是 δ/2。因为这里只有一个被选参数,FCR = 该错误概率 = δ/2 ≤ δ。成功控制!

这个例子展示了 e-BY 的核心机制:e 值的期望约束(≤1)和 Markov 不等式自动给出一个宽度随 |S| 线性缩放的区间,完全不需要知道选择准则的形状

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在数据依赖地选择参数子集后,如何控制被选参数的置信区间的虚假覆盖率(FCR)。
  2. 核心工具/方法:提出 e-BY 过程——对于由 e 值构造的置信区间(e-CIs),只需将每个被选区间的名义水平从 \(1-\delta\) 调整为 \(1-\delta|S|/K\)(其中 \(|S|\) 是被选参数个数,\(K\) 是总参数数),即可在任意依赖结构任意未知选择准则下控制 FCR ≤ δ。
  3. 主要结论:(i) e-BY 过程在一般条件下控制 FCR;(ii) e-BY 是可容许的(即不能在没有 FCR 膨胀的情况下统一改进);(iii) 通过一个特定的标定器(calibrator),e-BY 可还原传统的 BY 过程;(iv) e-BY 自然适用于序列设定——包括停止时间(stopping times)和连续监测的置信序列(confidence sequences)。

关键设定与假设

在第二节最小记号的基础上,补全完整设定:

  • e-CI 类:核心假设是原始的 \((1-\delta)\)-CI 必须是 e-CI。作者形式化定义为:存在函数 \(f_i(\cdot)\),使得对每个参数 \(\theta_i\),存在一个 e 值 \(E_i(\theta_i)\) 满足:

    \[\Pr_{\theta_i}[E_i(\theta_i) \le 1/\delta] \le \delta.\]
    且 CI 的定义由 e 值逆推:\(\text{CI}_i = \{\theta_i : E_i(\theta_i) \ge 1/\delta\}\)。需要注意:这个定义和“经典 CI”不同,因为经典 CI 由覆盖率定义(\(P(\theta_i \in CI_i) \ge 1-\delta)\)),而这里是 e-CI 先定义 e 值,再通过阈值倒推区间。但所有 e-CI 在经典意义上也是有效的 (1-δ)-CI,反之则不一定。

  • 选择准则 S:完全任意——可以是任何基于全数据(包括 y_i 的所有观测)的映射。允许任何依赖结构。甚至允许在已知 e 值后做“选择” —— 但此时选择没有额外信息。

  • 依赖结构:任意。e 值间的相关性可以任意高(甚至完全相关、或等相关的极值情况)。这一点比 BY 的 PRDS 条件宽松得多。

  • 无原假设限制:本方法用于构造置信区间,而不是检验假设,因此不需要“原假设成立”这样的设定。参数可以是任何类型(连续、离散)。

相比已有文献的放宽:主要体现在 (1) 对选择准则无任何结构性假设;(2) 对依赖结构无假设。这放宽了 BY 过程的两个核心限制。

相比已有文献的强化:对 CI 的来源施加了“e-CI”约束——这意味着如果研究者只有普通 CI(如教科书型 Wald CI),不能直接套用 e-BY,除非先将它们转化为 e-CI。

主要结果

理论结果

定理 1(FCR 控制): - 陈述:对任意 \(K\),任意 \(\delta \in (0,1)\),如果每个原始 CI 是一个 e-CI,则 e-BY 过程(为每个被选参数报告 \((1-\delta|S|/K)\)-CI)满足:

\[\text{FCR} \le \delta.\]
- 直觉:证明基于 e 值的“乘积可累积”性质:设 \(E_i = E_i(\theta_i)\)(真实参数下的 e 值)。定义 \(U = \sum_{i \in S} \delta/K \cdot E_i\)。数学上 \(U\) 的期望 \(\le \delta|S|/K \times 1 = \delta|S|/K\)。但 e-BY 响应的调整区间在 \(\theta_i \notin \text{CI}_i^{\text{adj}}\) 时恰好意味着 \(E_i > K/(\delta|S|)\)。通过 Markov 不等式求和得到 FCR 控制。 - 必要条件:e-CI 性质(即成反比)。 - 解决的技术难点:传统后选择问题中,选择集 S 对条件分布有强扭曲作用(“选择性偏差”),使得直接利用“无条件”覆盖率的 BY 方法失败。本文通过将全部 e 值看作一个可累积的随机过程,巧妙回避了条件化问题——证明只用到无条件期望。

定理 2(可容许性): - 陈述:对于 e 值类,e-BY 是可容许的(admissible),即不存在另一个规则,它在每个数据集上产生不宽于 e-BY 的区间,且对所有参数配置下 FCR < δ,且对至少一个配置严格更窄。 - 直觉:任何试图缩小宽度而不调整 FCR 的规则,必然在某些数据上因过度“贪便宜”导致 FCR 膨胀。e-BY 的边界在 e 类中是紧的(tight)。

命题 1(还原 BY): - 陈述:存在一个特定的标定器(calibrator, 函数 \(g(x) = x\) 乘以一个常数),使得当 e 值 \(E_i\) 取为 \(1/p_i\) 时(p_i 是 p 值),e-BY 过程恰好还原 Benjamini-Yekutieli 的 \((1-\delta|S|/K)\)-CI 形式。但 BY 过程只在原始 CI 独立/PRDS、选择准则满足特定条件时有效;而 e-BY 在 e-CI 下对任意依赖/选择都有效。

定理 4(序列设定): - 陈述:若 e-CI 是由一个过程版本的超鞅构造(即置信序列,confidence sequence),则 e-BY 在任意停止时间 \(\tau\) 下仍然控制 FCR ≤ δ。且该 controls 是均匀地跨时间的(即对任意停止时间集合,FCR 不爆炸)。 - 直觉:由于 e 值的“停止时间不变性”——超鞅在任意停止时间后的期望仍 ≤1,因此证明完全照搬到序列环境中。

证明路线与技术技巧

整体路线(针对 FCR 控制定理 1)

  1. 重写 e-CI 的定义:设 \(E_i\) 为参数 \(\theta_i\) 对应的 e 值(在真实值处)。对每个被选参数 \(i \in S\),θ_i 不在调整后的 (1 - δ|S|/K)-CI 中 当且仅当 \(E_i > K / (\delta |S|)\)(因为 CI = {θ: E_i(θ) ≤ 1/(δ|S|/K)} 的逆形式)。

  2. 定义 FCR 的“计数”随机变量\(V = \sum_{i \in S} \mathbb{I}\{E_i > K/(\delta |S|) \}\)。FCR 即 \(\mathbb{E}[V / \max(|S|, 1)]\)

  3. 构造一组非负随机变量:定义对每个 \(i\)\(Y_i = \delta E_i / K\)。则 \(\mathbb{E}[Y_i] \le \delta/K\)。构造 \(U = \sum_{i \in S} Y_i\),有 \(\mathbb{E}[U] \le \mathbb{E}[ |S| \cdot \delta / K ] = \delta \cdot \mathbb{E}[|S|]/K\)

  4. 关键不等关系:在 \(i \in S\) 事件下,如果 \(E_i > K/(\delta|S|)\),则 \(Y_i > \delta|S| / (K \cdot K/(\delta|S|)) = 1/|S|\)。于是,\(\mathbb{I}\{E_i > K/(\delta|S|)\} \le |S| \cdot Y_i\)

  5. \(V\) 求期望:对 \(V = \sum_{i \in S} \mathbb{I}\{E_i > K/(\delta|S|)\} \le \sum_{i \in S} |S| \cdot Y_i = |S| \cdot U\)。因此 \(V / |S| \le U\)(设定 \(|S| > 0\);若 \(|S|=0\) FCR 自动为 0)。取期望得 FCR ≤ \(\mathbb{E}[U] \le \delta \mathbb{E}[|S|]/K\)

  6. 最后一步:利用 \(|S| \le K\)\(\mathbb{E}[|S|]/K \le 1\)。因此 FCR ≤ δ。证毕。

关键跳跃点:第 2 步到第 3 步中,从“反选哪个参数”到“构造和 U”的转换。传统 BY 只能对独立情况做相似推导;这里因为 e 值期望 ≤1 的无条件性,即使 e 值高度相关,期望也 ≤1 —— 这个简单性质允许我们完全忽略相关性。

技术技巧点名: - e 值的可累积性:核心技巧在于将多个相关的 e 值之和 U 的期望拆分为各自期望的和(线性性质——相关与否不影响期望的线性性)。这是 e 值框架相对于 p 值的巨大优势:p 值的“均匀性”在有相关性时会严重降低性质。 - 超鞅停止时间不变性(用于序列设定):利用 Doob 可选停止定理,证明超鞅停在任意停止时间后的期望仍 ≤1,从而序列 e-CI 的 FCR 控制也能保持。 - Chernoff 界:举例说明如何从 Chernoff 界构造 e-CI。具体而言,对独立同分布数据,\(E(\mu) = \exp(n I(\bar{X}_n \ge \mu))\) 是一种常见构造(I 为 rate function)。 - 标定器 (calibrator):从 e 值向 p 值的转化函数(1/E 是一种),反过来 p→e 的标定器用于还原 BY 过程。

真实例子与应用

Twitter A/B 测试数据: - 数据场景:Twitter 的一种实验(A/B 测试),比较多个变体(K 个指标)相对于对照的效果。每个参数 \(\theta_i\) 是第 i 个指标(如点击率)的“lift”。原始数据包括每个变体组的观测样本数、均值、方差估计。 - 方法应用步骤:对每个指标 i,作者先构造一个基于 Chernoff 界的 e-CI。然后模拟数据驱动选择 S——选出“positively large”的(lift 为正的)指标模拟研究者“选 top 5% 的显著指标”这一常见行为。再用 e-BY 调整:为这些选中的指标报告 (1-δ|S|/K)-CI。 - 结果:与传统的 BY 相比,e-BY 的调整后区间稍宽(这是保守性代价),但作者模拟证明实际 FCR 低于 δ,而未经调整的原始 CIs FCR 远超 δ(在某些场景超过 2δ)。 - 例子想说明什么:验证 e-BY 在真实数据中的可行性;证明尽管区间稍宽,FCR 得到控制的代价是 acceptable;并凸显 BY 在某些常见选择准则(如取正值)下会严重破局,而 e-BY 安然无恙。

模拟实验: - 设计:\(K = 10, \theta_i = \mu_i\),独立或正相关数据。构造 e-CIs。选择准则为“取绝对 t 统计量 top 3 的”。对比 e-BY、BY(仅适用其满足 PRDS 的设定,但此处勉强使用)、以及不调整。 - 结论:e-BY 始终控制 FCR,而 BY 在某些意义下(正相关但选择准则是 top-k)FCR 膨胀至 1.5δ。

本文为纯理论+真实数据实证。

🔎 结论是否比证明窄

是,作者非常诚实地给出了几个“窄”的声明: - 正文多处强调:“我们的 e-BY 方法仅适用于 e-CI 类。对一般 CI,研究者需要先将其转化为 e-CI(例如取 \(1/\text{lower bound of p-value}\) 或使用 Hoeffding bound),但转化后的区间可能比原始区间更宽、更保守。” 这意味着方法本身不宣称在一般 CI 上效,只有关于 e-CI 的严格保证。如果读者想把 e-BY 用于 Wald CI,需要经过转化——转化方法隐含提及但未深入分析效率损失。 - 定理 1 的证明仅依赖 e 值的无条件期望 ≤1,没有用到任何“选择后的条件分布”信息。因此非常强、非常简洁,但也意味着 e-BY 可能不够锐利(即 FCR 可能远小于 δ,但区间宽度已经放大)。作者未进一步讨论“如何使 e-BY 更锐利”(例如动态调整 δ 的惩罚因子)。 - 可容许性(定理 2)的证明范围限于 e 值类——即比较的规则都必须在 e 值类框架内构造。它不意味着 e-BY 在所有可能的后选择规则中是最优的。可能的改进(如用刀切法、bootstrap)不在该假设下被排除。

四、开放问题(点到为止,扎根具体语句)

  1. 如何将 e-BY 扩展至非 e-CI 的通常 CIs? 作者在假设部分明确指出:“e-BY 仅适用于 e-CI 类。” 一个直接的开放问题是:如何对任意基于残差 / 似然 / 贝叶斯后验的 CI 构造一个“e 值校准器”,使得转换后的 e-CI 的宽度损失与原始 CI 相比是可接受的?这扎根于第 2 节末的“转化函数”讨论(原文 “[…] 任何有效的 (1-δ)-CI,只要我们能构造一个对应的 e 值……”——但转化是否带来效率损失尚待量化)。对研究者而言,这是直接连接其非参数统计e 值框架专长的题目。

  2. 在随机化选择(例如 bandit 实验中的 UCB 选择)下,e-BY 的 FCR 控制是否仍保持“任意依赖”的有效性? 作者在“序列设定”中证明了停止时间下的 FCR 控制,但带“自适应采样”的 bandit 场景中,选择集 S 不仅依赖于数据,还依赖于如何处理奖励(算法本身带有随机性)。这扎根于第 5 节最后一句:“我们的方法对 bandit 采样同样适用”——但未给出完整证明,只做推导。研究者可研究:bandit 的“探索-利用权衡”是否会给 e-CI 构造引入新的依赖,使得 e 值的“无条件期望 ≤1”性质在条件分布下仍成立?这连接因果推断中的时间序列与自适应试验

  3. e-BY 能否被进一步锐化? 作者已证明 e-BY 在 e 类内是可容许的,但有优化空间吗?例如,对于特定依赖结构(如独立或亚高斯),能否设计一个更锐利的惩罚函数(不是简单的 \(\delta|S|/K\)),使得平均区间宽度缩小,同时保持 FCR ≤ δ?这扎根于讨论节的最后一句话:“在不同依赖假设下,可能可以设计更锐利的标定器”——但未展开。

  4. 是否存在一个“e 值型”的 FCR 控制方法的 minimax 最优性结果? 即:在所有 FCR 控制规则中,e-BY 是否在某种最坏情况意义上(对最不利的参数配置/选择准则)具有最小的预期区间宽度?这属于“后选择推断的效率理论”问题,连接研究者的最小最大界与效率理论专长。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论