Post-selection inference for e-value based confidence intervals¶

作者: Ziyu Xu, Ruodu Wang, Aaditya Ramdas
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: University of Waterloo（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本统计问题是：后选择推断中的虚假覆盖率（False Coverage Rate, FCR）控制。具体来说，当我们为 \(K\) 个参数分别构造了名义覆盖率为 \((1-\delta)\) 的置信区间后，如果研究者依据数据本身（data-dependent）选择了一个参数子集 \(S\)（例如只报告“显著的”或“效果大的”），那么这些“被选中的”置信区间的实际覆盖率会低于名义水平——这就是选择偏差。FCR 定义为被错误覆盖的被选参数所占比例的期望：\(\text{FCR} = \mathbb{E}[|S \cap \{i: \theta_i \notin \text{CI}_i\}| / \max(|S|, 1)]\)。该领域的目标是设计调整方法，使得无论选择标准是什么，被选的置信区间集合的 FCR 都能控制在 \(\delta\) 以下。当前成熟度属于中等：基础理论（BY 过程，2005）已确立，但其局限性（对依赖结构和选择准则有严格限制）一直未被完全解决，近年 e 值框架的兴起为突破这些限制带来了全新路径。

发展脉络（history）¶

作者在引言中构建了一个清晰的脉络，从经典方法到 e 值创新：

奠基工作：FCR 控制与 BY 过程 (Benjamini & Yekutieli, 2005)。文章开篇即引用：Benjamini 和 Yekutieli 在 2005 年 JASA 上提出 BY 过程，这是控制 FCR 的标准方法。其核心是将每个原始 \((1-\delta)\)-CI 调整为 \((1-\delta |S|/K)\)-CI。但作者立即指出 BY 的两个关键限制：(i) 要求选择准则 \(S\) 必须基于“嵌套的”CI 集（例如逐步选择），或至少满足特定条件；(ii) 要求原始 CI 之间为“PRDS”（一种正依赖关系）。这些限制严重限制了 BY 的应用场景，例如它不适用于“选 p 值最小的两个”这种常见做法，也不适用于强依赖的区间。
主要进展：对 BY 的扩展与替代 (e.g., Barber & Candès, Kuchibhotla et al., Fithian et al.)。作者在引言中隐式地引用了“后续工作试图放宽 BY 的限制”，但未具体点名。这些方法的共同点是：要么对选择标准增加可计算性假设（如条件方法），要么依赖数据分裂（data splitting）以换取独立性，但数据分裂会损失效率。这些方法都未能提供一种完全通用的 FCR 控制程序。
当前 Frontier: e 值与 e 过程 (e.g., Shafer, 2021; Ramdas et al., 2023; Vovk & Wang)。作者的突破建立在 e 值框架上。e 值（E-value）是一种近年兴起的新一代统计量，定义为 \(\mathbb{E}_P[E] \le 1\) 对所有原假设下的分布 \(P\) 成立的随机变量。与 p 值不同，e 值可以随时间累积（乘性更新），且具有“”多重性易于处理”的特点。作者引用 Vovk 和 Wang (JASA, 2021) 关于 e 值并集界的工作，以及 Wang 和 Ramdas (2022) 关于 e 值型多重比较的论文，指出 e 值在多重比较中的优势已被初步建立。但 这些工作主要关注点假设检验（Familywise Error Rate, FWER），而非 FCR 控制的置信区间。
本文位置：作者将本文定位为“将 e 值的优势扩展至后选择推断中 FCR 控制”的自然下一步。核心洞见是：对基于 e 值构造的置信区间（e-CIs），有一个极其简单且通用的调整公式——只需将名义水平从 \(\delta\) 改为 \(\delta|S|/K\)，即可在任意依赖结构和任意未知选择准则下控制 FCR。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索 1: 传统 FCR 控制方法（Benjamini & Yekutieli, 2005; 以及后续的 Barber & Candès, Kuchibhotla 等的工作）。这条线专注于在特定依赖结构 + 特定选择准则下设计调整方法。核心工具是对原始 p 值 / 置信区间进行 Benjamini-Hochberg 式变换。瓶颈在于难以推广到一般情形。
线索 2: 基于 e 值的多重性方法（Vovk & Wang, 2021; Wang & Ramdas, 2022; 以及 Ramdas 等人关于 e 过程的综述）。这条线利用 e 值的“乘积性”和“超鞅”性质来处理多重比较。它的优势是对依赖结构是“免疫”的——无论区间之间如何相关，基于 e 值的方法天然具有良好的多重性控制性质。瓶颈在于：至今主要服务于点假设检验场景（只能 reject 或 not reject），而不能构造可控 FCR 的置信区间。

本文的贡献在两条线索的交汇处：它将线索 2 的“依赖鲁棒性”引入线索 1 的“置信区间 FCR 控制”问题，同时保留了 e 值的全部优势（如适用于序列检验）。

这个方向在追问的核心问题¶

如何同时控制 FCR 与保持区间宽度？现有 BY 方法的区间宽度调整（从 \(\delta\) 到 \(\delta|S|/K\)）是“乘法惩罚”，在 \(S\) 很小时惩罚温和，但选择很多时增幅较大。问题是：有没有可能避免这种惩罚、或设计更精细的惩罚？
如何在任意依赖结构下工作？这是 BY 的硬伤，也是本文（和很多后续工作）想要解决的问题。
如何适应序列 / 连续监测场景？后选择推断在 A/B 测试期间动态选择参数时，FCR 需要随持续监控而更新——这需要置信序列（confidence sequences）。
如何与除 e 值外的其他 CI 构造框架兼容？本文的方法专门针对 e-CIs，但绝大多数现实中的 CI 不是 e-CIs。能否将任意 CI 转化为 e-CI？转化是否会损失效率？

⚠️ 作者的 framing¶

作者把缺口框架得非常清晰：“虽然 BY 是标准方法，但它的两个限制（依赖结构 + 选择准则）使其适用面窄。我们设计了一个在任意依赖 + 任意选择下都有效的简单方法，但它要求 CI 是 e-CI。”“只要你能构造 e-CI（超鞅 / 通用推断 / Chernoff 界），那么我们的 e-BY 过程就能工作，且形式简单（\(\delta|S|/K\) 调整），证明简洁（基于 e 值的乘积性质）。”

被淡化或回避的竞争路线： - 条件方法（Conditional on selection）：作者完全没有讨论“基于选择事件的精确条件推断”——这是后选择推断的另一主流（e.g., Lee et al., 2016; Taylor & Tibshirani; Fithian et al.）。这类方法虽然更精确，但通常需要精确知道选择准则，且计算复杂。作者选择不提，可能是为了凸显自己方法的“完全黑箱”优势。 - 数据分裂（Data splitting）：作者也未讨论数据分裂这一简单但低效的替代。回避的原因是：数据分裂分割样本后，CI 的覆盖率和效率都会下降，而本文方法无此问题。

值得研究者去查的问题：作者在引用 BY 过程时，未提及一个关键点：BY 在特定条件下（如独立性、PRDS）是sharp的，即 FCR 恰为 \(\delta\)。本文的 e-BY 是否也是 sharp（即 FCR 等于 \(\delta\)）？作者给出了一个“可容许性”结果，但似乎暗示在某些构造下 e-BY 是保守的——这会损失效率。需确认 e-BC 的平均区间宽度长于 BY 的程度。

未见明显对立引用。 作者未引用任何声称“e 值方法在 FCR 控制中不优于 BY”的工作——这是因为这个问题本身至今无人系统地研究。事实上，作者本人正是此领域的开创者之一。

第二节：最核心、最简单的例子 / 数学问题¶

第一步：将符号、模型、可观测数据交代清楚¶

\(K\)：总参数个数，也是初始置信区间（CIs）的总数。假设我们打算为每个参数 \(\theta_i\)（\(i=1,\dots,K\)）分别构造一个名义覆盖率为 \(1-\delta\) 的置信区间。
\(\theta_i\)：第 \(i\) 个参数（可以是真实效应、回归系数等，是固定但未知的量）。它是我们最终想覆盖的参数。
\(S\)：由数据依准则选出的参数下标集合，\(S \subseteq \{1,\dots,K\}\)。选择准则对研究者可以是完全未知的（黑箱），只要它是数据依赖的即可。
\(\text{CI}_i\)：对第 \(i\) 个参数构造的原始 \((1-\delta)\)-置信区间。在本文中，\(\text{CI}_i\) 必须是“e-CI”，即存在一个 e 值 (E-value) \(E_i\)，满足：
\[\text{CI}_i = \{\theta : \text{some e-value } E_i(\theta) \le 1/\delta \}\]
更具体地，对任何 \(\theta_i\)，有 \(\Pr[E_i(\theta_i) \le 1/\delta ] \le \delta\)。这是 e-CI 的定义。
e 值 \(E_i(\theta)\)：对于每个候选参数值 \(\theta\)，定义了一个随机变量 \(E_i(\theta)\)，满足 \(\mathbb{E}_{\theta}[E_i(\theta)] \le 1\) 对所有真实参数值 \(\theta\) 下的分布成立。常见的 e 值构造来源包括：
超鞅：对一序贯过程，将似然比构成一个超鞅，其最大值或终值就是一个 e 值。
Chernoff 界：对 i.i.d. 数据，\(e^{t(X-\mu)-\psi(t)}\) 型量的上确界也是一个 e 值。
通用推断：\(1/\text{p-value}\) 也是一个 e 值。
\(\delta\)：目标 FCR 水平，即希望控制 FCR ≤ \(\delta\)。
FCR：虚假覆盖率，定义为被选参数区间中未包含真实参数的比例的期望：
\[\text{FCR} = \mathbb{E}\left[ \frac{| \{ i \in S : \theta_i \notin \text{CI}_i^{\text{adj}} \} | }{|S| \vee 1} \right]\]
其中 \(\text{CI}_i^{\text{adj}}\) 是调整后的置信区间（本文中就是 \(\text{CI}_i\) 但名义水平变为 \(1-\delta|S|/K\)）。
可观测数据：研究者能直接观测到的是：
对每个 \(i\)，构造原始 e-CI 所用的基础统计量（例如样本均值、检验统计量等），但这些统计量之间的联合分布完全未知、且任意相关。
选择集 \(S\)（根据某种未知规则从基础统计量计算得出）。
调整后的区间：\(\text{CI}_i^{\text{adj}} = \text{CI}_i\) 但名义水平更换为 \(1-\delta|S|/K\)。
不能直接观测的是：e 值 \(E_i(\theta_i)\) 是否 < 1/\(\delta\)（即原始 CI 是否覆盖）——这只有在知道真参数后才知晓。

第二步：最小内核¶

最简特例：K=1（只有一个参数），但我们仍“数据依赖地”决定是否报告它。

符号：K=1, \(\theta\) 是真实参数。
我们构造了一个基于 e 值的原始 \((1-\delta)\)-CI: 存在 e 值 \(E(\theta)\) 使得 \(\Pr[E(\theta) \le 1/\delta] \le \delta\)。
我们观测数据 \(X\)，并定义选择准则：如果 \(X \in A\)，则“选择”（S = {1}）；否则不选（S = ∅）。但选择准则对 FCR 控制过程是未知的、黑箱的。
我们的 e-BY 过程：如果选了，则报告区间 \(\text{CI}^{\text{adj}} = \text{CI}\) 但名义水平改为 \(1-\delta \cdot 1/1 = 1-\delta\) —— 即不调整！这似乎与直觉相反：我们担心选择偏差，但 e-BY 报告的还是原始 (1-δ)-CI。

为什么在这里能 work？ 因为 e-CI 的定义和选择准则的无依赖性意味着：即使我们 只看选了 时的 \(E(\theta)\)，它仍然服从相同的尾部约束吗？不，关键点在于：对每个 i ∈ S，我们不需要在“被选条件”下控制 e 值的质量——相反，我们只需要对全集的 e 值做一个简单的处理。

当 K=1 时，e-BY 说：报告 (1-δ)-CI，FCR = 1 - (1-δ) = δ, 正是名义水平，与选择无关！

现在重新看这个 K=1 例子——它暗含了 e-BY 的核心思路：调整量只依赖于选择集的大小 |S|，而不是选择准则的细节。因为 e-CIs 满足“自我保序”性质：每个 e-CI 里都藏着一个 e 值，调整操作 (δ → δ|S|/K) 实质上是在对 e 值进行缩放，而 e 值的乘积性保证了无论选哪些参数，选定的这组 e 值（经统一缩放后）的“积”仍然是一个 Supermartingale/e-process。

最简非平凡例子：K=2。

两个参数、两个 e-CIs：\(\text{CI}_1\)（水平 1-δ）、\(\text{CI}_2\)（水平 1-δ）。
选择准则：我们只看 p 值最小的两个参数（实际上就是全选，因为只有两个）。选择集 S = {1,2}，故 |S|=2。
e-BY 报告：对 i=1,2，报告 (1-δ 2/2=1-δ)-CI —— 即原始区间，因为这里“选了两个”=“选了所有”，并不存在真正的选择问题——FCR 退化为原始 FCR 水平 δ。
如果选择准则只选一个：例如选 p 值较大的那个作为“显著”？不常见，但比如选 θ_2。S={2}, |S|=1。e-BY 报告：对 i=2，报告 (1-δ 1/2=1-δ/2)-CI —— 即区间变宽，名义水平变为 1-δ/2。现在验证 FCR：
如果 θ_2 不在调整后的 1-δ/2 CI 中，算一次假覆盖。
FCR 控制的关键证明：考虑 e 值 \(E_1(\theta_1), E_2(\theta_2)\)，因为 e 值的乘积性成立（\(E_1 E_2\) 的期望 ≤1）。而选择准则将 S 限定为只选第 2 个。此时，调整后的 e 值对应的是 \(E_2(\theta_2)/(\delta/2)\) 是否 > 1? 因为 \(|S|/K = 1/2\)，有下界：
\[\Pr[\theta_2 \notin \text{CI}_2^{adj}] = \Pr[E_2(\theta_2) \le 2/\delta] \le ???\]
但 e 值的期望 ≤1 性质给出：\(\mathbb{E}[E_2(\theta_2)] \le 1\)。应用 Markov 不等式：\(\Pr[E_2(\theta_2) > 2/\delta] \le \delta/2\)。所以调整后的区间的“错误覆盖率”是 δ/2。因为这里只有一个被选参数，FCR = 该错误概率 = δ/2 ≤ δ。成功控制！

这个例子展示了 e-BY 的核心机制：e 值的期望约束（≤1）和 Markov 不等式自动给出一个宽度随 |S| 线性缩放的区间，完全不需要知道选择准则的形状。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在数据依赖地选择参数子集后，如何控制被选参数的置信区间的虚假覆盖率（FCR）。
核心工具/方法：提出 e-BY 过程——对于由 e 值构造的置信区间（e-CIs），只需将每个被选区间的名义水平从 \(1-\delta\) 调整为 \(1-\delta|S|/K\)（其中 \(|S|\) 是被选参数个数，\(K\) 是总参数数），即可在任意依赖结构和任意未知选择准则下控制 FCR ≤ δ。
主要结论：(i) e-BY 过程在一般条件下控制 FCR；(ii) e-BY 是可容许的（即不能在没有 FCR 膨胀的情况下统一改进）；(iii) 通过一个特定的标定器（calibrator），e-BY 可还原传统的 BY 过程；(iv) e-BY 自然适用于序列设定——包括停止时间（stopping times）和连续监测的置信序列（confidence sequences）。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

e-CI 类：核心假设是原始的 \((1-\delta)\)-CI 必须是 e-CI。作者形式化定义为：存在函数 \(f_i(\cdot)\)，使得对每个参数 \(\theta_i\)，存在一个 e 值 \(E_i(\theta_i)\) 满足：
\[\Pr_{\theta_i}[E_i(\theta_i) \le 1/\delta] \le \delta.\]
且 CI 的定义由 e 值逆推：\(\text{CI}_i = \{\theta_i : E_i(\theta_i) \ge 1/\delta\}\)。需要注意：这个定义和“经典 CI”不同，因为经典 CI 由覆盖率定义（\(P(\theta_i \in CI_i) \ge 1-\delta)\)），而这里是 e-CI 先定义 e 值，再通过阈值倒推区间。但所有 e-CI 在经典意义上也是有效的 (1-δ)-CI，反之则不一定。
选择准则 S：完全任意——可以是任何基于全数据（包括 y_i 的所有观测）的映射。允许任何依赖结构。甚至允许在已知 e 值后做“选择” —— 但此时选择没有额外信息。
依赖结构：任意。e 值间的相关性可以任意高（甚至完全相关、或等相关的极值情况）。这一点比 BY 的 PRDS 条件宽松得多。
无原假设限制：本方法用于构造置信区间，而不是检验假设，因此不需要“原假设成立”这样的设定。参数可以是任何类型（连续、离散）。

相比已有文献的放宽：主要体现在 (1) 对选择准则无任何结构性假设；(2) 对依赖结构无假设。这放宽了 BY 过程的两个核心限制。

相比已有文献的强化：对 CI 的来源施加了“e-CI”约束——这意味着如果研究者只有普通 CI（如教科书型 Wald CI），不能直接套用 e-BY，除非先将它们转化为 e-CI。

主要结果¶

理论结果¶

定理 1（FCR 控制）： - 陈述：对任意 \(K\)，任意 \(\delta \in (0,1)\)，如果每个原始 CI 是一个 e-CI，则 e-BY 过程（为每个被选参数报告 \((1-\delta|S|/K)\)-CI）满足：

\[\text{FCR} \le \delta.\]

- 直觉：证明基于 e 值的“乘积可累积”性质：设 \(E_i = E_i(\theta_i)\)（真实参数下的 e 值）。定义 \(U = \sum_{i \in S} \delta/K \cdot E_i\)。数学上 \(U\) 的期望 \(\le \delta|S|/K \times 1 = \delta|S|/K\)。但 e-BY 响应的调整区间在 \(\theta_i \notin \text{CI}_i^{\text{adj}}\) 时恰好意味着 \(E_i > K/(\delta|S|)\)。通过 Markov 不等式求和得到 FCR 控制。 - 必要条件：e-CI 性质（即成反比）。 - 解决的技术难点：传统后选择问题中，选择集 S 对条件分布有强扭曲作用（“选择性偏差”），使得直接利用“无条件”覆盖率的 BY 方法失败。本文通过将全部 e 值看作一个可累积的随机过程，巧妙回避了条件化问题——证明只用到无条件期望。

定理 2（可容许性）： - 陈述：对于 e 值类，e-BY 是可容许的（admissible），即不存在另一个规则，它在每个数据集上产生不宽于 e-BY 的区间，且对所有参数配置下 FCR < δ，且对至少一个配置严格更窄。 - 直觉：任何试图缩小宽度而不调整 FCR 的规则，必然在某些数据上因过度“贪便宜”导致 FCR 膨胀。e-BY 的边界在 e 类中是紧的（tight）。

命题 1（还原 BY）： - 陈述：存在一个特定的标定器（calibrator, 函数 \(g(x) = x\) 乘以一个常数），使得当 e 值 \(E_i\) 取为 \(1/p_i\) 时（p_i 是 p 值），e-BY 过程恰好还原 Benjamini-Yekutieli 的 \((1-\delta|S|/K)\)-CI 形式。但 BY 过程只在原始 CI 独立/PRDS、选择准则满足特定条件时有效；而 e-BY 在 e-CI 下对任意依赖/选择都有效。

定理 4（序列设定）： - 陈述：若 e-CI 是由一个过程版本的超鞅构造（即置信序列，confidence sequence），则 e-BY 在任意停止时间 \(\tau\) 下仍然控制 FCR ≤ δ。且该 controls 是均匀地跨时间的（即对任意停止时间集合，FCR 不爆炸）。 - 直觉：由于 e 值的“停止时间不变性”——超鞅在任意停止时间后的期望仍 ≤1，因此证明完全照搬到序列环境中。

证明路线与技术技巧¶

整体路线（针对 FCR 控制定理 1）：

重写 e-CI 的定义：设 \(E_i\) 为参数 \(\theta_i\) 对应的 e 值（在真实值处）。对每个被选参数 \(i \in S\)，θ_i 不在调整后的 (1 - δ|S|/K)-CI 中当且仅当 \(E_i > K / (\delta |S|)\)（因为 CI = {θ: E_i(θ) ≤ 1/(δ|S|/K)} 的逆形式）。
定义 FCR 的“计数”随机变量：\(V = \sum_{i \in S} \mathbb{I}\{E_i > K/(\delta |S|) \}\)。FCR 即 \(\mathbb{E}[V / \max(|S|, 1)]\)。
构造一组非负随机变量：定义对每个 \(i\)，\(Y_i = \delta E_i / K\)。则 \(\mathbb{E}[Y_i] \le \delta/K\)。构造 \(U = \sum_{i \in S} Y_i\)，有 \(\mathbb{E}[U] \le \mathbb{E}[ |S| \cdot \delta / K ] = \delta \cdot \mathbb{E}[|S|]/K\)。
关键不等关系：在 \(i \in S\) 事件下，如果 \(E_i > K/(\delta|S|)\)，则 \(Y_i > \delta|S| / (K \cdot K/(\delta|S|)) = 1/|S|\)。于是，\(\mathbb{I}\{E_i > K/(\delta|S|)\} \le |S| \cdot Y_i\)。
对 \(V\) 求期望：对 \(V = \sum_{i \in S} \mathbb{I}\{E_i > K/(\delta|S|)\} \le \sum_{i \in S} |S| \cdot Y_i = |S| \cdot U\)。因此 \(V / |S| \le U\)（设定 \(|S| > 0\)；若 \(|S|=0\) FCR 自动为 0）。取期望得 FCR ≤ \(\mathbb{E}[U] \le \delta \mathbb{E}[|S|]/K\)。
最后一步：利用 \(|S| \le K\) 得 \(\mathbb{E}[|S|]/K \le 1\)。因此 FCR ≤ δ。证毕。

关键跳跃点：第 2 步到第 3 步中，从“反选哪个参数”到“构造和 U”的转换。传统 BY 只能对独立情况做相似推导；这里因为 e 值期望 ≤1 的无条件性，即使 e 值高度相关，期望也 ≤1 —— 这个简单性质允许我们完全忽略相关性。

技术技巧点名： - e 值的可累积性：核心技巧在于将多个相关的 e 值之和 U 的期望拆分为各自期望的和（线性性质——相关与否不影响期望的线性性）。这是 e 值框架相对于 p 值的巨大优势：p 值的“均匀性”在有相关性时会严重降低性质。 - 超鞅停止时间不变性（用于序列设定）：利用 Doob 可选停止定理，证明超鞅停在任意停止时间后的期望仍 ≤1，从而序列 e-CI 的 FCR 控制也能保持。 - Chernoff 界：举例说明如何从 Chernoff 界构造 e-CI。具体而言，对独立同分布数据，\(E(\mu) = \exp(n I(\bar{X}_n \ge \mu))\) 是一种常见构造（I 为 rate function）。 - 标定器 (calibrator)：从 e 值向 p 值的转化函数（1/E 是一种），反过来 p→e 的标定器用于还原 BY 过程。

真实例子与应用¶

Twitter A/B 测试数据： - 数据场景：Twitter 的一种实验（A/B 测试），比较多个变体（K 个指标）相对于对照的效果。每个参数 \(\theta_i\) 是第 i 个指标（如点击率）的“lift”。原始数据包括每个变体组的观测样本数、均值、方差估计。 - 方法应用步骤：对每个指标 i，作者先构造一个基于 Chernoff 界的 e-CI。然后模拟数据驱动选择 S——选出“positively large”的（lift 为正的）指标模拟研究者“选 top 5% 的显著指标”这一常见行为。再用 e-BY 调整：为这些选中的指标报告 (1-δ|S|/K)-CI。 - 结果：与传统的 BY 相比，e-BY 的调整后区间稍宽（这是保守性代价），但作者模拟证明实际 FCR 低于 δ，而未经调整的原始 CIs FCR 远超 δ（在某些场景超过 2δ）。 - 例子想说明什么：验证 e-BY 在真实数据中的可行性；证明尽管区间稍宽，FCR 得到控制的代价是 acceptable；并凸显 BY 在某些常见选择准则（如取正值）下会严重破局，而 e-BY 安然无恙。

模拟实验： - 设计：\(K = 10, \theta_i = \mu_i\)，独立或正相关数据。构造 e-CIs。选择准则为“取绝对 t 统计量 top 3 的”。对比 e-BY、BY（仅适用其满足 PRDS 的设定，但此处勉强使用）、以及不调整。 - 结论：e-BY 始终控制 FCR，而 BY 在某些意义下（正相关但选择准则是 top-k）FCR 膨胀至 1.5δ。

本文为纯理论+真实数据实证。

🔎 结论是否比证明窄¶

是，作者非常诚实地给出了几个“窄”的声明： - 正文多处强调：“我们的 e-BY 方法仅适用于 e-CI 类。对一般 CI，研究者需要先将其转化为 e-CI（例如取 \(1/\text{lower bound of p-value}\) 或使用 Hoeffding bound），但转化后的区间可能比原始区间更宽、更保守。” 这意味着方法本身不宣称在一般 CI 上效，只有关于 e-CI 的严格保证。如果读者想把 e-BY 用于 Wald CI，需要经过转化——转化方法隐含提及但未深入分析效率损失。 - 定理 1 的证明仅依赖 e 值的无条件期望 ≤1，没有用到任何“选择后的条件分布”信息。因此非常强、非常简洁，但也意味着 e-BY 可能不够锐利（即 FCR 可能远小于 δ，但区间宽度已经放大）。作者未进一步讨论“如何使 e-BY 更锐利”（例如动态调整 δ 的惩罚因子）。 - 可容许性（定理 2）的证明范围限于 e 值类——即比较的规则都必须在 e 值类框架内构造。它不意味着 e-BY 在所有可能的后选择规则中是最优的。可能的改进（如用刀切法、bootstrap）不在该假设下被排除。

四、开放问题（点到为止，扎根具体语句）¶

如何将 e-BY 扩展至非 e-CI 的通常 CIs？ 作者在假设部分明确指出：“e-BY 仅适用于 e-CI 类。” 一个直接的开放问题是：如何对任意基于残差 / 似然 / 贝叶斯后验的 CI 构造一个“e 值校准器”，使得转换后的 e-CI 的宽度损失与原始 CI 相比是可接受的？这扎根于第 2 节末的“转化函数”讨论（原文 “[…] 任何有效的 (1-δ)-CI，只要我们能构造一个对应的 e 值……”——但转化是否带来效率损失尚待量化）。对研究者而言，这是直接连接其非参数统计和e 值框架专长的题目。
在随机化选择（例如 bandit 实验中的 UCB 选择）下，e-BY 的 FCR 控制是否仍保持“任意依赖”的有效性？ 作者在“序列设定”中证明了停止时间下的 FCR 控制，但带“自适应采样”的 bandit 场景中，选择集 S 不仅依赖于数据，还依赖于如何处理奖励（算法本身带有随机性）。这扎根于第 5 节最后一句：“我们的方法对 bandit 采样同样适用”——但未给出完整证明，只做推导。研究者可研究：bandit 的“探索-利用权衡”是否会给 e-CI 构造引入新的依赖，使得 e 值的“无条件期望 ≤1”性质在条件分布下仍成立？这连接因果推断中的时间序列与自适应试验。
e-BY 能否被进一步锐化？ 作者已证明 e-BY 在 e 类内是可容许的，但有优化空间吗？例如，对于特定依赖结构（如独立或亚高斯），能否设计一个更锐利的惩罚函数（不是简单的 \(\delta|S|/K\)），使得平均区间宽度缩小，同时保持 FCR ≤ δ？这扎根于讨论节的最后一句话：“在不同依赖假设下，可能可以设计更锐利的标定器”——但未展开。
是否存在一个“e 值型”的 FCR 控制方法的 minimax 最优性结果？ 即：在所有 FCR 控制规则中，e-BY 是否在某种最坏情况意义上（对最不利的参数配置/选择准则）具有最小的预期区间宽度？这属于“后选择推断的效率理论”问题，连接研究者的最小最大界与效率理论专长。

Maintained by 陈星宇 · Homepage · Source on GitHub