跳转至

The 'Right' Extension of Type-I Error to Data-Dependent Levels

作者: Nick W. Koning
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://arxiv.org/abs/2605.28429


一、领域脉络与小综述

这个方向是什么 这个子方向要解决的根本统计问题是:当显著性水平 \(\alpha\) 不再是预先指定的常数,而是依赖于数据甚至事后选择时,如何定义并控制 Type-I error? 经典 Neyman-Pearson 框架强制要求 \(\alpha\) 独立于数据,否则条件 Type-I error \(P(\text{reject} | \hat{\alpha}=a) \leq a\) 一般无法成立。当前该方向正从启发式论证走向严格的公理化与决策理论构建,成熟度处于“核心概念(E-value 与 post-hoc \(\alpha\))已被多场景验证,但底层逻辑的唯一性与正当性刚被严格刻画”的阶段。

发展脉络 - 奠基工作:Wang & Ramdas (2022) 与 Katsevich & Ramdas (2020) 首次在多重检验中建立 E-value 与 data-dependent level 的联系,发现 E-value 允许事后选择 \(\alpha\) 且无需依赖结构修正(e-BH 程序)。 - 主要进展:Grünwald (2024) 将此推广至 expected loss 框架,建议选择损失函数 \(L(d_\alpha) = 1/\alpha\),从而导出期望扭曲比 \(\mathbb{E}_P[P(\text{reject}|\hat{\alpha})/\hat{\alpha}] \leq 1\);Koning (2024) 提出“连续检验”视角,将 E-value 视为在数据驱动水平上拒绝的广义检验,导出了推广的 NP 引理。 - 当前 frontier:Koning (2025) 引入条件框架与 certainty equivalent \(\rho\),试图统一 ess sup(条件控制)与期望(无条件控制)两种路线;Chugg et al. (2026b) 在 Grünwald 框架下研究 admissibility;Xu et al. (2025) 与 Hartog & Lei (2025) 将 post-hoc \(\alpha\) 推向多重检验的 closure principle 与 FWER 控制;Chugg et al. (2026a) 开辟了大样本渐近下的 post-hoc 推断。 - 本文的位置:本文填补了上述进展中的“正当性缺口”——此前 \(L(d_\alpha)=1/\alpha\) 与期望扭曲比仅基于启发式或与 E-value 的形式联系,本文通过三条公理证明它是唯一合理的推广。

子线索聚类 1. 多重检验与 post-hoc 选择:Wang & Ramdas (2022), Katsevich & Ramdas (2020), Xu et al. (2024), Xu et al. (2025), Hartog & Lei (2025)。这一簇在多重检验(FDR, FWER)场景下利用 E-value 的无依赖结构修正特性,允许事后选 \(\alpha\) 或选假设集。 2. 公理化与决策理论基础:Grünwald (2024), Koning (2024, 2025, 2026), Chugg et al. (2026b)。这一簇试图为 E-value 与 post-hoc \(\alpha\) 建立类似 NP 引理的优化理论、admissibility 理论与测度论基础(E-measure)。 3. 特定场景的 post-hoc 推断应用:Gauthier et al. (2025), Koning & van Meer (2025), Fischer & Sechidis (2025), Koobs & Koning (2026)。这一簇将 post-hoc \(\alpha\) 思想迁移到 conformal prediction, knockoffs, 等价检验等具体场景。

核心追问与瓶颈 - 核心追问 1:Data-dependent \(\alpha\) 下的 Type-I error 推广,究竟应该用条件概率(ess sup)还是期望扭曲比?瓶颈在于条件概率过于保守(往往不可行),而期望扭曲比的正当性缺乏公理支撑。 - 核心追问 2:E-value 的本质是什么?是“期望 \(\leq 1\) 的非负随机变量”,还是“多水平广义检验的数值表示”?瓶颈在于前者缺乏决策论解释,后者缺乏与经典 validity 的严格衔接。 - 核心追问 3:Post-hoc \(\alpha\) 在复合假设、半参数模型、渐近设定下如何操作?瓶颈在于现有结果多针对简单假设或非渐近设定,复合假设下的 E-value 构造与 optimality 仍开放。

⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“现有推广仅是启发式,缺乏公理正当性”,从而将自己的三条公理与唯一性定理定位为“为整个 post-hoc 与 E-value 文献提供地基”。 - 被淡化的竞争路线:Grünwald (2024) 的 expected loss 框架被简化为“只是本文特例 \(\rho = \mathbb{E}_P\)”;Chugg et al. (2026b) 的 admissibility 路线未在 intro 讨论,可能因为作者聚焦于“唯一性”而非“最优性”。 - 缺失的引用:Intro 未引用任何半参数效率界或因果推断中 data-dependent selection 的文献(如 post-selection inference 的经典 Lee et al. 2016 或 Tibshirani et al. 2018),也未引用贝叶斯因子或似然比在 data-dependent threshold 下的旧讨论。这提示:本文的公理体系目前仅锚定在简单假设 \(\{P\}\) 上,复合假设与半参数设定下的公理推广是否仍成立,是研究者应去查的空白。

张力 - 明显对立:Koning (2025) 用 Example 2(本文复用)否决了 \(\rho = \text{ess sup}_P\)(条件控制),而 Gauthier et al. (2025) 与 Zhu & Simeone (2026) 仍在使用 \(P(\text{reject}) \leq \mathbb{E}_P[\hat{\alpha}]\) 这一被本文 Axiom 2(Preserving classical validity)与 Koning (2025) 共同否决的推广。文献内部对“哪种推广是对的”存在活的对立,本文试图用公理终结此对立,但对手文献仍在发表。


二、这篇论文做了什么

类型:理论型(公理化刻画 / 唯一性定理)。

三句话 ① 研究了 data-dependent 显著性水平下 Type-I error 推广的正当性问题,追问为何应是期望扭曲比 \(\mathbb{E}_P[P(\text{reject}|\hat{\alpha})/\hat{\alpha}] \leq 1\)。 ② 核心工具是三条公理(Nesting, Preserving, Monotonicity)+ certainty equivalent \(\rho\) 框架 + 构造性反例。 ③ 主要结论:在广泛的条件框架(含 ess sup 与期望)下,满足这三条公理与下连续性的 validity 推广,唯一逼出 \(L(d_\alpha) = 1/\alpha\) 与期望控制 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))] \leq 1\);进而 E-value 的常见定义 \(\mathbb{E}_P[\varepsilon] \leq 1\) 恰是此 validity 在广义检验数值表示下的唯一形态。

关键设定与假设 - 简单假设 \(\{P\}\):全文理论锚定在单一零假设上,复合假设仅声称“easily extended”但未展开证明。统计含义:避开了复合假设下最优势检验与 E-value 构造的复杂性。 - Evidence space \(D\):全序决策空间,\(d_\alpha\) 表示“在水平 \(\alpha\) 拒绝”,\(d_{\alpha^+} \leq d_{\alpha^-}\)(越小水平越强)。统计含义:将不同水平的拒绝视为不同决策,为多水平广义检验铺路。 - 外生随机化 \(U \sim \text{Unif}[0,1]\):假设概率空间可扩充以包含独立均匀变量。统计含义:允许构造任意拒绝概率的随机化检验,是 Theorem 3.1 与 Lemma C.1 证明的关键(用于逼近任意 \(p_\alpha(\phi)\))。 - Certainty equivalent \(\rho\):从随机变量到实数的映射,固定常数,范围从 \(\mathbb{E}_P\)\(\text{ess sup}_P\)。统计含义:统一条件控制与无条件控制的抽象聚合器。 - 下连续性 \(\rho\)\(Y_n \uparrow Y \Rightarrow \rho(Y_n) \uparrow \rho(Y)\)。统计含义:排除病态 \(\rho\),允许从有界变量逼近无界变量。

主要结果 1. Theorem 3.1(期望损失框架下的唯一性):在 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))] \leq C\) 形式的 validity 中,Nesting classical validity 唯一逼出 \(L(d_\alpha) = 1/\alpha\)。直觉:固定 \(\alpha\) 时,经典 validity \(p \leq \alpha\) 与期望损失 validity \(p \ell_\alpha \leq 1\) 必须等价,外生随机化允许 \(p\)\([0,1]\) 任意值,从而 \(\ell_\alpha\) 必须是 \(1/\alpha\)。技术难点:利用随机化检验构造任意 \(p_\alpha(\phi)\),通过 \(p=\alpha\)\(p \downarrow \alpha\) 的双向逼出 \(\ell_\alpha = 1/\alpha\)。 2. Theorem 4.3(主定理:条件框架下的唯一性):在 \(\rho(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}]) \leq C\) 形式的 validity 中,Nesting 逼出 \(L(d_\alpha)=1/\alpha\),加上 Preserving 与 Monotonicity 与下连续性,唯一逼出 \(\rho = \mathbb{E}_P\)(即期望控制)。直觉:Preserving 要求阈值化后仍经典有效,Monotonicity 要求更保守的水平仍有效,两者共同排除 ess sup 与其他 \(\rho\)。技术难点:Lemma C.1 构造特定 \(\hat{\alpha}\) 使得 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}]\) 等于任意目标 \(Y\),再用 Preserving 与 Monotonicity 制造矛盾以逼出 \(\rho(Y) \leq C \iff \mathbb{E}_P[Y] \leq C\)。 3. Theorem 5.2(E-value 与 post-hoc validity 的等价):在抽象单调性与下连续性下,检验族 \(\phi\) 的 closure \(\bar{\phi}\) 是 post-hoc valid 当且仅当其关联 E-value \(\varepsilon_\phi\) 是 valid(\(\mathbb{E}_P[L(\varepsilon_\phi)] \leq 1\))。直觉:E-value 是检验族在各水平上的上确界,post-hoc validity 要求对所有 \(\hat{\alpha}\) 有效,两者通过单调逼近等价。

方法 / 证明骨架 1. 从广泛 validity 形式 \(\rho(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}]) \leq C\) 出发。 2. Axiom 1(Nesting)在常数 \(\hat{\alpha} \equiv \alpha\) 时将问题退化为 Theorem 3.1,逼出 \(L(d_\alpha) = 1/\alpha\)。 3. 构造 Lemma C.1:对任意有界 \(Y \geq L(0)\),制造 \(\hat{\alpha}\)\(\phi\) 使得 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}] = Y\),且 \(\phi\) 在某固定水平 \(a\) 上有特定拒绝概率。 4. 用 Axiom 2(Preserving)与 Axiom 3(Monotonicity)对 Lemma C.1 的构造制造矛盾,逼出 \(\rho(Y) \leq C \iff \mathbb{E}_P[Y] \leq C\) 对所有有界 \(Y\) 成立。 5. 用下连续性将有界 \(Y\) 逼近推广到无界 \(Y\),完成 \(\rho = \mathbb{E}_P\) 的唯一性证明。

🔎 结论是否比证明窄 - 窄结论 1:全文定理仅在简单假设 \(\{P\}\) 下严格证明,但 Abstract 与 Section 1.3 声称“Our results are all easily extended to the composite setting”。这是最干净的问题种子:复合假设下,经典 validity 是 \(p_\alpha(\phi) \leq \alpha\) 对所有 \(P \in H_0\) 成立,Nesting Axiom 需要对所有 \(P \in H_0\) 等价,此时 \(L(d_\alpha) = 1/\alpha\) 是否仍被唯一逼出?外生随机化构造是否对每个 \(P\) 都可行?Lemma C.1 的 \(\hat{\alpha}\) 是否需要依赖 \(P\) 从而破坏复合假设下的一致性? - 窄结论 2:Theorem 5.2 假设 \(\phi\) 可被 post-hoc 逼近(存在 \(\hat{\alpha}_n \uparrow\) 使得 \(\phi(\hat{\alpha}_n) \uparrow \varepsilon_\phi\)),但未给出何时此条件成立的刻画。这被泛泛 claim 为“自然”,但缺乏条件陈述。


三、值不值得做 / 研究者能做什么

领域层面的判断材料 - 反复出现的真 gap:从被引文献看,“E-value 的决策论本质是什么”与“data-dependent \(\alpha\) 下 Type-I error 的正确推广是什么”是 2022-2026 间被 Koning, Grünwald, Chugg 等反复点名的核心问题,本文用公理给出了一个终结性回答,但复合假设下的推广未被任何文献解决(Koning 2026 的 E-measure 也仅在交集闭的假设类上讨论,未触及半参数复合假设的效率界)。 - 一家之言:本文对 \(\rho = \text{ess sup}_P\) 的否决(Axiom 3)是基于特定构造(Example 2),而 Gauthier et al. (2025) 仍在用被本文否决的推广 \(P(\text{reject}) \leq \mathbb{E}_P[\hat{\alpha}]\)研究者需自查:读 Chugg et al. (2026a, 2026b), Grünwald (2024), Koning (2025) 的 intro,看他们是否都接受本文的三条公理,或是否有文献为 ess sup 或其他 \(\rho\) 提出替代公理。

问题种子清单

(A) 立即可做 1. 问题表述:在复合假设 \(H_0 = \{P_\theta : \theta \in \Theta_0\}\) 下,Nesting Axiom 是否仍唯一逼出 \(L(d_\alpha) = 1/\alpha\)?若否,需要什么额外条件? - 扎根在本文哪里:Section 1.3 声称“Our results are all easily extended to the composite setting”,但无证明;Theorem 3.1 的证明依赖外生随机化构造对单一 \(P\) 成立,复合假设下需对所有 \(P_\theta \in H_0\) 同时成立。 - 攻它需要什么:方法:对每个 \(\theta\) 重复 Theorem 3.1 的双向逼出,检查 \(\ell_\alpha(\theta) = 1/\alpha\) 是否对所有 \(\theta\) 一致;若 \(\Theta_0\) 无穷,需考虑 supremum over \(\theta\) 的技术。数据/算力:纯理论,无需数据。 - 谁已经在附近做:Koning (2026) 的 E-measure 考虑了交集闭的假设类,但未做公理逼出;需自查拥挤度。 - 武器库匹配 + 独特角度:very_familiar 的 minimax bounds for estimation 可用来审视“复合假设下 validity 的 uniform over \(\Theta_0\) 要求”是否引入 minimax 型的新公理;研究者可从 minimax 角度提出第四条公理(Uniformity),看是否逼出不同的 \(L\)

  1. 问题表述:在半参数模型 \(\{P_{\theta, \eta} : \theta \in \Theta_0, \eta \in \mathcal{N}\}\) 下,E-value 的构造与 post-hoc validity 的等价性(Theorem 5.2)是否仍成立?特别是,半参数效率界下的最优 E-value 是否对应某种广义 NP 引理?
  2. 扎根在本文哪里:Theorem 5.2 仅在简单假设下证明;Koning (2024) 的连续检验 NP 引理也针对简单假设。
  3. 攻它需要什么:方法:将半参数效率界(very_familiar)与 E-value 的 log-optimality(Grünwald 2024)结合,推导半参数下最优 E-value 的形式。数据/算力:纯理论。
  4. 谁已经在附近做:Grünwald (2024) 讨论了复合假设的 E-value 但未触及半参数;需自查拥挤度。
  5. 武器库匹配 + 独特角度:very_familiar 的 estimation theory in causal inference + moderately_familiar 的 semiparametric theory 可用来推导因果推断中常见半参数假设(如无混杂假设)下的最优 E-value 形式,这是因果推断社区尚未系统探索的。

(B) 中期可做 1. 问题表述:将本文的公理体系推广到 data-dependent level \(\hat{\alpha}\) 与 data-dependent test \(\hat{\phi}\) 同时选择的设定(如 post-selection inference),推导 validity 的唯一形式。 - 扎根在本文哪里:本文仅考虑 \(\hat{\alpha}\) 依赖数据,\(\phi\) 是固定的检验族;Koning (2025) 的 Example 暗示 \(\hat{\phi}\) 依赖数据时 Monotonicity Axiom 可能需要修改。 - 攻它需要什么:缺 moderately_familiar 的 M-estimation theory(用于刻画 data-dependent \(\hat{\phi}\) 的渐近行为)+ 补 Lee et al. (2016) 或 Tibshirani et al. (2018) 的 post-selection inference 文献以理解现有 \(\hat{\phi}\) 构造。补完后可回到:在 \(\hat{\phi}\) 是 M-estimator 的设定下,Nesting + Preserving + Monotonicity 是否逼出 \(\mathbb{E}_P[L(\hat{\phi}(\hat{\alpha}))] \leq 1\) 或需要修正? - 谁已经在附近做:Post-selection inference 文献(Lee et al. 2016)用条件分布,未用 E-value;需自查拥挤度。 - 武器库匹配 + 独特角度:moderately_familiar 的 M-estimation theory 可用来为 data-dependent \(\hat{\phi}\) 建立渐近有效性框架,结合本文公理推导渐近 post-hoc validity 的唯一形式。

  1. 问题表述:在高维设定(\(p \gg n\))下,E-value 的构造与 post-hoc validity 的计算可行性:是否存在统计-计算间隙,即多项式时间可构造的 E-value 无法达到某些复合假设下的 log-optimality?
  2. 扎根在本文哪里:本文未涉及计算;Chugg et al. (2026a) 考虑了渐近但未考虑高维计算。
  3. 攻它需要什么:缺 moderately_familiar 的 HOIF 理论(用于构造高阶 E-value 以逼近效率界)+ 补 high-dimensional asymptotics 文献(如 Bellec & Zhang 2019 on debiased Lasso)以理解高维下 E-value 的渐近行为。补完后可回到:高维下,debiased Lasso 型 E-value 是否是多项式时间可达的最优 post-hoc valid 检验?
  4. 谁已经在附近做:高维 E-value 文献极少;需自查拥挤度。
  5. 武器库匹配 + 独特角度:very_familiar 的高维渐近 + moderately_familiar 的 HOIF 可用来推导高维下 E-value 的效率界与计算可行性,连接研究者的统计-计算间隙兴趣。

(C) 暂不建议 1. 问题表述:在平均情况复杂性框架下,证明构造 log-optimal E-value 对某些复合假设(如 planted clique 型)存在低阶多项式屏障。 - 核心机器缺什么:缺低阶多项式屏障 / SQ 下界 / 平均情况复杂性理论(研究者明确为 outsider)。 - 为何不易绕过:此类屏障需要构造特定的假设检验问题并证明低阶多项式无法区分,这需要内化低阶似然比或 SQ 的技术语言,非短期可补。

迁移视角 - 迁移口子 1:本文的“多水平广义检验 \(\varepsilon: \mathcal{X} \to D\) 与数值表示 \(L(\varepsilon)\)”框架,可迁移到因果推断中的 sensitivity analysis。因果推断的 sensitivity model(如 \(\Gamma\)-Manski bound)是一族复合假设随参数 \(\Gamma\) 变化,研究者可定义“Sensitivity E-value”为在不同 \(\Gamma\) 水平上拒绝的广义检验,用本文公理推导其 validity 的唯一形式。这可行因为:sensitivity analysis 本质是 data-dependent level(\(\Gamma\) 依赖数据或事后选择),且研究者 very_familiar with estimation theory in causal inference。 - 迁移口子 2:本文的“期望扭曲比 \(\mathbb{E}_P[P(\text{reject}|\hat{\alpha})/\hat{\alpha}] \leq 1\)”可迁移到高阶 U-统计量的有效性控制。高阶 U-统计量的 bias 控制常涉及条件期望比(如 HOIF 中的 \(\mathbb{E}[U_k | U_{k-1}] / U_{k-1}\)),研究者可定义“U-statistic E-value”并用本文公理推导其 validity 的唯一形式。这可行因为:研究者 very_familiar with computation of higher-order U-statistics,且 HOIF 理论中已有类似期望比的结构。


四、延伸与下一步

沿引用链的阅读路线 - 地基:先读 Wang & Ramdas (2022) 理解 E-value 在多重检验中的原始动机;再读 Grünwald (2024) 理解 expected loss 框架与 \(L(d_\alpha)=1/\alpha\) 的启发式选择。 - Frontier:读 Koning (2024) 理解连续检验与广义 NP 引理;读 Koning (2025) 理解条件框架与 certainty equivalent \(\rho\) 的引入(本文的直接前作);读 Chugg et al. (2026b) 理解 admissibility 路线(本文未展开的竞争视角);读 Chugg et al. (2026a) 理解渐近 post-hoc 推断(本文未触及的渐近设定)。

假设扰动 - 扰动假设:去掉外生随机化假设(\(U \sim \text{Unif}[0,1]\)),仅允许非随机化检验 \(\phi(\alpha): \mathcal{X} \to \{0, d_\alpha\}\)。 - 结论变化:Theorem 3.1 的证明依赖外生随机化构造任意 \(p_\alpha(\phi) \in [0,1]\);去掉后,\(p_\alpha(\phi)\) 只能取特定值(如 \(\{0, 1/n, 2/n, \ldots\}\) 对离散分布),Nesting Axiom 可能不再唯一逼出 \(L(d_\alpha) = 1/\alpha\),而是逼出 \(\ell_\alpha\) 在这些特定 \(p\) 值上满足 \(p \ell_\alpha \leq 1 \iff p \leq \alpha\),允许 \(\ell_\alpha\) 在其他点有偏差。 - 需要的新工具:离散分布下拒绝概率的可达性刻画(类似随机化检验的可达性定理)。 - 落入哪一档:B 档中期可做——需补非随机化检验的可达性文献(如 Lehmann & Romano 2005 的 Chapter 3),补完后可具体计算离散分布下 \(\ell_\alpha\) 的允许偏差范围。

理解检测题 - 题目:考虑一个离散分布 \(P\) 下水平 \(\alpha = 0.05\) 的非随机化检验 \(\phi(0.05)\),其拒绝概率只能是 \(p = 0.04\)\(p = 0.06\)(无法精确达到 0.05)。若去掉外生随机化假设,Nesting Axiom(\(p \leq 0.05 \iff p \ell_{0.05} \leq 1\))对 \(\ell_{0.05}\) 施加什么约束?\(\ell_{0.05}\) 是否仍被唯一逼出为 \(1/0.05 = 20\)?请写出约束不等式并讨论 \(\ell_{0.05}\) 的允许范围。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论