The 'Right' Extension of Type-I Error to Data-Dependent Levels¶

作者: Nick W. Koning
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://arxiv.org/abs/2605.28429

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：当显著性水平 \(\alpha\) 不再是预先指定的常数，而是依赖于数据甚至事后选择时，如何定义并控制 Type-I error？ 经典 Neyman-Pearson 框架强制要求 \(\alpha\) 独立于数据，否则条件 Type-I error \(P(\text{reject} | \hat{\alpha}=a) \leq a\) 一般无法成立。当前该方向正从启发式论证走向严格的公理化与决策理论构建，成熟度处于“核心概念（E-value 与 post-hoc \(\alpha\)）已被多场景验证，但底层逻辑的唯一性与正当性刚被严格刻画”的阶段。

发展脉络 - 奠基工作：Wang & Ramdas (2022) 与 Katsevich & Ramdas (2020) 首次在多重检验中建立 E-value 与 data-dependent level 的联系，发现 E-value 允许事后选择 \(\alpha\) 且无需依赖结构修正（e-BH 程序）。 - 主要进展：Grünwald (2024) 将此推广至 expected loss 框架，建议选择损失函数 \(L(d_\alpha) = 1/\alpha\)，从而导出期望扭曲比 \(\mathbb{E}_P[P(\text{reject}|\hat{\alpha})/\hat{\alpha}] \leq 1\)；Koning (2024) 提出“连续检验”视角，将 E-value 视为在数据驱动水平上拒绝的广义检验，导出了推广的 NP 引理。 - 当前 frontier：Koning (2025) 引入条件框架与 certainty equivalent \(\rho\)，试图统一 ess sup（条件控制）与期望（无条件控制）两种路线；Chugg et al. (2026b) 在 Grünwald 框架下研究 admissibility；Xu et al. (2025) 与 Hartog & Lei (2025) 将 post-hoc \(\alpha\) 推向多重检验的 closure principle 与 FWER 控制；Chugg et al. (2026a) 开辟了大样本渐近下的 post-hoc 推断。 - 本文的位置：本文填补了上述进展中的“正当性缺口”——此前 \(L(d_\alpha)=1/\alpha\) 与期望扭曲比仅基于启发式或与 E-value 的形式联系，本文通过三条公理证明它是唯一合理的推广。

子线索聚类 1. 多重检验与 post-hoc 选择：Wang & Ramdas (2022), Katsevich & Ramdas (2020), Xu et al. (2024), Xu et al. (2025), Hartog & Lei (2025)。这一簇在多重检验（FDR, FWER）场景下利用 E-value 的无依赖结构修正特性，允许事后选 \(\alpha\) 或选假设集。 2. 公理化与决策理论基础：Grünwald (2024), Koning (2024, 2025, 2026), Chugg et al. (2026b)。这一簇试图为 E-value 与 post-hoc \(\alpha\) 建立类似 NP 引理的优化理论、admissibility 理论与测度论基础（E-measure）。 3. 特定场景的 post-hoc 推断应用：Gauthier et al. (2025), Koning & van Meer (2025), Fischer & Sechidis (2025), Koobs & Koning (2026)。这一簇将 post-hoc \(\alpha\) 思想迁移到 conformal prediction, knockoffs, 等价检验等具体场景。

核心追问与瓶颈 - 核心追问 1：Data-dependent \(\alpha\) 下的 Type-I error 推广，究竟应该用条件概率（ess sup）还是期望扭曲比？瓶颈在于条件概率过于保守（往往不可行），而期望扭曲比的正当性缺乏公理支撑。 - 核心追问 2：E-value 的本质是什么？是“期望 \(\leq 1\) 的非负随机变量”，还是“多水平广义检验的数值表示”？瓶颈在于前者缺乏决策论解释，后者缺乏与经典 validity 的严格衔接。 - 核心追问 3：Post-hoc \(\alpha\) 在复合假设、半参数模型、渐近设定下如何操作？瓶颈在于现有结果多针对简单假设或非渐近设定，复合假设下的 E-value 构造与 optimality 仍开放。

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“现有推广仅是启发式，缺乏公理正当性”，从而将自己的三条公理与唯一性定理定位为“为整个 post-hoc 与 E-value 文献提供地基”。 - 被淡化的竞争路线：Grünwald (2024) 的 expected loss 框架被简化为“只是本文特例 \(\rho = \mathbb{E}_P\)”；Chugg et al. (2026b) 的 admissibility 路线未在 intro 讨论，可能因为作者聚焦于“唯一性”而非“最优性”。 - 缺失的引用：Intro 未引用任何半参数效率界或因果推断中 data-dependent selection 的文献（如 post-selection inference 的经典 Lee et al. 2016 或 Tibshirani et al. 2018），也未引用贝叶斯因子或似然比在 data-dependent threshold 下的旧讨论。这提示：本文的公理体系目前仅锚定在简单假设 \(\{P\}\) 上，复合假设与半参数设定下的公理推广是否仍成立，是研究者应去查的空白。

张力 - 明显对立：Koning (2025) 用 Example 2（本文复用）否决了 \(\rho = \text{ess sup}_P\)（条件控制），而 Gauthier et al. (2025) 与 Zhu & Simeone (2026) 仍在使用 \(P(\text{reject}) \leq \mathbb{E}_P[\hat{\alpha}]\) 这一被本文 Axiom 2（Preserving classical validity）与 Koning (2025) 共同否决的推广。文献内部对“哪种推广是对的”存在活的对立，本文试图用公理终结此对立，但对手文献仍在发表。

二、这篇论文做了什么¶

类型：理论型（公理化刻画 / 唯一性定理）。

三句话 ① 研究了 data-dependent 显著性水平下 Type-I error 推广的正当性问题，追问为何应是期望扭曲比 \(\mathbb{E}_P[P(\text{reject}|\hat{\alpha})/\hat{\alpha}] \leq 1\)。 ② 核心工具是三条公理（Nesting, Preserving, Monotonicity）+ certainty equivalent \(\rho\) 框架 + 构造性反例。 ③ 主要结论：在广泛的条件框架（含 ess sup 与期望）下，满足这三条公理与下连续性的 validity 推广，唯一逼出 \(L(d_\alpha) = 1/\alpha\) 与期望控制 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))] \leq 1\)；进而 E-value 的常见定义 \(\mathbb{E}_P[\varepsilon] \leq 1\) 恰是此 validity 在广义检验数值表示下的唯一形态。

关键设定与假设 - 简单假设 \(\{P\}\)：全文理论锚定在单一零假设上，复合假设仅声称“easily extended”但未展开证明。统计含义：避开了复合假设下最优势检验与 E-value 构造的复杂性。 - Evidence space \(D\)：全序决策空间，\(d_\alpha\) 表示“在水平 \(\alpha\) 拒绝”，\(d_{\alpha^+} \leq d_{\alpha^-}\)（越小水平越强）。统计含义：将不同水平的拒绝视为不同决策，为多水平广义检验铺路。 - 外生随机化 \(U \sim \text{Unif}[0,1]\)：假设概率空间可扩充以包含独立均匀变量。统计含义：允许构造任意拒绝概率的随机化检验，是 Theorem 3.1 与 Lemma C.1 证明的关键（用于逼近任意 \(p_\alpha(\phi)\)）。 - Certainty equivalent \(\rho\)：从随机变量到实数的映射，固定常数，范围从 \(\mathbb{E}_P\) 到 \(\text{ess sup}_P\)。统计含义：统一条件控制与无条件控制的抽象聚合器。 - 下连续性 \(\rho\)：\(Y_n \uparrow Y \Rightarrow \rho(Y_n) \uparrow \rho(Y)\)。统计含义：排除病态 \(\rho\)，允许从有界变量逼近无界变量。

主要结果 1. Theorem 3.1（期望损失框架下的唯一性）：在 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))] \leq C\) 形式的 validity 中，Nesting classical validity 唯一逼出 \(L(d_\alpha) = 1/\alpha\)。直觉：固定 \(\alpha\) 时，经典 validity \(p \leq \alpha\) 与期望损失 validity \(p \ell_\alpha \leq 1\) 必须等价，外生随机化允许 \(p\) 取 \([0,1]\) 任意值，从而 \(\ell_\alpha\) 必须是 \(1/\alpha\)。技术难点：利用随机化检验构造任意 \(p_\alpha(\phi)\)，通过 \(p=\alpha\) 与 \(p \downarrow \alpha\) 的双向逼出 \(\ell_\alpha = 1/\alpha\)。 2. Theorem 4.3（主定理：条件框架下的唯一性）：在 \(\rho(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}]) \leq C\) 形式的 validity 中，Nesting 逼出 \(L(d_\alpha)=1/\alpha\)，加上 Preserving 与 Monotonicity 与下连续性，唯一逼出 \(\rho = \mathbb{E}_P\)（即期望控制）。直觉：Preserving 要求阈值化后仍经典有效，Monotonicity 要求更保守的水平仍有效，两者共同排除 ess sup 与其他 \(\rho\)。技术难点：Lemma C.1 构造特定 \(\hat{\alpha}\) 使得 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}]\) 等于任意目标 \(Y\)，再用 Preserving 与 Monotonicity 制造矛盾以逼出 \(\rho(Y) \leq C \iff \mathbb{E}_P[Y] \leq C\)。 3. Theorem 5.2（E-value 与 post-hoc validity 的等价）：在抽象单调性与下连续性下，检验族 \(\phi\) 的 closure \(\bar{\phi}\) 是 post-hoc valid 当且仅当其关联 E-value \(\varepsilon_\phi\) 是 valid（\(\mathbb{E}_P[L(\varepsilon_\phi)] \leq 1\)）。直觉：E-value 是检验族在各水平上的上确界，post-hoc validity 要求对所有 \(\hat{\alpha}\) 有效，两者通过单调逼近等价。

方法 / 证明骨架 1. 从广泛 validity 形式 \(\rho(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}]) \leq C\) 出发。 2. Axiom 1（Nesting）在常数 \(\hat{\alpha} \equiv \alpha\) 时将问题退化为 Theorem 3.1，逼出 \(L(d_\alpha) = 1/\alpha\)。 3. 构造 Lemma C.1：对任意有界 \(Y \geq L(0)\)，制造 \(\hat{\alpha}\) 与 \(\phi\) 使得 \(\mathbb{E}_P[L(\phi(\hat{\alpha}))|\hat{\alpha}] = Y\)，且 \(\phi\) 在某固定水平 \(a\) 上有特定拒绝概率。 4. 用 Axiom 2（Preserving）与 Axiom 3（Monotonicity）对 Lemma C.1 的构造制造矛盾，逼出 \(\rho(Y) \leq C \iff \mathbb{E}_P[Y] \leq C\) 对所有有界 \(Y\) 成立。 5. 用下连续性将有界 \(Y\) 逼近推广到无界 \(Y\)，完成 \(\rho = \mathbb{E}_P\) 的唯一性证明。

🔎 结论是否比证明窄 - 窄结论 1：全文定理仅在简单假设 \(\{P\}\) 下严格证明，但 Abstract 与 Section 1.3 声称“Our results are all easily extended to the composite setting”。这是最干净的问题种子：复合假设下，经典 validity 是 \(p_\alpha(\phi) \leq \alpha\) 对所有 \(P \in H_0\) 成立，Nesting Axiom 需要对所有 \(P \in H_0\) 等价，此时 \(L(d_\alpha) = 1/\alpha\) 是否仍被唯一逼出？外生随机化构造是否对每个 \(P\) 都可行？Lemma C.1 的 \(\hat{\alpha}\) 是否需要依赖 \(P\) 从而破坏复合假设下的一致性？ - 窄结论 2：Theorem 5.2 假设 \(\phi\) 可被 post-hoc 逼近（存在 \(\hat{\alpha}_n \uparrow\) 使得 \(\phi(\hat{\alpha}_n) \uparrow \varepsilon_\phi\)），但未给出何时此条件成立的刻画。这被泛泛 claim 为“自然”，但缺乏条件陈述。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料 - 反复出现的真 gap：从被引文献看，“E-value 的决策论本质是什么”与“data-dependent \(\alpha\) 下 Type-I error 的正确推广是什么”是 2022-2026 间被 Koning, Grünwald, Chugg 等反复点名的核心问题，本文用公理给出了一个终结性回答，但复合假设下的推广未被任何文献解决（Koning 2026 的 E-measure 也仅在交集闭的假设类上讨论，未触及半参数复合假设的效率界）。 - 一家之言：本文对 \(\rho = \text{ess sup}_P\) 的否决（Axiom 3）是基于特定构造（Example 2），而 Gauthier et al. (2025) 仍在用被本文否决的推广 \(P(\text{reject}) \leq \mathbb{E}_P[\hat{\alpha}]\)。研究者需自查：读 Chugg et al. (2026a, 2026b), Grünwald (2024), Koning (2025) 的 intro，看他们是否都接受本文的三条公理，或是否有文献为 ess sup 或其他 \(\rho\) 提出替代公理。

问题种子清单

(A) 立即可做 1. 问题表述：在复合假设 \(H_0 = \{P_\theta : \theta \in \Theta_0\}\) 下，Nesting Axiom 是否仍唯一逼出 \(L(d_\alpha) = 1/\alpha\)？若否，需要什么额外条件？ - 扎根在本文哪里：Section 1.3 声称“Our results are all easily extended to the composite setting”，但无证明；Theorem 3.1 的证明依赖外生随机化构造对单一 \(P\) 成立，复合假设下需对所有 \(P_\theta \in H_0\) 同时成立。 - 攻它需要什么：方法：对每个 \(\theta\) 重复 Theorem 3.1 的双向逼出，检查 \(\ell_\alpha(\theta) = 1/\alpha\) 是否对所有 \(\theta\) 一致；若 \(\Theta_0\) 无穷，需考虑 supremum over \(\theta\) 的技术。数据/算力：纯理论，无需数据。 - 谁已经在附近做：Koning (2026) 的 E-measure 考虑了交集闭的假设类，但未做公理逼出；需自查拥挤度。 - 武器库匹配 + 独特角度：very_familiar 的 minimax bounds for estimation 可用来审视“复合假设下 validity 的 uniform over \(\Theta_0\) 要求”是否引入 minimax 型的新公理；研究者可从 minimax 角度提出第四条公理（Uniformity），看是否逼出不同的 \(L\)。

问题表述：在半参数模型 \(\{P_{\theta, \eta} : \theta \in \Theta_0, \eta \in \mathcal{N}\}\) 下，E-value 的构造与 post-hoc validity 的等价性（Theorem 5.2）是否仍成立？特别是，半参数效率界下的最优 E-value 是否对应某种广义 NP 引理？
扎根在本文哪里：Theorem 5.2 仅在简单假设下证明；Koning (2024) 的连续检验 NP 引理也针对简单假设。
攻它需要什么：方法：将半参数效率界（very_familiar）与 E-value 的 log-optimality（Grünwald 2024）结合，推导半参数下最优 E-value 的形式。数据/算力：纯理论。
谁已经在附近做：Grünwald (2024) 讨论了复合假设的 E-value 但未触及半参数；需自查拥挤度。
武器库匹配 + 独特角度：very_familiar 的 estimation theory in causal inference + moderately_familiar 的 semiparametric theory 可用来推导因果推断中常见半参数假设（如无混杂假设）下的最优 E-value 形式，这是因果推断社区尚未系统探索的。

(B) 中期可做 1. 问题表述：将本文的公理体系推广到 data-dependent level \(\hat{\alpha}\) 与 data-dependent test \(\hat{\phi}\) 同时选择的设定（如 post-selection inference），推导 validity 的唯一形式。 - 扎根在本文哪里：本文仅考虑 \(\hat{\alpha}\) 依赖数据，\(\phi\) 是固定的检验族；Koning (2025) 的 Example 暗示 \(\hat{\phi}\) 依赖数据时 Monotonicity Axiom 可能需要修改。 - 攻它需要什么：缺 moderately_familiar 的 M-estimation theory（用于刻画 data-dependent \(\hat{\phi}\) 的渐近行为）+ 补 Lee et al. (2016) 或 Tibshirani et al. (2018) 的 post-selection inference 文献以理解现有 \(\hat{\phi}\) 构造。补完后可回到：在 \(\hat{\phi}\) 是 M-estimator 的设定下，Nesting + Preserving + Monotonicity 是否逼出 \(\mathbb{E}_P[L(\hat{\phi}(\hat{\alpha}))] \leq 1\) 或需要修正？ - 谁已经在附近做：Post-selection inference 文献（Lee et al. 2016）用条件分布，未用 E-value；需自查拥挤度。 - 武器库匹配 + 独特角度：moderately_familiar 的 M-estimation theory 可用来为 data-dependent \(\hat{\phi}\) 建立渐近有效性框架，结合本文公理推导渐近 post-hoc validity 的唯一形式。

问题表述：在高维设定（\(p \gg n\)）下，E-value 的构造与 post-hoc validity 的计算可行性：是否存在统计-计算间隙，即多项式时间可构造的 E-value 无法达到某些复合假设下的 log-optimality？
扎根在本文哪里：本文未涉及计算；Chugg et al. (2026a) 考虑了渐近但未考虑高维计算。
攻它需要什么：缺 moderately_familiar 的 HOIF 理论（用于构造高阶 E-value 以逼近效率界）+ 补 high-dimensional asymptotics 文献（如 Bellec & Zhang 2019 on debiased Lasso）以理解高维下 E-value 的渐近行为。补完后可回到：高维下，debiased Lasso 型 E-value 是否是多项式时间可达的最优 post-hoc valid 检验？
谁已经在附近做：高维 E-value 文献极少；需自查拥挤度。
武器库匹配 + 独特角度：very_familiar 的高维渐近 + moderately_familiar 的 HOIF 可用来推导高维下 E-value 的效率界与计算可行性，连接研究者的统计-计算间隙兴趣。

(C) 暂不建议 1. 问题表述：在平均情况复杂性框架下，证明构造 log-optimal E-value 对某些复合假设（如 planted clique 型）存在低阶多项式屏障。 - 核心机器缺什么：缺低阶多项式屏障 / SQ 下界 / 平均情况复杂性理论（研究者明确为 outsider）。 - 为何不易绕过：此类屏障需要构造特定的假设检验问题并证明低阶多项式无法区分，这需要内化低阶似然比或 SQ 的技术语言，非短期可补。

迁移视角 - 迁移口子 1：本文的“多水平广义检验 \(\varepsilon: \mathcal{X} \to D\) 与数值表示 \(L(\varepsilon)\)”框架，可迁移到因果推断中的 sensitivity analysis。因果推断的 sensitivity model（如 \(\Gamma\)-Manski bound）是一族复合假设随参数 \(\Gamma\) 变化，研究者可定义“Sensitivity E-value”为在不同 \(\Gamma\) 水平上拒绝的广义检验，用本文公理推导其 validity 的唯一形式。这可行因为：sensitivity analysis 本质是 data-dependent level（\(\Gamma\) 依赖数据或事后选择），且研究者 very_familiar with estimation theory in causal inference。 - 迁移口子 2：本文的“期望扭曲比 \(\mathbb{E}_P[P(\text{reject}|\hat{\alpha})/\hat{\alpha}] \leq 1\)”可迁移到高阶 U-统计量的有效性控制。高阶 U-统计量的 bias 控制常涉及条件期望比（如 HOIF 中的 \(\mathbb{E}[U_k | U_{k-1}] / U_{k-1}\)），研究者可定义“U-statistic E-value”并用本文公理推导其 validity 的唯一形式。这可行因为：研究者 very_familiar with computation of higher-order U-statistics，且 HOIF 理论中已有类似期望比的结构。

四、延伸与下一步¶

沿引用链的阅读路线 - 地基：先读 Wang & Ramdas (2022) 理解 E-value 在多重检验中的原始动机；再读 Grünwald (2024) 理解 expected loss 框架与 \(L(d_\alpha)=1/\alpha\) 的启发式选择。 - Frontier：读 Koning (2024) 理解连续检验与广义 NP 引理；读 Koning (2025) 理解条件框架与 certainty equivalent \(\rho\) 的引入（本文的直接前作）；读 Chugg et al. (2026b) 理解 admissibility 路线（本文未展开的竞争视角）；读 Chugg et al. (2026a) 理解渐近 post-hoc 推断（本文未触及的渐近设定）。

假设扰动 - 扰动假设：去掉外生随机化假设（\(U \sim \text{Unif}[0,1]\)），仅允许非随机化检验 \(\phi(\alpha): \mathcal{X} \to \{0, d_\alpha\}\)。 - 结论变化：Theorem 3.1 的证明依赖外生随机化构造任意 \(p_\alpha(\phi) \in [0,1]\)；去掉后，\(p_\alpha(\phi)\) 只能取特定值（如 \(\{0, 1/n, 2/n, \ldots\}\) 对离散分布），Nesting Axiom 可能不再唯一逼出 \(L(d_\alpha) = 1/\alpha\)，而是逼出 \(\ell_\alpha\) 在这些特定 \(p\) 值上满足 \(p \ell_\alpha \leq 1 \iff p \leq \alpha\)，允许 \(\ell_\alpha\) 在其他点有偏差。 - 需要的新工具：离散分布下拒绝概率的可达性刻画（类似随机化检验的可达性定理）。 - 落入哪一档：B 档中期可做——需补非随机化检验的可达性文献（如 Lehmann & Romano 2005 的 Chapter 3），补完后可具体计算离散分布下 \(\ell_\alpha\) 的允许偏差范围。

理解检测题 - 题目：考虑一个离散分布 \(P\) 下水平 \(\alpha = 0.05\) 的非随机化检验 \(\phi(0.05)\)，其拒绝概率只能是 \(p = 0.04\) 或 \(p = 0.06\)（无法精确达到 0.05）。若去掉外生随机化假设，Nesting Axiom（\(p \leq 0.05 \iff p \ell_{0.05} \leq 1\)）对 \(\ell_{0.05}\) 施加什么约束？\(\ell_{0.05}\) 是否仍被唯一逼出为 \(1/0.05 = 20\)？请写出约束不等式并讨论 \(\ell_{0.05}\) 的允许范围。

Maintained by 陈星宇 · Homepage · Source on GitHub

The 'Right' Extension of Type-I Error to Data-Dependent Levels¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论