Exact uniformly most powerful postselection confidence distributions¶

作者: Andrea C. Garcia‐Angulo, Gerda Claeskens
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: KU Leuven（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12581

一、领域脉络与小综述¶

这个方向是什么¶

后选择推断（postselection inference）处理的核心问题：在数据驱动下从一组候选模型中选择一个（例如通过 AIC、BIC、Lasso 收缩或 F 检验），然后对选定模型中的某个参数进行统计推断（置信区间、假设检验）。若不考虑选择事件，直接使用选定模型的 naive 推断会因“寻找显著”的选择效应而产生偏差——选择性偏差。当前成熟度：在显式已知选择规则的情形下（例如通过 polyhedral 或 selective conditioning 框架），条件推断的理论已较为成熟，但多数方法依赖渐近近似或特定选择规则（如 Lasso 的共形推断、Lee et al. 2016）；寻找有限样本精确且最优的后选择推断方法仍是活跃方向，尤其当候选模型集合非嵌套或模型可能错误设定时。

发展脉络（从 intro 引用的工作串成一条线）¶

奠基工作：Berk et al. (2013, Annals of Statistics) 提出“后选择推断界”（PoSI），为所有可能的选择事件提供无条件保守置信区间，但并非条件推断，且保守性代价可能很大。
主要进展：Lee et al. (2016, JASA) 为 Lasso 回归提出条件推断框架，通过 polyhedral 引理将选择事件表达为线性约束，从而获得目标参数在被选变量子集上的条件高斯分布。该方法给出 p 值，但仅适用于 Lasso 且需已知 model selection 的具体形式。
平行路线：Fithian et al. (2014, arXiv) 与 Tian & Taylor (2018, JRSS-B) 发展了更一般的条件似然推断方法，尤其是面向步进回归或一般目标选择规则。但上述方法在最优性上缺少统一保证——它们提供有效的条件推断，但未宣称在给定选择事件下是 uniform most powerful 的。
当前 frontier & 本文的位置：Garcia-Angulo 与 Claeskens（即本文）将条件置信分布（conditional confidence distribution）引入后选择推断，并证明其在有限样本下是均匀最优的（UMP）。这一结果填补了“有限样本精确 + 最优性”的空白，但仅针对正态线性模型及可表达为可测事件的模型选择规则。

子线索聚类¶

线索 1：无条件保守推断（Berk et al. 2013; Buja et al. 2019）：给出与选择无关的界，适用于任意选择规则，但区间宽且无最优性。
线索 2：条件推断（polyhedral / selective conditioning）（Lee et al. 2016; Tibshirani et al. 2016; Fithian et al. 2014; Taylor & Tibshirani 2015）：将选择事件转化为约束，推导条件分布，提供有效后选择推断。主流方法多依赖所选统计量的截断高斯分布，利用充分性技巧，但最优性只在单边检验中被讨论（如 Lee et al. 2016 的 UMP 性质仅在特定方向成立，且需本质上是双边条件检验）。本文声称在所有置信水平下都达到均匀最优——这是对双边推断的重要提升。
线索 3：置信分布与置信曲线（Schweder & Hjort 2002; Cunen et al. 2018）：置信分布作为推断的完整“篱笆”，可在所有水平上给出检验与区间。本文将此框架与条件推断结合。

这个方向在追问的核心问题（2-4 个）¶

条件推断能否在有限样本下做到均匀最优（而不仅仅是有效）？最优性标准是：在给定选择事件后，所有置信水平下的检验功效 / 区间覆盖的功率无法被任何其他 level-α 条件检验或置信集提升。
模型错误设定对条件推断的影响：大多数条件推断方法假设模型正确（例如线性正态误差），本文考虑了候选模型可能错误设定的情形。
多模型选择与非嵌套选择：当选择规则不是由单一检验或 Lasso 路径产生时，如何描述选择事件并做条件推断？
计算效率与最优性的权衡：polyhedral 方法需要枚举约束，计算量随变量数指数增长；本文的方法是否更具可扩展性？

⚠️ 作者的 framing（来自摘要与已知文献推断）¶

作者将缺口 frame 为：现有后选择推断方法未同时实现有限样本精确性与均匀最优性。他们强调，通过构建条件置信分布并利用密度族的凸性，可以得到有限样本下在所有置信水平上的 UMP 双向检验与置信区间。他们[淡化/回避]了无条件方法（PoSI）的简单性，也未曾讨论高维设定（p > n）或非参数选择规则；本文候选模型集是有限个正态线性模型（可能包含错误设定）。什么明显该被引/该存在却没出现？ 从摘要看，论文没有提及选择性推断中广泛使用的方向推断（directional inference）（Kim et al. 2020, 2021 等关于后选择方向的 UMP 性质的讨论），且未涉及与 post-selection 下的 Lasso 置信区间（如 de-biased Lasso, Zhang & Zhang 2014）的比较——但后者是渐近方法，可能超出有限样本范畴。

张力¶

未见明显对立引用。但存在一种张力：Lee et al. (2016) 的 polyhedral 方法也声称其条件检验是单边 UMP（在给定方向下），但本文将其扩展为双边 UMP 且在所有置信水平下——如果属实，这是一个实质性加强。不过，polyhedral 框架可以处理更复杂的非嵌套选择规则（如所有变量子集），本文的候选模型集是固定的有限个，通用性可能更受限制。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

可观测数据：(Y, X)，其中 Y ∈ ℝⁿ 是响应向量，X ∈ ℝ^{n×p} 是设计矩阵，所有变量均为实值。
候选模型：假设有 K 个回归模型 M₁, ..., M_K，每个模型 M_j 对应一个参数子向量 β(j) ∈ ℝ^{p_j}（通常是 X 的列的子集），以及一个误差分布 ε ~ N(0, σ² Iₙ)。
选择规则：给定数据 (Y,X)，根据某个规则 S(Y,X) 选定一个模型，规则必须是一个可测映射，即选择事件 E = {模型 M_k 被选} 是可测集。常见选择规则：AIC最小、BIC最小、F检验显著性等。
目标参数：选定模型 M_k 后，我们关心其中的焦点参数（focus parameter）θ，通常为某个回归系数或线性组合 c^T β(k)。
潜在量/不可观测：未选中的模型的参数 β(j) 在推断时刻不可直接使用；选择事件导致 θ 及其估计量 \hat{θ} 的分布被截断，因此 naïvely 的置信区间失效。
推断目标：构造一个关于 θ 的条件置信分布 C(θ | S=M_k)，满足：
P_{Y|S}( θ ∈ C(θ | S) ) = 1-α 对所有 α，且 C(θ | S) 的每个 level-α 区间都是 uniformly most powerful (UMP) 在 conditional level-α 类中。

第二步：最小内核——两个嵌套正态模型的简单例子¶

最简特例：p=1 或 p=2 且嵌套？实际上，更清晰的例子是：考虑两个模型：
M₁: Y = β₁ X₁ + ε （只包含一个预测变量 X₁）
M₂: Y = β₁ X₁ + β₂ X₂ + ε （增加 X₂）
选择规则：当 t 检验 H₀: β₂=0 在显著性水平 α₀ 下显著时选择 M₂，否则选择 M₁。因此选择事件 E₂ = {|t| > c}（t 统计量绝对值大于临界值 c）。
可观测数据：(Y, X₁, X₂), 误差项 ε ~ N(0, σ² Iₙ).
目标参数：假设我们最后选定 M₁，焦点参数为 β₁（选定模型中 X₁ 的系数）。
最小内核问题：在条件 {未拒绝 H₀: β₂=0} 下，如何构造关于 β₁ 的置信分布，使得它在条件水平下最优？
核心数学困难：给定选择事件，标准 OLS 估计量 \hat{β₁} 的分布不再是正态的，而是截断正态（因为事件依赖于 \hat{β₂} 的 p 值），且截断区域随真实 β₁ 变化。因此不能直接使用 naive 的 t 分布。
本文关键想法：条件于选择事件后，样本的条件密度属于一个单参数指数族（或更一般的凸密度族）。利用 Lehmann-Romano 的 UMP 置信区间构造理论：如果对于每个参数值 θ₀，条件在 θ=θ₀ 下的假设 H₀: θ=θ₀ 的似然比检验是 UMP，则倒置这些检验得到的最优置信区间族构成一个最优置信分布。作者证明条件密度族的凸性保证了这种 UMP 似然比检验的存在（类似于 Neyman-Pearson 引理在凸族下的扩展）。
在这个特例下的直观验证：给定 { |t| ≤ c }，条件似然可以写成关于 β₁ 的指数族形式（经过充分统计量变换后，指数族参数为 β₁，无干扰参数）。因此存在 UMP 检验（单参数指数族的标准结论）。倒置这些检验得到的所有置信区间集合形成一个置信分布，且在所有水平上是最优的。
此特例揭示了论文的一般结论：只要选择事件可测且条件密度建立在指数族（或相关凸族）上，就能得到 UMP 条件置信分布。论文的一般化在于处理 K 个可能错误设定的模型（正态线性但残差独立同分布）、复杂选择规则（如 AIC 最小），以及可能存在干扰参数（如 σ²）的情形。核心还是凸性（或单调似然比）的论证。

三、这篇论文做了什么¶

三句话¶

论文研究了在多个（可能错误设定的）正态线性回归模型中选择一个之后，对选定模型中的焦点参数进行有限样本精确的后选择推断问题。
核心工具是条件置信分布：作者将选择事件视为可测条件，并在此基础上构建了条件密度，利用密度族的凸性证明了在所有置信水平下的均匀最优性（UMP 检验和 UMP 置信区间）。
主要结论：条件于选择事件后，可以构造一个精确的、最优的、双侧/单侧的置信分布；该分布避开了渐近近似或 bootstrap，且覆盖所有显著性水平。

关键设定与假设（在最小记号基础上补全）¶

模型族：Y = X^{(m)} β^{(m)} + ε，其中 X^{(m)} 是模型 m 的设计矩阵（可能并非 full rank；但假设每个模型都满秩？）；误差 ε ~ N(0, σ² Iₙ)，但作者允许模型错误设定，即真实分布未必包含于候选模型集中——然而由于正态线性假设直接用于似然构建，错误设定是指候选模型可能不是真实模型，但推断仍基于似然，并非稳健到任意分布。
选择规则：必须是可测函数 S(Y) ∈ {1,…,K}；具体计算时通常通过极小化某个信息准则（如 AIC, BIC）或基于 F 检验。作者假设选择规则是依已有数据确定性的（非随机化）。
焦点参数：选定模型后，参数为该模型中某个可识别线性组合 θ = u^T β^{(m)}，通常是单个系数。
条件密度构造：给定 S(Y)=k 的条件密度 p(y | S=k) 是通过对全样本密度在 {S=k} 上积分归一再得到。为此需计算选择事件的概率，这通常需要求解截断概率，利用正态线性模型下充分统计量的几何性质（投影、残差等）。
最强假设：条件密度族 { p_θ(·|S=k) } 具有凸性（convex 性质或单调似然比），这是证明 UMP 的关键。作者需要在引理中验证该凸性成立。这一条件比普通指数族更一般。
相比已有文献的放宽/强化：与 Berk et al. (2013) 无条件界相比，本方法提供了更精确的条件推断，但代价是必须精确指定选择规则且计算条件概率；与 Lee et al. (2016) 相比，本方法不限于 Lasso 且宣称双边 UMP，但假设数据线性正态，而 Lee 的 polyhedral 方法可推广到广义线性模型（通过拉普拉斯近似）。

主要结果（理论型，据摘要推断至少两个核心定理）¶

定理 1（条件密度最优性）：对每个模型 M_k 和焦点参数 θ，条件于选择事件 S=k 的置信分布 C(θ | S=k) 是 UMP 类的：对于任意 α ∈ (0,1)，条件置信区间 I_α 满足
P_θ(θ ∈ I_α | S=k) = 1-α，
且对于任意其他条件置信区间 J_α 满足同一覆盖水平，有
P_θ(θ ∉ I_α(θ') | S=k) ≤ P_θ(θ ∉ J_α(θ') | S=k) 对所有 θ' ≠ θ 成立（即失败率最小）。
必要条件：条件密度族是凸的，且模型选择规则是适当的。
技术难点：需要验证凸性，这通常依赖于选择事件是仿射半空间或更一般的凸集的交集（对于基于二次型的选择，选择事件不一定是凸的，但可分解为凸区域）。作者需要计算截断似然的凸性。
定理 2（条件置信分布构造）：该分布可以通过倒置一组 UMP 条件检验得到，且可以给出解析形式（至少对于单侧和简单双边情形）。检验统计量是条件似然比，关键分布是混合（conditional）分布，可通过数值积分或精确截断正态得到。

推论：后选择假设检验（如 H₀: θ = θ₀）的条件 p 值可以精确计算。

直觉：在给定选择事件下，条件似然形成一个单调似然比族，故存在 UMP 检验；倒置这些检验即得最优置信区间。

可能的一个引理：计算条件密度时，p(y | S=k) 可以表达为 p(y) / P(S=k | θ, σ²) 在集合 {S=k} 上的归一化，其中 P(S=k|θ, σ²) 依赖于参数。作者可能利用了这一事实将复杂的条件形似转换为一个高斯积分问题，并通过多维截断正态的概率函数给出闭合解（要求选择事件为凸集在伸缩后的形式）。

证明路线与技术技巧¶

整体路线（3-5 步）：
重写选择事件：利用模型比较的充分统计量（如残差平方和、AIC 差异）将选择规则 S(Y)=k 表述为对某个随机向量 T(Y) 的约束：T(Y) ∈ R_k，其中 R_k 是欧几里得空间中的可测区域（通常为半空间/凸锥）。这一步依赖于正态线性下的几何——每个模型的残差平方和分布可通过矩阵投影表示。
推导条件分布：写出全样本似然，限制在 T∈R_k 上，再除以区域概率得到条件密度。由于 Y 是正态且选择规则基于二次型或线性组合，T(Y) 通常联合正态或卡方分布，因而条件密度可表示为截断正态（或混合正态）形式。
建立指数族/凸性：在给定 θ 下，条件密度 p_θ(·|S=k) 作为 θ 的函数具有单调似然比或者凸性（如存在充分统计量使 p_θ/p_θ' 单调）。作者证明该凸性来源于原模型的正态线性性质及选择事件的凸性（或引自之前关于指数族截断的已知定理，如 Lehmann 1986）。关键工具：Karlin–Rubin 定理（对于有权比例密度族，单边检验的 UMP 存在性）和Lehmann–Romano Theorem 4.4.1（凸密度族存在 UMP 区间）。
构造最优检验：利用 Neyman-Pearson 引理在凸族下的推广，对每个 θ₀ 构造 H₀:θ=θ₀ 的条件 UMP 检验。拒绝域为 {y: p_θ₀(y|S) / p_θ₁(y|S) < c} 对于某个 θ₁（备择方向），或更一般的凸风险函数。
倒置检验：倒置所有水平 α 的接受域得到置信区间族，并证明这些区间组成一个置信分布——即 C(θ | S) = {θ: 条件检验不拒绝 θ} 对所有 α 是嵌套的闭区间集合。作者可能还需要证明区间是无偏的（保证覆盖率）。
关键跳跃点：最吃功夫的是条件密度的凸性证明。若选择事件基于 AIC/BIC，则需要计算选择概率对参数 θ 的依赖关系；当候选模型非嵌套时，选择区域可能不是凸集，此时凸性可能不成立或需要更细致的论证。作者可能限制选择规则为那些使选择区域在充分统计量空间中为凸集的规则（例如基于比较回归平方和或 F 检验的序列），或者证明对一般确定性的可测规则，凸性仍可被验证。这是本文宣称相对于现有条件推断的突破点。
技术技巧点名：
截断正态概率的解析或数值计算：P(S=k | θ, σ²) 常为多维高斯正交区域概率，可用 mvtnorm 等计算（但这不影响理论）。
似然比与充分统计量：利用 β̂ 和 RSS 的正交性，将条件密度分解为两个条件部分，简化凸性分析。
Lehmann–Romano 的凸置信分布理论：直接应用该框架到后选择推断，可能是本文的核心方法论工具。

真实例子与应用（据摘要提及“finite sample exact”，但未明确给出数据应用）¶

本文为纯理论 + 模拟例子（推测）：
典型的后选择推断论文会包含模拟研究，比较本文方法与 naive、PoSI、polyhedral 方法的覆盖和区间长度。由于用户只提供了摘要，无法确认，但可以合理推断作者至少提供了模拟例子，例如：

数据生成：从正态线性模型生成 n=50, p=10，候选模型为子集选择（如 stepwise 或 best subset by AIC）。选择规则为 AIC 最小或显著性检验。
比较：计算条件置信分布下的区间长度、实际覆盖率与 nominal 的偏差，并与无条件 PoSI 区间、条件方向推断（若适用）对比。
结果：本文方法条件覆盖率接近 nominal（有限样本精确），区间长度短于 PoSI（更高效），且优于 naive 覆盖（naive 严重欠覆盖）。
这个例子想说明：验证最优性理论在实际选择下成立；展示有限样本性质。

若论文无任何实证例子，则应写“本文为纯理论，无实证例子”，但更可能是含模拟。

🔎 结论是否比证明窄¶

窄处：作者可能只在嵌套模型集或选择规则为二次凸约束的情形下严格证明了凸性，却在讨论中暗示适用于所有确定性可测选择规则。这部分可能存在 conjecture 或局限，需读原文确认。
具体推测：在多模型非嵌套、且选择基于信息准则（如 BIC）时，选择事件的形状复杂（可能非凸），凸性不一定成立。论文可能假设了选择规则可写为充分统计量的线性不等式——这与 stepwise 类选择一致，但不覆盖所有变量选择过程。

四、开放问题（扎根具体语句）¶

扩展到非正态误差与高维设定：本文假设误差正态且模型线性；但许多后选择推断中，误差分布未知或高维（p>n）情形更为常见。如何在高维稀疏回归中（如 Lasso 后）获得类似的条件 UMP 置信分布？——这涉及工具变量或惩罚似然的非凸条件区域。扎根于论文的局限性：结论明确限定在“正态线性回归模型”，属于该假设的收紧。
非嵌套模型集与一般选择规则的最优性：当模型集非嵌套且选择基于如 AIC 的全局准则时，选择事件区域不一定是凸集，凸性失效可能导致 UMP 置信分布不存在或需更换最优性准则（如局部最优）。可读论文 Section X 或未来工作建议。
计算可扩展性：条件推断需要计算选择事件的概率，对 K 个模型和 n 较小时可计算，但当候选模型数呈指数增长时（如最佳子集），精确计算选择概率是 #P 难问题。本文未提供近似策略。可扎根于论文“finite sample exact”的声明，意味着计算可行性仅限于少量模型。
与其他最优性标准的联系：本文使用了“在所有置信水平下 UMP”的强标准；但后选择推断中也有考虑“条件正确且渐近有效”（如选择性似然比检验）。是否存在一个从有限样本精确到渐近对于样本量增长的自然过渡？——这是作者可能未深究的衔接问题，可查阅论文引言对 Lee et al. 的讨论。

Maintained by 陈星宇 · Homepage · Source on GitHub