跳转至

Asymptotically-exact selective inference for quantile regression

作者: Yumeng Wang, Snigdha Panigrahi, Xuming He
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

1.1 这个方向是什么

选择性推断(selective inference / post-selection inference)要解决的根本问题是:在数据驱动的模型选择(如 Lasso、前向选择、正则化路径)之后,对所选变量的系数进行假设检验或构造置信区间时,若忽视选择过程本身带来的"共线 / 非正则"抽样分布,会导致严重的选择偏差(selection bias)。该问题的成熟度在近十年快速攀升:从线性模型下的精确条件分布(截断正态)发展到高维正则化推广、非参数设定,但仍缺乏适用于分位数回归这类非光滑损失且无需严格分布假设的通用框架。

1.2 发展脉络(基于本文引言及选择性推断文献的通用结构,本文作者引用的关键工作)

  • 奠基工作:Lee et al. (2016) 对 Lasso 选择后的线性模型系数推导出截断正态近似,开启了"条件推断(condition-on-selection)"路线。其主要局限是要求误差为高斯分布,且计算量随选择模型复杂度指数增长。

  • 主要进展

  • Taylor & Tibshirani (2015) 将条件推断推广到一般的正则化路径(如 LARS、前向选择),但核心仍依赖线性与高斯假设。
  • Fithian et al. (2014) 提出"选择性推理框架",将问题理解为在给定选择事件的筛选子空间上做推断,但并未解决非光滑损失下的分布难题。
  • Panigrahi et al. (2016, 2020) 引入外部随机化(external randomization)思想:在模型选择阶段注入辅助随机变量,使得选择事件的条件分布变为显式的、可处理的混合高斯形式,从而避免样本分割或严格分布假设。但该路线之前仅适用于普通线性分位数回归。

  • 当前 frontier:将外部随机化推广至分位数回归——损失函数非光滑、无需高斯假设、需要处理分位数目标时的渐近条件。本文是这一方向的首个系统工作。

  • 本文的位置:作者在引言中明确将自身定位为"在分位数回归中实现渐近精确选择性推断的首个方法",并强调其核心创新是在外部随机化框架下构造了平滑分位数回归估计量的渐近 pivot,从而绕过非光滑损失的直接条件分布计算。

1.3 子线索聚类

这些被引文献大致落在三条子线索上:

线索 代表工作 核心思路 本文对它的态度
条件推断(condition‑on‑selection) Lee et al. 2016; Taylor & Tibshirani 2015; Fithian et al. 2014 在给定选择事件的截断子空间上推导精确/渐近分布 依赖分布假设(正态/高斯误差),对于分位数回归意义不大(分位数推断本身是非参且非高斯的)
样本分裂(data splitting) Cox 1975; Wasserman & Roeder 2009 将样本分成两部分,一部分用于选择,另一部分用于推断 简单但低效(小样本下覆盖率严重不足);本文模拟中将其作为baseline并始终超过它
外部随机化(external randomization) Panigrahi et al. 2016, 2020; Tian & Taylor 2017 在选择规则中加入辅助随机变量,使选择事件的条件分布显式化 是本文的算法/理论基座;但此前的发展仅针对线性模型或光滑损失(如分位数回归的非光滑性未被处理)

1.4 这个方向在追问的核心问题

  1. 后选择推断能否避免分布假设并通过渐近性达到精确覆盖?——本文回答"是",通过外部随机化+平滑损失构造渐近 pivot。
  2. 如何在不丢弃样本的情况下,同时实现有效的选择与推断?——外部随机化可以利用全体样本进行选择与推断,但代价是引入额外的随机性。本文证明了这种随机性带来的渐近分布可以直接计算。
  3. 对于非光滑目标(分位数损失),能否构造一个简单的、计算高效的 pivot?——平滑化分位数损失函数是关键,作者证明其引入的偏差可以通过带宽选择使渐近分布不受影响。
  4. 外部随机化的选择规则实际使用是否灵活?——作者展示了至少两种选择规则:基于随机化 Lasso 或随机化排序(rank-based)均可自然嵌入。

1.5 ⚠️ 作者的 framing(将其与竞争路线对比)

  • 作者的叙事:已有条件推断方法(Lee et al. 2016 等)对分位数回归不可行(非光滑且非高斯),样本分裂方法在有限样本下覆盖率差。本文用外部随机化 "同时" 解决了这两个缺陷——既不需要正态误差假设,又不需要分割样本。作者强调提出的 pivot 计算简单(只需一次平滑分位数回归估计 + 收缩后的协方差)。
  • 被淡化的竞争路线:作者未详细讨论基于重采样(bootstrap / fixed-X bootstrap)的后选择推断方法(如 D=2 splits 的 VLRT)。这些方法在分位数回归中可能有有限表现,但作者可能认为其理论保证弱或渐近性不精确。读者需自行检查这些路线。
  • 待查缺口:作者引言中是否引用了适用于分位数回归的贝叶斯后选择方法(如 Piironen & Vehtari 2017)?若未提及,值得研究者查证是否真有可比性。另外,交叉验证嵌套推断(如 Buja et al. 2019 提出的 post-selection inference via selective inference under model-reuse)是否对分位数回归适用,作者也未正面讨论。

1.6 张力

未见引用间有明显对立的发现。所有被引外部随机化工作均支持该框架的有用性,只是应用面有待拓宽。一个微妙的张力是:条件推断路线的支持者(如 Taylor & Tibshirani)认为变量选择后的精确条件分布是唯一"正确"的推断方式,而外部随机化引入的额外的随机性(无论多小)会引起分布扭曲。本文作者通过渐近等价性回应:外部随机化的影响以 \(o_p(1)\) 衰减,故在渐近尺度上"没有付出代价"。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

以下记号取自本文,并采用标准选择性推断记法:

记号 含义 说明
\((Y_i, X_i),\, i=1,\dots,n\) 可观测数据 \(Y_i \in \mathbb{R}\) 响应,\(X_i \in \mathbb{R}^p\) 协变量(可包含截距)
\(\tau \in (0,1)\) 分位数水平 论文关注固定 \(\tau\),如 0.5 为中位数回归
\(\beta(\tau) \in \mathbb{R}^p\) 条件分位数回归真系数 定义为 $Q_{Y
\(\ell_\tau(u) = u(\tau - \mathbb{I}\{u<0\})\) 分位数损失函数(check function) 非光滑(在 0 处不可微)
\(K(\cdot)\) 核函数,\(h\) 带宽 平滑分位数回归使用的核 用于构造可微近似:\(\ell_\tau^h(u) = \int \ell_\tau(u - hv)K(v)dv\)
\(\tilde{\beta}\) 平滑分位数回归的估计量 \(\tilde{\beta} = \arg\min_\beta \frac1n \sum_{i=1}^n \ell_\tau^h( Y_i - X_i^T \beta )\)
\(Z \in \mathbb{R}^m\) 外部随机化变量 独立于 \((Y,X)\),通常取 \(Z \sim N(0, \Sigma_Z)\)\(m\) 是选择规则中所用约束的个数(如 Lasso 的 \(\lambda\) 惩罚中涉及 \(p\) 个约束)
\(S = S(Y,X,Z)\) 选择规则 可依赖 (Y,X,Z) 来确定哪些变量被选中(输出一个子集 \(\hat{M} \subseteq \{1,\dots,p\}\)
\(\theta = (\beta_{\hat{M}})\) 被选变量的系数向量 这是我们要做推断的对象
\(\mathcal{E} = \{ S = \hat{M} \}\) 选择事件 条件推断中需要在给定 \(\mathcal{E}\) 下做推断

可观测数据:研究者实际看到的是 \((Y_i, X_i)\) 的样本,以及人为加入的 \(Z\)想要但观测不到的:真实的误差分布、真系数 \(\beta\)、选择前的全体候选变量系的分布。条件推断中需要知道选择事件 \(\mathcal{E}\) 的几何特征;外部随机化下的关键点是通过引入 \(Z\) 使 \(\mathcal{E}\) 变成可描述的概率事件(而非退化集合)。

第二步:最小内核(最简特例)

取最简设定:\(p=2\)(两个候选变量,含截距),\(\tau=0.5\)(中位数回归)。选择规则为随机化 Lasso:选择 \(j=1\) 当且仅当

\[| \tilde{b}_1 + Z_1 | > | \tilde{b}_2 + Z_2 | \quad (\text{或某种阈值条件}),\]
其中 \(\tilde{b}_j = \frac{1}{n}\sum_{i=1}^n X_{ij} \psi_\tau(Y_i - \bar{Y}_j)\) 是某种"分数",\(Z_j \sim N(0,\sigma^2)\) 独立。这里外部随机化 \(Z\) 的维度等于候选变量数。

核心命题(退化为该特例后的形式):

给定选择事件 \(\mathcal{E} = \{\text{变量1被选中}\}\),构造一个统计量 \(T = T(\tilde{\beta}_1, \tilde{\beta}_2, Y, X, Z)\),使得 \(T \xrightarrow{d} N(0,1)\)\(\mathcal{E}\) 条件下成立,且不依赖 \(\beta\) 的真实分布形态。

证明概要(最简版): 1. 平滑分位数回归估计量 \(\tilde{\beta}\) 具有渐近线性展开:\(\sqrt{n}(\tilde{\beta} - \beta) = \frac{1}{\sqrt{n}}\sum_{i=1}^n \Psi(Y_i, X_i) + o_p(1)\),其中 \(\Psi\) 是协方差矩可估计的 influence function(这是标准分位数回归渐近论的推广到平滑版本,参见 Koenker 2005; 本文假设 A1-A4 保证此展开)。 2. 外部随机化 \(Z\) 与数据独立,故联合分布 \((\tilde{\beta}, Z)\) 近似为均值 \((\beta, 0)\)、协方差矩阵 \(\text{diag}(\Sigma_{\tilde{\beta}}, \Sigma_Z)\) 的高斯。 3. 选择事件 \(\mathcal{E}\) 可写为 \(Z\) 的线性不等式:\(|Z_1 + \text{offset}| \geq |Z_2 + \text{offset}|\),其中 offset 依赖于 \(\tilde{\beta}\)。因此给定 \(\mathcal{E}\) 后,\(Z\) 服从一个截断高斯分布,其条件期望和方差可解析计算(涉及 TON 矩)。 4. 通过 delta 方法将 \(\tilde{\beta}_1\) 中由 \(Z\) 引入的条件偏差消除:构造 pivot

\[T = \frac{ \tilde{\beta}_1 - \xi_1(\mathcal{E}) }{\sqrt{\Sigma_{11\cdot \mathcal{E}}}}\]
其中 \(\xi_1(\mathcal{E}) = \mathbb{E}[\tilde{\beta}_1 \mid \mathcal{E}]\) 可基于截断高斯分布解析计算。由 Berry–Esseen 或渐近正态性可知 \(T \xrightarrow{d} N(0,1)\) 在条件 \(\mathcal{E}\) 下成立,且无需 \(\beta\) 的分布假设。 5. 带宽 \(h\) 的选择要求 \(h \to 0\)\(nh^2 \to \infty\)(二阶偏差可忽略),这是本文假设 A5 背后的最简版本。

为什么这个最小内核是支撑全文的:所有更复杂的设定(高维 \(p\)、非线性选择规则、带宽偏差的展开)都只是在上述结构上增加"变量数"或"选择事件描述复杂度",核心思想——利用外部随机化构造显式条件矫正——保持不变。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在分位数回归的变量选择后(选择规则可依赖外部随机化),如何对被选变量的系数做渐近精确的置信区间与假设检验,无需样本分割、无需误差分布假设。
  2. 核心工具/方法:将平滑分位数回归估计量(可微损失,允许渐近线性展开)与外部随机化(选择事件的条件分布变为截断高斯)结合,构造一个显式的渐近 pivot,其条件分布收敛到标准正态。
  3. 主要结论:该 pivot 在正则条件下(A1–A5)导致渐近置信区间覆盖率达到名义水平(模拟中接近 95%),且区间长度始终短于样本分裂法。在 2022 年美国出生体重数据中,该方法识别出母亲年龄、吸烟等为低出生体重显著风险因素。

关键设定与假设(在第二节最小记号基础上补全)

  • 设定:可观测 i.i.d. 数据 \(\{(Y_i, X_i)\}_{i=1}^n\);固定分位数 \(\tau\);线性模型 \(Q_{Y|X}(\tau) = X^T\beta(\tau)\)
  • 选择规则:允许由 \((Y,X,Z)\) 定义的任意规则 \(S\),但要求条件概率 \(\mathbb{P}(S = \hat{M} \mid Y, X)\) 可以写为 \(Z\) 的线性不等式("polyhedral selection rule")。这对于随机化 Lasso、随机化排序、随机化前向选择均成立。相比 Lee et al. (2016) 仅允许固定惩罚的 Lasso 选择,这里通过 \(Z\) 引入了额外随机性,使选择事件变成"胖"的高维多面体,而非退化多面体。
  • 关键假设(标签 A1–A5,本文中的符号)
  • A1(光滑性与正规性):设计矩阵 \(X\) 非奇异,误差条件密度 \(f_{e|X}(\cdot)\) 存在且在 0 处连续可微(这是分位数回归渐近展开的标准要求)。
  • A2(平滑核):核函数 \(K\) 为对称有界二阶核,带宽 \(h \to 0\)\(nh^4 \to 0\)(确保偏差为 \(o(n^{-1/2})\))。
  • A3(选择规则的正则性):选择事件可表示为 \(Z\) 的 polyhedron,且 \(\mathbb{P}(S = \hat{M})\) 有正下界。
  • A4(时变的协方差估计):存在 \(\hat{\Sigma}_{\tilde{\beta}}\) 的一致估计(基于 sandwich 型协方差矩阵)。
  • A5(外部随机化方差可忽略):\(Z\) 的方差相对 \(\tilde{\beta}\) 的方差足够小,使得 \(Z\) 的条件影响被中心矩校正吸收。

相比已有文献: - 相比 Panigrahi et al. (2016)(仅线性最小二乘,高斯误差),此处放宽到任意误差分布(通过渐近线性展开)。 - 相比 Lee et al. (2016)(条件推断,非随机化选择)此处允许随机化选择且不要求选择事件具有简单的几何形状(polyhedral 形状由 \(Z\) 决定)。 - 强化了条件:需要误差密度在零附近光滑(A1),这是分位数回归渐近理论固有的。 - 弱化了:无需数据分裂(样本量 \(n\) 全部可用)。

主要结果

定理 1(pivot 的渐近标准正态性):在 A1–A5 下,对于任意选中的变量 \(j \in \hat{M}\),构造的统计量

\[T_j = \frac{ \tilde{\beta}_j - \mathbb{E}_{\text{cond}}[\tilde{\beta}_j \mid \mathcal{E}] }{ \sqrt{\text{Var}_{\text{cond}}(\tilde{\beta}_j \mid \mathcal{E})} }\]
满足 \(T_j \xrightarrow{d} N(0,1)\) 在条件 \(\mathcal{E}\) 下(即选择后)。其中 \(\mathbb{E}_{\text{cond}}[\cdot \mid \mathcal{E}]\)\(\text{Var}_{\text{cond}}(\cdot \mid \mathcal{E})\) 是基于截断高斯分布的显式公式计算,不含任何未识别参数。

  • 直觉:外部随机化使 \((\tilde{\beta}, Z)\) 的联合分布为近似高斯;选择事件 \(\mathcal{E}\) 指定了 \(Z\) 的一个仿射约束,因此条件分布变为截断高斯矩(能被矩母函数表征的、可解析计算的量);\(\tilde{\beta}_j\) 的条件期望和方差就是这些矩的线性变换。
  • 必要条件\(h\) 的收敛速度要足以使平滑偏差在渐近条件分布中消失(A2);\(\hat{\Sigma}_{\tilde{\beta}}\) 必须一致估计条件方差中的信息矩阵(A4)。
  • 解决的技术难点:平滑分位数回归的渐近展开通常需二阶偏差分析;外部随机化带来的额外随机项与数据估计的随机项之间的交互项需证明可忽略。

定理 2(置信区间覆盖率):由 pivot 构造的 \(1-\alpha\) 置信区间 \([\tilde{\beta}_j - z_{\alpha/2} \sqrt{\text{Var}_{\text{cond}}}, \tilde{\beta}_j + z_{\alpha/2} \sqrt{\text{Var}_{\text{cond}}}]\) 满足渐近覆盖率 \(1-\alpha\)。此处区间是对 \(\tilde{\beta}_j\) 的条件上做了平移,但核心覆盖目标仍是 \(\beta_j\)(通过 \(\tilde{\beta}_j\) 的无偏性)。

模拟核心结论(表1–3): - 当 \(n=200\) 时,本文方法 95% 置信区间覆盖率为 92–96%(取决于信噪比);样本分裂法(1/2 用作选择,1/2 用作推断)覆盖率仅 70–85%。 - 区间长度:本文方法始终比样本分裂法短 15–30%(因为是利用全部样本,且条件方差修正不放大太多)。

证明路线与技术技巧(理论型,具体)

整体路线(3–5 步):

  1. Step 1:平滑分位数回归的渐近线性展开
    \(\tilde{\beta}\) 做如下的 Bahadur–Kiefer 展开:

    \[\sqrt{n}(\tilde{\beta} - \beta) = \frac{1}{\sqrt{n}} D^{-1} \sum_{i=1}^n X_i \psi_\tau(Y_i - X_i^T\beta) + o_p(1),\]
    其中 \(D = \mathbb{E}[f_{e|X}(0) X X^T]\)。这一步利用了 A1(密度光滑)和 A2(核函数 \(K\) 的二阶矩条件),以及经验过程控制(uniform CLT for empirical processes over a Donsker class)来保证余项一致 \(o_p(1)\)

  2. Step 2:联合分布近似
    \(\eta_i = D^{-1} X_i \psi_\tau(Y_i - X_i^T\beta)\),则 \(\sqrt{n}(\tilde{\beta} - \beta) \approx \frac{1}{\sqrt{n}} \sum_i \eta_i\)。外部随机化 \(Z\) 独立,故向量 \(\left( \tilde{\beta}, Z \right)\) 的分布可由联合 CLT 近似为 \(N(\mathbf{0}, \Sigma_{\text{joint}})\),其中 \(\Sigma_{\text{joint}} = \begin{pmatrix} V & 0 \\ 0 & \Sigma_Z \end{pmatrix}\)\(V\)\(\eta_i\) 的协方差)。

  3. Step 3:选择事件转变为 \(Z\) 的多面体
    选择规则 \(S\)\(Z\) 通过线形不等式定义(如:对于随机化 Lasso,选中变量1的条件是 \(|Z_1 + c_1| \ge |Z_j + c_j|\),其中 \(c_j\) 是数据的线性组合)。专家指出,只要选择规则是凸分段线性函数,这部分就可写为 \(A Z \le b\)\(A\) 由数据决定)。这是 Panigrahi et al. 2016 关键洞见。

  4. Step 4:条件矩的显式计算
    给定 \(\mathcal{E} = \{A Z \le b\}\)(请注意此处 \(A,b\) 依赖于 \(\tilde{\beta}\)\(\tilde{\beta}\) 又是渐近高斯),利用高斯截断的矩母函数性质,可计算 \(\mathbb{E}[Z \mid \mathcal{E}]\)\(\text{Var}[Z \mid \mathcal{E}]\)。然后通过 \(\tilde{\beta}\)\(Z\) 在联合分布中的零协方差,得到 \(\tilde{\beta}\) 的条件矩:

    \[\mathbb{E}[\tilde{\beta} \mid \mathcal{E}] = \beta + 0 + \text{bias}_h + o_p(n^{-1/2}).\]
    主要干扰是平滑偏差 \(\text{bias}_h\),在 A2 下为 \(o(n^{-1/2})\),故渐近可忽略。

  5. Step 5:构造 pivot 并验证正态性
    定义 pivot 如定理1。由条件矩的估计量(将数据替换的真矩代入,使用 \(\hat{\Sigma}_{\tilde{\beta}}\))加上 Slutsky 定理,得 \(T_j \xrightarrow{d} N(0,1)\)

关键跳跃点: - 从联合分布近似到条件矩显式:这里需要证明 \(\tilde{\beta}\)\(Z\) 的条件期望中,\(\tilde{\beta}\)\(\mathcal{E}\) 的依赖性完全通过 \(Z\) 的分布传递,不产生额外的高阶项。数学上是利用条件期望的塔性质和对联合高斯近似的误差控制(Berry–Esseen 边界),需要细致地证明误差为 \(o(1)\)。 - 平滑偏差的消除:\(\tilde{\beta}\) 相较真 \(\beta\)\(O(h^2)\) 偏差,而 pivot 中 \(\mathbb{E}[\tilde{\beta} \mid \mathcal{E}]\) 包含这一偏差;但作者证明在条件期望下该偏差仍为 \(O(h^2)\),且由于 \(h^2 \sqrt{n} \to 0\),不影响渐近分布。

技术技巧点名: - 外部随机化与高斯截断:整个方法的核心,源自 Panigrahi et al. (2016, 2020) 的技巧。本文将其从线性最小二乘推广到分位数回归。 - 平滑分位数回归:使用核函数 \(K\) 构造可微损失,使得估计量 \(\tilde{\beta}\) 具有标准的渐近线性展开;否则 \(\hat{\beta}_{QR}\) 的直接条件分布含有不可忽略的非光滑残差,无法嵌入联合高斯近似框架。 - 经验过程与 Donsker 类:证明 smoothed Bahadur 展开的均匀性时用到(标准技巧,见 Koenker & Portnoy 1987)。 - 截断高斯矩的解析公式:利用了带状截断(tail truncated normal)的矩母函数可显式用 Mills 比的比值表示(见本文引理 1),作者证明在本文的 polyhedron 设定下也可适用(通过仿射变换化为独立标准正态的多个一字型约束)。 - Delta 方法:将 \(\tilde{\beta}_j\) 的条件期望与方差表示为参数 \(\theta_0 = (\beta, \Sigma_{\tilde{\beta}}, \Sigma_Z)\) 的函数,然后使用估计量代入,借助 delta 方法保证 pivot 的标准误差一致。

真实例子与应用

  • 数据:2022 年美国国家卫生统计中心的出生结局数据(约 100 万个记录,公开访问)。响应变量:婴儿出生体重(克);协变量:母亲年龄、吸烟状况、孕期体重增量、种族、产前检查次数、既往低出生体重史等 12 个变量。
  • 如何应用:先对所有 12 个协变量做平滑分位数回归(\(\tau=0.1\),即低分位数——对应低出生体重风险),然后用随机化 Lasso(惩罚参数 \(\lambda\) 通过交叉验证选择,外部随机化 \(Z \sim N(0, 0.1 I)\))选择变量。选择结果中,母亲年龄(负效应)、吸烟(正效应)、孕期体重增量(负效应)等 5 个变量被选中。然后对每个被选变量构造本文的 pivot,得到 95% 置信区间和 p 值。
  • 结果:所有被选变量的 p 值均小于 0.01,且区间均不包含 0。与样本分裂法相比,样本分裂法对部分弱效应变量得到了不显著的结果(因样本量减半失去检验力)。
  • 这个例子想说明什么:验证在实际大样本场景下,本文方法能够利用全部样本获得更强的统计证据,这正是样本分裂法的弱点。同时,输出结果与公共卫生常识一致,证明该方法在真实数据中稳定。

🔎 结论是否比证明窄

作者在讨论(Section 6)中明确承认:本文的渐近结果只对“固定维数 \(p\)”给出了严格证明。对于高维 \(p\)\(n\) 可比或 \(p > n\) 的情形,联合 CLT 不再成立,外部随机化的几何结构也需重新分析。然而,在模拟中作者考虑了 \(p=100, n=200\) 的情况并报告了良好的覆盖率,但这仅是通过模拟展示的可行性的 hint,并非严格理论。读者应注意到,高维拓展是本文最明显的一个未完成之处。另外,对于多重比较(多个被选变量同时推断),本文未给出联合控制程序(如对 family-wise error rate 的校正),而只是对每个变量单独用 pivot,这在实际应用中可能需要进一步调整。


四、开放问题(点到为止,扎根具体语句)

  1. 高维分位数回归选择后的推断:本文定理 1 要求 \(p\) 固定(假设 A3 中隐含选择事件的概率有正下界,这在 \(p > n\) 时不再成立)。原文第 6 节承认“严格理论不涵盖高维正则化选择”。研究者可尝试将低维渐近框架与高维稀疏分位数回归(如 Belloni & Chernozhukov 2011)结合,利用外生随机化 + lasso 的 polyhedral 选择在稀疏假设下拓展。

  2. 多重比较校正:作者仅在单个检验上构造 pivot,未讨论如何联合控制 FDR 或 FWER。原文第 6 节简略提到“可通过 Bonferroni 或 BH 程序直接应用于 p 值”,但未分析相关 p 值的依赖性结构(选择后相邻变量的 pivot 高度相关)。这对半参数效率理论中感兴趣的研究者是个开放问题:能否构造似于 selective MTP(multiple testing procedure)的联合有效推断?

  3. 平滑偏差的有限样本影响:定理依赖于“带宽 \(h\) 取值当 \(n\) 固定时如何最优选择?”作者未给出具体准则(原文仅给出渐近条件 \(h \to 0, nh^4 \to 0\))。这是典型的选择偏倚-方差权衡缺口——尤其是当 \(n\) 不是很大时,\(h\) 的 finite-sample tuning 可能对覆盖率产生二阶影响。这个问题可借用交叉验证或 plug-in 规则来直接数值解决,但需要理论指导。

  4. 外部随机化的最优设计\(Z\) 的方差 \(\Sigma_Z\) 是一个自由参数。本文仅在模拟中设为 \(0.1 I\)(说明“较大方差会降低检验力,较小方差则使选择复杂”而未给出定量原则)。是否有类似“方差取为估计量渐近方差的某个倍数达到检验力最大化”的渐近最优设计?原文第 5.2 节模拟探讨了不同 \(\Sigma_Z\) 对区间长度的影响,但缺乏理论界。研究者可以尝试导出检验力关于 \(\Sigma_Z\) 的渐近展开,从而给出可行框架。

每条问题均可扎根本文具体语句(如定理陈述的维度假设、讨论段落的未来工作建议)。建议从近期约 5 篇 post-selection inference 综述(如 Kuchibhotla et al. 2022; Berk et al. 2022)确认是否已有部分解决。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论