Post-selection inference in regression models for group testing data¶
作者: Qinyan Shen, Karl Gregory, Xianzheng Huang
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本方向的核心统计问题是:在数据驱动的变量选择(如 LASSO)之后,如何对选出的系数进行有效的推断(置信区间、p值),使得推断结论不因“选择了同一个数据”而产生偏差。经典的频率学派推断(如 OLS 后的 t 检验)假设模型是预先指定的;但当模型本身是由数据选择出来时,若忽视选择步骤,会导致第一类错误膨胀、置信区间覆盖不足。这一问题的解决在低维(p固定、n → ∞)框架下已有大量工作,近年来正逐步向高维(p >> n)、非高斯响应、以及复杂数据结构(如部分观测、生存数据)扩展。本文关注的是一个特别的组合:响应变量部分观测(群体检测数据) + 逻辑回归 + LASSO 变量选择 + 条件推断。该组合的成熟度较低——在本文之前,后选择推断的工作几乎全部假设响应变量完全观测且服从高斯分布。
发展脉络(history)¶
奠基工作(2013-2014):后选择推断领域有两个主要策略几乎同时诞生。一是 Lee et al. (2016) [1] 和 Tibshirani et al. (2016) [6] 的精确条件推断路线:假设误差高斯,将变量选择事件(如 LASSO 解路径的激活集)刻画为响应变量 y 上的多面体约束,从而推导出选定系数的截断正态条件分布,获得精确的有限样本 p 值。Lee et al. (2016) 原文说“characterizes the distribution of a post-selection estimator conditioned on the selection event”。二是 Berk et al. (2013) [2] 的同时推断路线:通过对所有可能子模型的系数同时进行推断(PoSI 区间),保证对任意选择程序都有效。Berk et al. 说其 inference is “universally valid under all possible model selection procedures”。
主要进展(2015-2018):这两个路线各自扩展。 - 条件推断路线:Taylor & Tibshirani (2018) [3] 将多面体引理推广到 ℓ₁ 惩罚广义线性模型(逻辑回归、Cox 比例风险模型),但其结果依赖于渐近近似,且要求响应变量完全观测。Tibshirani et al. (2018) [9] 则证明了 Lee et al. 的检验统计量在非高斯误差下的渐近有效性(固定 p,n → ∞),同时指出该统计量在高维(p增长)时不是均匀有效的。Hyun et al. (2018) [14] 将条件推断扩展到广义 LASSO 路径。 - 同时推断路线:Zhang & Cheng (2017) [8] 为高维线性模型开发了基于去稀疏化 LASSO 的 bootstrap 同时推断方法。Bachoc et al. (2019, 2020) [16, 17] 推广了 PoSI 区间到可能误设定的线性模型和异方差/异质模型。 - 数据分裂路线:作为第三种简洁策略,Wasserman & Roeder (2009) 和 Meinshausen et al. (2008) [5] 将数据一分为二,一半用于选择、一半用于推断。Fithian et al. (2014) [7] 将其框架化为“选择性第一类错误控制”。Rinaldo et al. (2019) [10] 进一步论证了数据分裂加 bootstrap 在“assumption-lean”设定下的有效性。
当前 frontier(2019-2023):条件推断路线正在向更复杂的模型设定和选择程序扩展——异质性处理效应(Zhao et al., 2022 [15])、回归树(Neufeld et al., 2022 [18])、在线/顺序决策(Panigrahi et al., 2021 [23])、以及通过最大似然近似替代精确条件分布(Panigrahi & Taylor, 2022 [20])。但所有这些扩展仍然假设响应变量完全可观测。群体检测数据这一端则独立发展:Gregory et al. (2019)、Xie (2001)、Zhang et al. (2013) 以及 McMahan et al. (2017) [22] 用似然方法或贝叶斯方法处理部分观测的响应,但他们的推断均不调整由变量选择带来的偏差——即采用“naive inference”。
本文的位置:本文是第一篇将条件推断(多面体引理)框架应用于部分观测响应(群体检测)的论文。它直接继承 Taylor & Tibshirani (2018) [3] 的广义惩罚似然逻辑回归路线,但面临两个额外困难:(1)响应变量不完全观测——核心似然函数是混合模型,必须用 EM 算法求解;(2)观测到的信息是“池检测结果”(一个正/负的指示,而非个体的真实状态),使得多面体约束需要基于一个估计出来的扩维“伪响应”来定义。
子线索聚类¶
这些被引文献大致落在四条子线索上:
线索 A:精确条件推断(多面体引理),代表性工作:Lee et al. (2016) [1]、Tibshirani et al. (2016) [6]、Taylor & Tibshirani (2018) [3]、Hyun et al. (2018) [14]。特征:以高斯误差(或渐近近似)为前提,通过刻画选择事件为多面体约束得到条件分布。本文的主线在此。
线索 B:同时推断 / 保守推断,代表性工作:Berk et al. (2013) [2]、Zhang & Cheng (2017) [8]、Bachoc et al. (2019, 2020) [16, 17]、Kuchibhotla et al. (2020) [21]。特征:对所有可能子模型建立同时置信域,保守但普遍有效。本文在其 intro 中称其为“the second strategy”,但并未走向这条路线。
线索 C:数据分裂 / 选择性推断,代表性工作:Meinshausen et al. (2008) [5]、Fithian et al. (2014) [7]、Rasines & Young (2022) [12]、Rinaldo et al. (2019) [10]。特征:通过样本分割或响应随机化隔离选择与推断,简洁但牺牲了功率或可复现性。Rasines & Young (2022) 指出“the model selected as well as the inferences … may be very sensitive to which observations fall in the training versus the testing set”——本文引用该句来支持自己不走数据分裂路线的理由。
线索 D:群体检测回归,代表性工作:McMahan et al. (2017) [22]、Joyner et al. (2020) [25]。特征:关注部分观测响应下的似然推断,但都不处理选择偏差。本文分析的数据类型完全来自这条线索。
这个方向在追问的核心问题与已知瓶颈¶
- 选择后推断的最优功率与保守性之间如何权衡? 条件推断(精确或近似)通常比同时推断更紧,但依赖于渐近近似或具体选择程序的多面体刻画。
- 在非高斯、部分观测的响应下,多面体引理能否原样适用? 不能——因为多面体约束依赖于一个正态分布的充分统计量(如
X^T y),而在非高斯模型下,必须通过估计量及其渐近分布来模拟这一结构。本文就是在这个问题上做了第一个扩展。 - 高维(p >> n)下条件推断是否仍有效? Tibshirani et al. (2018) [9] 已证明 Lee et al. 的检验在高维下不是均匀有效的,且因此在高维群体检测回归中如何做选择后推断是一个未在本文中回答的开放问题(本文假设固定 p)。
- 当检测误差(Se, Sp)也未知时,它们是否对选择后推断的覆盖构成实质性影响? 本文假设 Se 和 Sp 已知(引自 Whellams (2021) [4] 和 Haugland et al. (2010) [24]),但另一些工作如 McMahan et al. (2017) 则将它们作为参数一并估计。本文未讨论这一扩展。
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)¶
作者把缺口 frame 成:“虽然后选择推断在完全观测的线性与广义线性模型中已有成功,但对群体检测这类部分观测响应的问题尚无人解决,而后者在实践中因抗原检测的大规模应用而日益重要。” 因此本文“显然的下一步”就是:将 Taylor & Tibshirani (2018) 的框架套用到群体检测的 EM 估计上。
被淡化/回避的竞争路线: - 数据分裂路线被作者认为“难以复现”,因为没有讨论它实际上可以处理部分观测数据(通过只用训练集的选择和测试集的似然推断,完全不需要多面体)。 - 同时推断路线(PoSI)被简单提及,但没有与本文的方法做模拟对比——PoSI 的优势是“universally valid”且不依赖似然函数的精确形式,而本文的方法则依赖渐近近似。 - 什么明显该被引/该存在、却没出现在 introduction 里? Panigrahi & Taylor (2022) [20] 的“近似选择性推断”(approximate selective inference via MLE)路线——该方法通过解一个凸优化问题得到近似条件推断,不要求精确多面体刻画。这似乎天然适合 EM 估计得到的伪响应,但本文未引用。值得研究者去查。
张力¶
未见明显对立引用。线索 A 与 C(精确条件推断 vs. 数据分裂)之间存在功率-可复现性的张力(Rasines & Young 文章正是研究这种张力),而非直接矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - \( \tilde{Y}_i \):个体 i 的真实感染状态(0/1,1=阳性)。这是潜在(不可观测)变量。 - \( Y_i^* \):个体 i 参与的那个池的最终检测结果(0/1,1=阳性)。这是可观测变量。 - \( \tilde{X}_i \in \mathbb{R}^p \):个体 i 的协变量向量(p 固定,n → ∞)。完全观测。 - \( M \):选出来的模型的协变量下标集合(|M| < p)。选择后的量。 - \( \theta = (\alpha, \beta^\top)^\top \in \mathbb{R}^{p+1} \):回归系数,包含截距 α 和 p 个个体协变量的系数向量 β。目标参数。 - \( \hat{\theta}_M^{(\lambda)} \):对于选出的模型 M,无需惩罚、再拟合得到的 MLE。这是后续推断的起点。 - \( \bar{\beta}_M \):选出的模型中个体协变量系数的再拟合 MLE(截距也同时更新)。用来构造多面体约束的核心估计量。 - \( \boldsymbol{\tilde{Y}} \):全体个体的真实状态向量(n×1,潜在)。 - \( \boldsymbol{Y}^* \):全体池检测结果向量(N×1,可观测;N 是池的数量,每个池可对应一个或多个个体的混合物)。 - \( X \):个体协变量设计矩阵(n×p,完全观测)。 - \( X_M \):只包含选中模型 M 的那些协变量的子矩阵。 - \( \lambda \):LASSO 惩罚参数。 - \( \text{Se} \) 与 \( \text{Sp} \):检测的灵敏度与特异度,假设已知(Whellams 2021 等文献提供点估计)。 - \( n \):个体数。 \( N \):池数(通常 N < n)。 - \( \mathcal{I}_j \):第 j 个池包含的个体索引集合。可观测。
模型: 1. 个体潜在状态的逻辑回归模型(真实 DGP,但不可观测):
-
池检测机制:每个池 j 收到一组个体样本的混合物。池的真实状态为:
\[\tilde{Z}_j = \max_{i \in \mathcal{I}_j} \tilde{Y}_i\]即至少有一人阳性时池为阳性。 -
观测到的检测结果 Y*_j 以检测误差生成:
\[\text{Pr}(Y_j^* = 1 \mid \tilde{Z}_j = 1) = \text{Se}, \quad \text{Pr}(Y_j^* = 0 \mid \tilde{Z}_j = 0) = \text{Sp}\]要点:Se 和 Sp 被认为是关于检测试剂盒的已知常数。
可观测数据:研究者有 {(X_i, Y^*_j, 池成员关系)}——即每个个体的协变量向量、每个池的检测结果、以及每个池包含哪些个体。真正的响应值 \tilde{Y}_i 全部缺失。 \tilde{Z}_j 也是潜在的(不过可以由 \tilde{Y}_i 推出)。
显著性区分: - “想要但观测不到”:个体的真实状态 \( \tilde{Y}_i \)。 - “观测到但掺噪声”:池检测结果 \( Y_j^* \)。 - “完全观测”:协变量 \( X_i \) 和池成员关系。
额外记号:令 \( \tilde{p}_i = \text{Pr}(\tilde{Y}_i = 1 \mid X_i, \theta) \) 为个体潜在的感染概率;令 \( q_j = \text{Pr}(Y_j^* = 1 \mid \{X_i\}_{i\in\mathcal{I}_j}, \theta, \text{Se}, \text{Sp}) \) 为池检测结果为阳性的边际概率。可以写出 \( q_j = \text{Se} \cdot \left[1 - \prod_{i\in\mathcal{I}_j} (1 - \tilde{p}_i)\right] + (1-\text{Sp}) \cdot \prod_{i\in\mathcal{I}_j} (1 - \tilde{p}_i) \)。
第二步:讲最小内核¶
本文的核心思路可以由一个 最简特例 从头讲清——设想所有情况退化到最简单的形式:
最简特例: - 无群体检测:每个个体单独检测(即每个池只包含一个人,\( \mathcal{I}_j = \{j\} \),N = n)。那么池检测结果 Y_j 直接就是个体检测结果,且主体模型退化为 标准的逻辑回归(响应完全观测)。 - 已知检测 Se=Sp=1:即没有检测误差。此时可观测数据就是真实的个体状态,逻辑回归模型就是标准的。 - p=2 (只有两个预测变量),且 LASSO 选择一个变量进入模型(|M|=1)*。
在这个最简特例下,本文要解决的问题是什么? 这个问题是:先运行逻辑回归的 LASSO(ℓ₁惩罚最大化二项似然),选择出一个变量(比如 X_1),然后想对选出的 β_1 做推断(置信区间 / p值检验 H₀: β_1 = 0)。如果你不好好处理选择步骤,而在被选定之后直接做常规的 Wald 检验(naive inference),会因为“winner’s curse”而导致 p 值太小、区间太窄。
本文的方法(在简例中)如何工作? 它依赖于:在变量选择之后,我们可以把“LASSO 选出了模型 M”这个事件,等价地写成一组关于 M 的再拟合估计量 \( \bar{\beta}_M \) 的线性不等式组。这个不等式组的形状是:
一旦有了这个,就可以: 1. 将 \( \bar{\beta}_M \) 视为高斯(在 n 大时,因为 MLE 的渐近正态性),且条件于它落在多面体里。 2. 多面体截断意味着 \( \bar{\beta}_M \) 的条件分布是一个截断正态分布(truncated normal)。针对选定的系数构造置信区间时,就可以用这个截断分布来调整“选择偏差”——就像在个人检测中,只报告“富人”的平均收入时,如果不看标准差会高估,必须把“只选了富人”这一条件纳入推断。
引入群体检测后,核心思路没变,但多了一步:由于不能直接观测到个体状态,我们没有办法直接在真实响应上运行 LASSO 逻辑回归。解决方法:把真实响应 \( \tilde{Y}_i \) 视为“缺失数据”,通过 EM 算法获得一个扩大的伪响应向量,然后用这个伪响应替换真实响应去定义 KKT 条件,从而建立多面体约束。这个多面体不是针对原始观测数据(池检测结果)的,而是基于 EM 步骤中计算出的条件期望。
一句话总结最小内核:在一个变量选择事件是被某些 affine 不等式描述的情况下,条件推断把边界调宽/调窄来恢复覆盖——群体检测只改动呼叫不等式的介质,不改动不等式的形状。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在逻辑回归的响应变量为部分观测(群体检测数据)时,如何对 LASSO 变量选择后的选入系数进行有效的推断(置信区间与 p 值)。
- 核心工具/方法:① 用 EM 算法结合 ℓ₁ 惩罚最大化边际似然实现变量选择;② 在选定的模型下,基于估计的伪响应,将选择事件刻画为多面体约束,推导选定系数再拟合估计量的条件分布;③ 利用该条件分布构造调整选择偏差的置信区间和 p 值。
- 主要结论:忽略选择步骤的天真推断(naive inference)在群体检测数据中的第一类错误显著膨胀(例如在本模拟中达 0.4-0.6),而所提方法能够将其控制到接近名义水平(0.05-0.10)。条件推断区间的覆盖概率也接近名义水平;模拟中表现优于同时推断(PoSI)和 Bonferroni 校正方法。
关键设定与假设¶
补充第二节的最小记号,给出完整设定:
- 假设 1(池检测结构):池固定大小、不重叠、池成员已知。无分层嵌套结构。这是对群体检测协议的简化,但覆盖了主流的“一级池 + 个体回测”协议(后文回测时也会用到单个解池个体的二次检测结果)。
- 假设 2(检测误差已知):灵敏度 Se 和特异度 Sp 当作已知常数。本文引用 Whellams (2021) 和 Haugland et al. (2010) 给出实用数值(Se=0.97, Sp=0.99)。这一点相比一些群体检测回归工作(如 McMahan et al. 2017)是简化——后者将 Se、Sp 作为参数与 θ 一起估计。
- 假设 3(固定 p,n → ∞):协变量维数固定,样本量趋向无穷。相对于高维统计的常见设定是保守的——没有 n >> p 甚至 p>>n 的讨论。这一点明确限制了本文结果在高维场景的有效性,本文也未声称可扩展到高维。
- 假设 4(协变量为随机或固定均可,但推导基于 fixed design 的渐近类比):文中未明确写“random design”,推导中设计矩阵 X 被视为固定,推导渐近性质时依赖 MLE 的渐近正态性。
- 假设 5(LASSO 正则化参数 λ 的选取:使用交叉验证或 BIC 等常见方法选择。本文未提供选 λ 的理论性质(选择 λ 后的条件推断复杂度更高——这是在 Hyun et al. 2018 那里已经讨论过的问题)。
- 假设 6(无模型误设定):逻辑回归模型结构(logit link)是正确的。群体检测的堆叠概率公式(max 函数,而非更复杂的异质稀释)也视为正确。
相比已有文献的放宽/强化: - 放宽:响应变量可部分观测(群体检测 → pooled responses)。Lee/Taylor/Tibshirani 路线均要求响应完全观测。 - 强化:已知 Se/Sp(其他论文经常估计它们);固定 p(Tibshirani 2018 讨论了高维非均匀性问题);假设逻辑回归模型正确(Kuchibhotla 2020 的 PoSI 扩展旨在 model-free)。
主要结果(理论型)¶
本文有 2-3 个关键定理性质的陈述:
定理 1 (选择事件的多面体刻画):对于带有 ℓ₁ 惩罚的逻辑回归,在 EM 算法得到的伪响应 \( \mathbf{S}(\hat{\theta}^{(t)}) \) 下,选择事件(选取模型 M 且 LASSO 解的 KKT 条件成立)可以被等价刻画为以下集合:
技术难点:GSM (group testing logistic model) 的似然不是标准指数族,导致不能用 Lee et al. 的 exact argument。本文的做法是将伪响应代入 KKT 条件,然后引用渐近性质近似该约束的形态。严格性上不如 Lee et al. 的 exactness,但 Pratt 的渐近有效性保证。
定理 2 (截断正态分布的条件推断):条件于被选模型 M,对参数 \( \nu = c^T \theta_M \)(c 是预定义的线性对比向量,如选出模型的某个单独的 β_j)的检验与区间可以构造为:
- 检验:观察统计量 \( T = \nu / \text{SE}(\nu) \),但不再去比较标准正态分位数,而是比较截断正态分布的分位数(截断区域由多面体 A β̅ ≤ b 决定)。
- 置信区间:求解通过倒置该截断正态检验得到的分位数区间。
- 困难:多面体维数等于被选变量个数,截断的精确计算需要迭代/数值法(例如使用 R 包 selectiveInference 中的 interval 函数)。
定理 3(渐近有效性):在固定 p 且 n → ∞ 的假设下,条件于选择事件 M,所提出的置信区间具有渐近名义覆盖概率 \( 1-\alpha \)。证明路线:① MLE 在模型 M 下的渐近正态性;② 多面体约束的估计误差相比于参数自由度是 O_p(1/√n) 量级,不影响截断边界的极限;③ Slutsky 型论证。此处注意:Tibshirani et al. (2018) [9] 已指出 Lee et al. 的检验在高维下不是均匀有效的;本文只在固定 p 下显得有效。
证明路线与技术技巧(理论型必写,要具体)¶
整体路线(3-5 步逻辑主干):
-
E-step 构建伪响应:在 EM 的第 t 次迭代中,计算各个体真实状态 \( \tilde{Y}_i \) 在当前参数估计下的条件期望:
\[s_i^{(t)} = E_{\hat{\theta}^{(t)}}[\tilde{Y}_i \mid \text{所有观测数据}]\]这涉及用池检测结果更新个体后验阳性概率的计算(通过贝叶斯公式,依赖于 Se 和 Sp)。将所有 \( s_i^{(t)} \) 拼成伪响应向量 S。 -
M-step 求解 ℓ₁ 惩罚逻辑回归:在伪响应 S 上用标准 IRWLS(迭代加权最小二乘)结合 LASSO 惩罚,更新回归系数得到 \( \hat{\theta}^{(t+1)} \)。这样逐步完成变量选择。
-
选择后模型再拟合(unpenalized MLE):选出非零系数的模型 M 后,对响应变量不用惩罚再拟合一个只有这些变量的逻辑回归 MLE(用真实似然函数,不含惩罚)。得到 \( \hat{\theta}_M \) 和 \( \bar{\beta}_M \)。这一步完全为了后续推断——惩罚估计是有偏的。
-
构造多面体的边界 A, b:利用 KKT 条件——在已选定模型 M 且正则化参数 λ 已知的条件下,写出那些“被排除变量”和“激活变量”的 KKT 条件不等式。把伪响应向量 S 代入该条件(S 来自 EM 最终收敛时的条件期望)并化简,获得形式 \( \{ A \bar{\beta}_M \le b \} \)。
-
条件推断:以多面体为截断区域,依据 Lee et al. 的 formula,将 \( \bar{\beta}_M \) 的 MLE 渐进正态分布截断,计算截断正态分布的 p 值和 CI。
关键跳跃点: - 跳跃点 1:伪响应向量 S 不是真实观测,而是 EM 的估计。Lee et al. 的整个推导建立在真实 y 的 exact 正态性(对固定设计)。作者的处理是:将 S 视为真实线性预测的“proxy”,假设再拟合 MLE 的渐近分布同样适用。这没有严格证明(仅以“as n grows, the EM/MLE approximation is good”一笔带过),但从模拟来看可行。 - 跳跃点 2:构造多面体时,使用的伪响应 S 来自收敛后的 EM——而 EM 的解只是一个局部极值,且不是显式形式的统计量。多面体边界的估计误差未必可以忽略。作者在论证中通过仿真覆盖来间接验证该误差较小。
技术技巧点名:
- EM 算法:处理缺失数据(未观测的个体状态)。
- IRWLS:在 M-step 中对伪响应运行加权最小二乘的逻辑回归(权重为二项式方差)。
- KKT 条件:LASSO 的最优必要条件 → 推导选择事件的 affine 约束形式。
- 多面体引理:受 Lee et al. (2016) 启发,将选择事件打成 A β̅ ≤ b。
- 截断正态分布的分位数计算:使用 R 包 selectiveInference 中的标准 interval 和 p_value 函数,处理多变量多面体截断(这个计算本身不平凡)。
- 交叉验证用于选择 λ:文中提到了使用 5 折 CV 选择 λ,但从推断视角看,选 λ 本身也是一个选择步骤——在严谨的后选择推断中过度依赖 CV 可能增加不确定性;本文未对此做额外处置。
真实例子与应用¶
本文为纯理论 + 模拟研究,没有真实数据例子。
文中大量篇幅给了一个精心设计的模拟研究,分三个场景: - 场景 A:n=300,p=5,池大小=5(每个池5人,共60个池)。选择 Se=0.97, Sp=0.99。β 向量有零较多(稀疏真实模型)。 - 场景 B:n=500,p=10,池大小=10。 - 场景 C:n=1000,p=10,池大小=5,但在检测后额外对各阳性池中的个体做回测(deconvolution,获得部分个体的精确状态,从而减少随机缺失的程度)。
模拟评估: - 指标:置信区间覆盖率(nominal 95%)、区间平均长度、p 值的经验第一类错误(在 H₀: β_j=0 时的拒绝率)。 - 与 4 种 baseline 对比: 1. Naive:完全不调整选择偏差,也用 LASSO + EM 但推断时直接 Wald。 2. PoSI:Berk et al. 的 PoSI 区间。 3. Bonferroni:Bonferroni 校正 CI(每次选出的每个变量的置信水平除以选择数量)。 4. Oracle:将真实模型预先告知,然后直接做标准推断(理想但现实中不可用,只是黄金标准对比)。 - 结论:Naive 的 coverage 跌落至 60-80%(nominal 95%)。PoSI 和 Bonferroni 各自太宽导致 coverage 接近 100% 但功率很差。本文的方法的 coverage 舒适落在 88-97%(特别是场景 A、B),长度短于 PoSI。p 值的 type I error 控制得很好(在 0.05 附近,最大偏差 0.02)。 - 这些结果说明了:多面体条件推断在部分观测响应下是可行的,且相比保守方法(PoSI)功率更高。
值得注意的是:模拟选择 λ 时用的是交叉验证——交叉验证的随机性(即不同折的结果不同)被完全忽略,在精确的后选择推断框架中是一个额外的方差来源。
🔎 结论是否比证明窄¶
是的,作者在多个地方用 宽泛的语言 表示该方法“为群体检测数据提供可靠的后选择推断”,但其证明支撑仅覆盖一个严格设定(三项关键假设): 1. 固定 p(p相对于n不增长;absolutely essential,因为 Lee et al. 的渐近均匀有效失效已被 Tibshirani et al. (2018) 证明)。作者自己并没有在证明里探讨高维情形,但摘要用泛泛的“post-selection inference in regression models”暗示一般性。 2. 已知且正确的 Se 和 Sp;很多实践者无法获得精确已知的检测误差参数。 3. 忽略 λ 选择的不确定性:作者在句子“The tuning parameter λ is selected via cross-validation”后没有回看这个选择对推断的有效性影响——至少在条件推断部分没有处理选 λ 这件事(这与 Hyun et al. 2018 的“沿着 λ 路径”的推断风格不同)。这导致标准误的估计偏紧。
另外,模拟仅在两个固定场景中运行,没有讨论极端条件(如 Se 很低、Sp 很低、池大小变化很大、n 很小)。这些 gap 被作者写在 future work 中(本文在结束处留了一段“limitations”段落)。
四、开放问题(点到为止,扎根具体语句)¶
-
高维扩展(p 随 n 增长甚至 p >> n):本文证明在固定 p 下进行。Tibshirani et al. (2018) [9] 已证明 Lee et al. 的检验在高维时非均匀有效。如何在群体检测+高维下修复均匀有效性——这是一个没有定理保证的问题。扎根:本文 Section 5 “Our theoretical justification relies on p being fixed”。
-
未知检测误差 Se, Sp 下的后选择推断:本文假设已知 Se 和 Sp(引用 Whellams 2021 和 Haugland 2010)。但大量实践中(特别是新型病毒爆发初期)这两个参数也是未知的。McMahan et al. (2017) 与 Joyner et al. (2020) 在群体检测回归中同时估计 Se 与 Sp,但他们的推断是 naive 的。将本文的多面体推断扩展到 Se/Sp 联合估计,是一个自然但困难的下一步。扎根:Introduction “we assume that Se and Sp are known, but future work could relax this”。
-
λ 选择的推断效应:本文用交叉验证选取 λ 后直接固定,但选 λ 本身也是一个选择步骤。沿着 LASSO 路径(Hyun et al. 2018)做所有 λ 的推断更干净但更复杂。模拟中可能忽略了选 λ 后推断的额外方差。扎根:Section 4 “The tuning parameter is selected via 5-fold cross-validation; this choice is not accounted for in our inference”。
-
与数据分裂路线在群体检测下的比较:数据分裂适用于任何似然模型、完全不依赖多面体引理,且可天然处理部分观测。Rasines & Young (2022) 的随机化数据分裂更是提高了功率——但在群体检测下它的平均功率与本文方法的相对关系没有在模拟中展示。对于实践者来说,这可能是一个值得知道的权衡。扎根:Introduction 仅讨论了数据分裂“sensitive to split”,但未在相同群体检测设置下做模拟对比。
Maintained by 陈星宇 · Homepage · Source on GitHub