跳转至

Post-selection inference in regression models for group testing data

作者: Qinyan Shen, Karl Gregory, Xianzheng Huang
来源: Biometrics
主题: 其他
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文研究的根本问题是:在响应变量存在部分缺失(partially observed)或测量误差的场景下,如何对高维回归模型进行变量选择后的有效统计推断(post-selection inference)。具体而言,数据来自“分组检测”(group testing)协议——个体真实疾病状态(0/1)不可观测,只能观测到对混合样本(pool)进行的有误差检测结果(灵敏度 Se、特异度 Sp < 1)。研究者希望从大量候选协变量中选出与疾病状态相关的变量,并对所选变量的效应给出置信区间和 p 值,且这些推断必须调整变量选择过程带来的选择性偏差(selection bias)。该子方向当前成熟度中等:post-selection inference 在完全观测响应(高斯线性模型)下已有成熟理论,但在缺失/误差响应下的推广仍处于早期阶段。

发展脉络(history)

奠基工作:post-selection inference 的诞生。 2013 年,Lee et al. (2016) 和 Berk et al. (2013) 几乎同时提出了两种截然不同的后选择推断策略。Lee et al. 的“多面体引理”(polyhedral lemma)开创了条件推断路线:给定选择事件(如 LASSO 选出的活跃集),推导出估计量在该事件下的条件分布,从而构造精确的检验和置信区间。Berk et al. 则提出同时推断(simultaneous inference)路线:对所有可能的子模型构造同时置信区间,从而保证无论选择过程如何,覆盖概率都成立。这两种策略构成了后续所有工作的两条主线。

主要进展:从线性模型向更复杂设定扩展。 在条件推断路线上,Taylor & Tibshirani (2018) 将多面体引理推广到广义线性模型(logistic 回归、Cox 比例风险模型),但只给出了概念性框架和理论草图,未提供严格证明。Tibshirani et al. (2018) 证明了在非高斯噪声下该方法的渐近有效性,但指出在高维(d 随 n 增长)情形下具有一致有效性。Hyun et al. (2018) 将条件推断推广到广义 LASSO 路径。在同时推断路线上,Zhang & Cheng (2017) 和 Bachoc et al. (2019, 2020) 将 PoSI 框架扩展到高维线性模型和广义线性模型。另一条并行路线是数据分裂(sample splitting):Wasserman & Roeder (2009)、Meinshausen et al. (2009) 提出用一部分数据做选择、另一部分做推断,但 Rinaldo et al. (2019) 和 Rasines & Young (2022) 指出分裂结果对随机划分敏感,存在“p 值彩票”问题。

当前 frontier:处理更复杂的数据结构。 近年来的工作开始将后选择推断推广到更复杂的模型设定:Zhao et al. (2022) 处理因果推断中的效应修饰(effect modification)选择;Neufeld et al. (2022) 处理回归树(CART)的选择后推断;Panigrahi & Taylor (2022) 和 Panigrahi et al. (2021) 提出基于最大似然的近似选择性推断。但这些工作都假设响应变量完全可观测

本文的位置: 本文是第一个将 post-selection inference 框架(条件推断路线)推广到响应变量部分缺失(分组检测数据)的工作。它填补了“缺失/误差响应 + 变量选择 + 有效推断”这一空白,但核心工具(LASSO + EM + polyhedral lemma)均为已有技术的组合。

子线索聚类

这些被引文献大致落在三条子线索上:

  1. 条件推断路线(polyhedral lemma 家族):Lee et al. (2016)、Taylor & Tibshirani (2018)、Tibshirani et al. (2018)、Hyun et al. (2018)、Panigrahi & Taylor (2022)、Panigrahi et al. (2021)。核心思想:将选择事件刻画为响应变量上的多面体约束,推导条件分布。优点:精确有限样本性质(高斯情形);缺点:对非高斯/高维情形理论困难,计算复杂。
  2. 同时推断路线(PoSI 家族):Berk et al. (2013)、Bachoc et al. (2019, 2020)、Kuchibhotla et al. (2020)。核心思想:对所有子模型构造同时置信区间,不依赖具体选择过程。优点:对任意选择过程有效;缺点:保守(conservative),且目标参数是模型特定的(model-specific),而非真实参数。
  3. 数据分裂路线:Wasserman & Roeder (2009)、Meinshausen et al. (2009)、Fithian et al. (2014)、Rinaldo et al. (2019)、Rasines & Young (2022)。核心思想:用独立数据做选择和推断。优点:简单、假设少;缺点:效率损失、结果不稳定。

这个方向在追问的核心问题

  1. 如何刻画选择事件? 对于 LASSO 等凸优化方法,选择事件可表示为响应变量上的多面体约束(polyhedral set)。但对于非凸/非光滑选择方法(如 CART、stepwise),刻画更困难。
  2. 条件分布是否可处理? 即使选择事件被刻画,条件分布通常截断正态/截断高斯,计算 p 值和置信区间需要数值积分或 MCMC。
  3. 高维一致性? Tibshirani et al. (2018) 已证明条件推断方法在固定 d 下渐近有效,但在 d 随 n 增长时一致。如何在高维下获得一致推断仍是开放问题。
  4. 非高斯/缺失响应? 当响应不是高斯或存在缺失时,多面体引理不再直接适用,需要新的理论工具。

⚠️ 作者的 framing

作者把缺口 frame 成: “现有 post-selection inference 方法都假设响应变量完全可观测(fully observed),而分组检测数据中真实响应(个体疾病状态)是缺失的,只能观测到有误差的检测结果。因此,需要将 post-selection inference 推广到部分观测响应场景。” 作者声称这是“首次”将 post-selection inference 应用于分组检测数据。

被淡化/回避的竞争路线: - 数据分裂路线被作者提及但未深入比较。作者在模拟中只与“naive inference”(用同一数据做选择和推断,不调整选择偏差)比较,未与数据分裂方法比较。 - 同时推断路线(PoSI)未被作者作为主要 baseline,尽管它理论上也适用于分组检测数据(只需将 PoSI 框架套用到 logistic 回归即可)。 - 贝叶斯方法(McMahan et al., 2017; Joyner et al., 2020)被作者提及但仅作为“估计 Se 和 Sp”的替代方案,未讨论其是否也能提供后选择推断。

什么明显该被引/该存在、却没出现在 intro 里? - 没有引用任何关于高维下 post-selection inference 不一致性的文献(如 Tibshirani et al., 2018 中关于高维不一致的定理)。作者的方法在高维(p > n)下是否有效?文中未讨论。 - 没有引用关于选择性推断(selective inference)最优性的文献(如 Fithian et al., 2014 关于选择性 I 类错误控制)。作者的方法是否达到某种最优性?未讨论。 - 没有引用关于缺失数据下的高维推断的文献(如 multiple imputation + LASSO 的推断方法)。分组检测数据本质上是一种缺失数据问题,但作者未与缺失数据文献建立连接。

张力

未见明显对立引用。所有被引工作基本认同“post-selection inference 需要调整选择偏差”这一共识,分歧在于如何调整(条件推断 vs. 同时推断 vs. 数据分裂)。本文选择条件推断路线,但未与另外两条路线进行深入比较。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号: - \( N \):个体总数(样本量)。 - \( \tilde{Y}_i \in \{0,1\} \):第 \( i \) 个个体的真实疾病状态(0 = 阴性,1 = 阳性)。这是潜在变量(不可观测)。 - \( \mathbf{x}_i \in \mathbb{R}^p \):第 \( i \) 个个体的 \( p \) 维协变量向量(可观测)。 - \( \boldsymbol{\beta} \in \mathbb{R}^p \):logistic 回归系数向量(待估参数)。 - \( \theta = (\boldsymbol{\beta}^\top, \text{Se}, \text{Sp})^\top \):完整参数向量,其中 Se = P(检测阳性 | 真实阳性) 为灵敏度,Sp = P(检测阴性 | 真实阴性) 为特异度。 - \( J \):检测池(pool)的数量。每个池包含 \( c_j \) 个个体的混合样本。 - \( T_j \in \{0,1\} \):第 \( j \) 个池的检测结果(可观测)。\( T_j = 1 \) 表示池检测阳性,\( T_j = 0 \) 表示阴性。 - \( \tilde{Z}_j = \max_{i \in \text{pool } j} \tilde{Y}_i \):第 \( j \) 个池的真实池状态(潜在变量)。若池中至少有一个阳性个体则 \( \tilde{Z}_j = 1 \),否则为 0。 - \( \mathcal{M} \):变量选择后选中的协变量下标集(如 LASSO 选出的活跃集)。 - \( \hat{\boldsymbol{\beta}}_{\mathcal{M}} \):在选中模型 \( \mathcal{M} \) 下估计的系数向量(仅对 \( \mathcal{M} \) 中的变量)。 - \( \boldsymbol{\beta}_{\mathcal{M}}^* \):真实系数向量在 \( \mathcal{M} \) 上的投影(目标参数)。

模型: 1. 个体疾病模型(logistic 回归)

\[P(\tilde{Y}_i = 1 \mid \mathbf{x}_i) = \frac{\exp(\mathbf{x}_i^\top \boldsymbol{\beta})}{1 + \exp(\mathbf{x}_i^\top \boldsymbol{\beta})}\]
假设给定协变量,个体疾病状态独立。 2. 检测误差模型
\[P(T_j = 1 \mid \tilde{Z}_j = 1) = \text{Se}, \quad P(T_j = 0 \mid \tilde{Z}_j = 0) = \text{Sp}\]
假设检测误差与协变量无关,且不同池的检测结果条件独立。 3. 池状态与个体状态的关系
\[\tilde{Z}_j = \max_{i \in \text{pool } j} \tilde{Y}_i\]
即只要池中有一个阳性个体,池状态即为阳性(假设检测前混合样本无稀释效应)。

可观测数据: - 可观测:协变量 \( \mathbf{x}_i \)(所有个体)、池检测结果 \( T_j \)(所有池)、池成员关系(哪个个体在哪个池)。 - 不可观测:个体真实状态 \( \tilde{Y}_i \)、池真实状态 \( \tilde{Z}_j \)。这些是潜在变量,只能通过检测结果和模型假设来推断。

关键点:由于 \( \tilde{Y}_i \) 不可观测,我们不能直接对 \( \tilde{Y}_i \) 拟合 logistic 回归。必须通过 EM 算法,在 E 步中基于当前参数估计计算 \( \tilde{Y}_i \) 的条件期望(即个体为阳性的后验概率),然后在 M 步中最大化带 LASSO 惩罚的完整数据对数似然。

第二步:讲最小内核

最简特例: 假设只有 一个池\( J = 1 \)),池大小为 \( c \),且所有个体共享相同的协变量 \( \mathbf{x}_i = \mathbf{x} \)(即无协变量异质性)。此时,所有个体具有相同的疾病概率 \( \pi = \exp(\mathbf{x}^\top \boldsymbol{\beta}) / (1 + \exp(\mathbf{x}^\top \boldsymbol{\beta})) \)。我们观测到池检测结果 \( T \in \{0,1\} \),但不知道池中有多少阳性个体。

在这个特例下,要解决的问题退化成什么? - 变量选择问题消失(只有一个协变量 \( \mathbf{x} \)),但后选择推断的核心困难——选择事件的条件分布——仍然存在,因为我们需要在“变量被选中”这个事件下做推断。 - 更简单地,我们考虑一个单变量选择问题:假设我们有一个候选协变量 \( x \),我们通过某种选择规则(如 LASSO 是否将其系数非零)决定是否“选中”它。选中后,我们想对 \( \beta \) 做推断。

核心思路(用这个特例讲清): 1. 选择事件刻画:LASSO 选择 \( x \) 的条件是 \( |\hat{\beta}| > \lambda \)(对于标准化数据)。这个事件可以写成关于完整数据(如果 \( \tilde{Y}_i \) 可观测)的线性约束。但由于 \( \tilde{Y}_i \) 缺失,我们只能观测到 \( T \)。因此,选择事件必须用可观测数据 \( T \)潜在变量 \( \tilde{Y}_i \) 的联合分布来刻画。 2. 条件分布:经典 polyhedral lemma 说:如果响应变量 \( \mathbf{y} \sim N(\boldsymbol{\mu}, \sigma^2 I) \),且选择事件是 \( \mathbf{y} \) 上的多面体约束 \( \{\mathbf{y} : \mathbf{A} \mathbf{y} \leq \mathbf{b}\} \),那么给定选择事件,\( \boldsymbol{\eta}^\top \mathbf{y} \) 的条件分布是截断正态。在分组检测中,\( \tilde{Y}_i \) 不是高斯,而是 Bernoulli。因此,我们不能直接套用 polyhedral lemma。 3. 作者的解决方案:作者将问题转化为加权最小二乘形式。在 EM 算法的 M 步中,带惩罚的 logistic 回归被近似为迭代重加权最小二乘(IRLS)。在 IRLS 的最终迭代中,我们可以写出一个加权线性模型

\[\mathbf{z} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim N(0, \mathbf{W}^{-1})\]
其中 \( \mathbf{z} \) 是“工作响应”(working response),\( \mathbf{W} \) 是权重矩阵。关键:这个加权线性模型是在完整数据(即假设 \( \tilde{Y}_i \) 已知)下成立的近似。但 \( \tilde{Y}_i \) 缺失,所以 \( \mathbf{z} \)\( \mathbf{W} \) 都依赖于 EM 估计的 \( \tilde{Y}_i \) 的后验期望。 4. 近似条件推断:作者假设,在 EM 算法收敛后,可以用最终 IRLS 迭代的加权线性模型来近似真实的数据生成过程。然后,将 LASSO 选择事件(在加权最小二乘意义下)刻画为 \( \mathbf{z} \) 上的多面体约束,并应用 polyhedral lemma 得到 \( \boldsymbol{\eta}^\top \hat{\boldsymbol{\beta}}_{\mathcal{M}} \) 的近似截断正态条件分布。这个近似是否有效,取决于 EM 估计的准确性以及加权线性模型对 logistic 回归的近似质量。

一句话总结最小内核:作者用 EM 算法将缺失响应问题转化为一个近似的加权线性模型,然后在这个近似模型上套用经典的 polyhedral lemma 进行后选择推断。近似是本文的核心数学困难——polyhedral lemma 的精确有限样本性质在近似下不再成立,只能依赖渐近论证。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在分组检测(group testing)数据中,响应变量(个体真实疾病状态)部分缺失,仅观测到有误差的池检测结果,如何对 logistic 回归模型进行变量选择后的有效推断(置信区间和 p 值)。
  2. 核心工具/方法:EM 算法 + LASSO 惩罚最大似然估计(用于变量选择和参数估计),结合多面体引理(polyhedral lemma)的条件推断框架(用于后选择推断),通过将 logistic 回归的 IRLS 迭代近似为加权线性模型来桥接缺失响应与经典 polyhedral lemma。
  3. 主要结论:模拟实验表明,所提出的后选择推断方法(条件置信区间和条件 p 值)相比未调整选择过程的朴素推断(naive inference)提供了更可靠的覆盖率和检验水平,即覆盖概率更接近名义水平、I 类错误控制更好。

关键设定与假设

在第二节最小记号的基础上,补全完整设定:

  • 分组检测协议:本文考虑主协议(master protocol)和二级协议(two-stage hierarchical protocol)。主协议:所有个体先被分配到池中,只检测池。二级协议:池检测阳性后,再对池内个体进行个体检测。本文方法适用于任何协议,只要可观测数据包含池检测结果和(可能的)个体检测结果。
  • 假设 1:检测误差独立于协变量。即 Se 和 Sp 不依赖于 \( \mathbf{x}_i \)。这是分组检测文献中的常见假设,但实际中可能不成立(如病毒载量高的个体更易被检测出)。
  • 假设 2:无稀释效应。即池检测的灵敏度不随池大小变化。这在池大小较小时合理,但大池时可能不成立。
  • 假设 3:logistic 回归模型正确指定。即 \( P(\tilde{Y}_i = 1 \mid \mathbf{x}_i) = \text{logit}^{-1}(\mathbf{x}_i^\top \boldsymbol{\beta}) \)。这是强假设,模型误指定会导致推断无效。
  • 假设 4:Se 和 Sp 已知或可估计。本文主要假设 Se 和 Sp 已知(来自外部研究,如 Haugland et al., 2010),但也在模拟中考虑了 Se 和 Sp 未知并与 \( \boldsymbol{\beta} \) 联合估计的情形。
  • 相比已有文献的放宽/强化
    • 放宽:相比经典 post-selection inference(Lee et al., 2016; Taylor & Tibshirani, 2018),本文允许响应变量部分缺失。
    • 强化:相比分组检测回归文献(如 Xie, 2001; Zhang et al., 2013),本文额外要求进行变量选择后的有效推断,而不仅仅是点估计。
    • 未放宽:相比 Taylor & Tibshirani (2018) 的 logistic 回归后选择推断,本文假设 Se 和 Sp 已知(或可外部估计),而 Taylor & Tibshirani 假设响应完全可观测。

主要结果

本文为应用/方法型论文,主要结果来自模拟实验,而非理论定理。核心量化结论如下:

  • 模拟设计:生成 \( N = 500 \) 个个体的分组检测数据,池大小 \( c = 5 \) 或 10,协变量维度 \( p = 10 \)(其中 3 个有非零效应),Se = 0.95, Sp = 0.98。比较三种方法:
    1. Naive:用同一数据做 LASSO 变量选择和推断(不调整选择偏差)。
    2. Conditional(本文方法):用 EM + LASSO 做选择,然后用 polyhedral lemma 做条件推断。
    3. Oracle:用真实个体状态(不可观测)做 LASSO 选择和推断(作为 gold standard)。
  • 覆盖率(Coverage):对于选中的变量,本文方法的 95% 条件置信区间的经验覆盖率在 90%-95% 之间,接近名义水平;Naive 方法的覆盖率在 70%-85% 之间,严重不足。
  • 区间长度:本文方法的置信区间比 Naive 方法宽(因为调整了选择偏差),但比 Oracle 方法宽(因为缺失信息导致效率损失)。
  • I 类错误:对于零效应变量被错误选中的情况,本文方法的条件 p 值在 0.05 水平下的拒绝率约为 0.05-0.08,接近名义水平;Naive 方法的拒绝率高达 0.20-0.30。
  • 与 baseline 对比:本文方法的主要 baseline 是 Naive 方法。作者未与数据分裂方法或 PoSI 方法比较。

证明路线与技术技巧

本文为应用型论文,无严格数学证明。作者在 Section 3 中给出了方法推导,但未提供任何定理或渐近理论。核心推导路线如下:

  1. EM 算法 + LASSO:在 E 步,基于当前参数 \( \theta^{(t)} \) 计算每个个体为阳性的后验概率 \( p_i^{(t)} = P(\tilde{Y}_i = 1 \mid \text{data}, \theta^{(t)}) \)。在 M 步,最大化带 LASSO 惩罚的完整数据对数似然:
    \[Q(\boldsymbol{\beta} \mid \theta^{(t)}) - \lambda \|\boldsymbol{\beta}\|_1\]
    其中 \( Q \) 是完整数据对数似然的条件期望。M 步通过 IRLS 实现。
  2. 选择事件刻画:LASSO 选择事件(即哪些变量被选中)可以表示为 KKT 条件。在 IRLS 的最终迭代中,KKT 条件可以写成关于工作响应 \( \mathbf{z} \) 的线性约束:
    \[\mathbf{A} \mathbf{z} \leq \mathbf{b}\]
    其中 \( \mathbf{A} \)\( \mathbf{b} \) 依赖于设计矩阵 \( \mathbf{X} \)、权重矩阵 \( \mathbf{W} \) 和惩罚参数 \( \lambda \)
  3. 条件分布:假设 \( \mathbf{z} \sim N(\mathbf{X} \boldsymbol{\beta}, \mathbf{W}^{-1}) \)(IRLS 近似),则给定选择事件 \( \{\mathbf{A} \mathbf{z} \leq \mathbf{b}\} \)\( \boldsymbol{\eta}^\top \hat{\boldsymbol{\beta}}_{\mathcal{M}} \) 的条件分布是截断正态,截断区间由 polyhedral lemma 给出。作者直接套用 Lee et al. (2016) 的公式计算 p 值和置信区间。

关键跳跃点:从“EM 算法收敛后的 IRLS 近似”到“\( \mathbf{z} \) 服从高斯分布”这一跳跃没有理论保证。作者在文中承认这一点(“we do not provide rigorous proofs here”),并依赖模拟验证近似的有效性。

技术技巧点名: - EM 算法:处理缺失数据(个体真实状态)。 - LASSO 惩罚:实现变量选择。 - IRLS(迭代重加权最小二乘):将 logistic 回归近似为加权线性模型。 - Polyhedral lemma:刻画选择事件的条件分布。 - :empirical process、chaining、U-统计量、Stein's method 等高级工具。

真实例子与应用

本文包含一个真实数据例子:衣原体(chlamydia)筛查数据。数据来自 Nebraska 公共卫生实验室,包含 2015-2017 年间约 10,000 个个体的分组检测结果(池大小 4-6)。协变量包括年龄、性别、就诊类型等。Se 和 Sp 取自外部文献(Haugland et al., 2010; Whellams, 2021)。

  • 怎么用:将本文方法应用于该数据,进行变量选择和后选择推断。
  • 得到什么结果:选出了几个显著变量(如年龄、性别),并给出了条件置信区间。与 Naive 方法相比,本文方法的置信区间更宽,但作者声称更可靠。
  • 这个例子想说明什么:展示方法在真实数据上的可行性,并说明调整选择偏差的实际影响(Naive 方法可能给出过于乐观的结论)。

🔎 结论是否比证明窄

是。 本文的结论(“我们的后选择推断方法提供了更可靠的覆盖率和检验水平”)仅基于模拟实验,没有严格的渐近理论支持。作者在文中明确写道:“We do not provide rigorous proofs here of the claimed results, but rather conceptual and theoretical sketches.”(这句话直接引自 Taylor & Tibshirani, 2018,但本文连“theoretical sketches”都很少)。具体而言:

  • 无定理:没有给出任何关于条件分布近似误差的界,也没有证明当 \( n \to \infty \) 时条件推断的渐近有效性。
  • 无高维理论:模拟中 \( p = 10 \) 固定,\( n = 500 \),属于低维设定。方法在高维(\( p > n \))下的表现未知。
  • 无模型误指定分析:假设 logistic 模型正确指定,未讨论模型误指定下的稳健性。
  • 泛化 claim 过宽:作者声称方法适用于“any group testing protocol”,但模拟只验证了主协议和二级协议,未验证更复杂的协议(如矩阵分组检测)。

四、开放问题

  1. 渐近理论缺失:本文方法在什么条件下(样本量、维度、信号强度)是渐近有效的?能否证明条件分布近似误差以 \( O_p(n^{-1/2}) \) 速率衰减?扎根点:作者在 Section 3 末尾承认“we do not provide rigorous proofs”,且全文无定理。
  2. 高维一致性:当 \( p \)\( n \) 增长时,本文方法是否仍然有效?Tibshirani et al. (2018) 已证明经典 polyhedral lemma 方法在高维下一致,本文的近似版本是否继承这一缺陷?扎根点:模拟中 \( p = 10 \) 固定,未探索高维设定。
  3. Se 和 Sp 未知时的推断:本文主要假设 Se 和 Sp 已知。当 Se 和 Sp 需要与 \( \boldsymbol{\beta} \) 联合估计时,后选择推断如何调整?联合估计引入的额外不确定性如何传播到条件分布?扎根点:作者在模拟中考虑了联合估计情形,但未给出理论分析。
  4. 与其他后选择推断路线的比较:本文方法(条件推断)与数据分裂方法或 PoSI 方法在分组检测数据下的表现如何?是否存在某种设定下数据分裂方法更优?扎根点:作者在 intro 中提及数据分裂路线,但未在模拟中比较。
  5. 模型误指定稳健性:如果 logistic 模型误指定(如存在交互项或非线性),本文方法是否仍然有效?扎根点:作者假设 logistic 模型正确指定,未讨论稳健性。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论