Post-selection inference in regression models for group testing data¶

作者: Qinyan Shen, Karl Gregory, Xianzheng Huang
来源: Biometrics
主题: 其他
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：在响应变量存在部分缺失（partially observed）或测量误差的场景下，如何对高维回归模型进行变量选择后的有效统计推断（post-selection inference）。具体而言，数据来自“分组检测”（group testing）协议——个体真实疾病状态（0/1）不可观测，只能观测到对混合样本（pool）进行的有误差检测结果（灵敏度 Se、特异度 Sp < 1）。研究者希望从大量候选协变量中选出与疾病状态相关的变量，并对所选变量的效应给出置信区间和 p 值，且这些推断必须调整变量选择过程带来的选择性偏差（selection bias）。该子方向当前成熟度中等：post-selection inference 在完全观测响应（高斯线性模型）下已有成熟理论，但在缺失/误差响应下的推广仍处于早期阶段。

发展脉络（history）¶

奠基工作：post-selection inference 的诞生。 2013 年，Lee et al. (2016) 和 Berk et al. (2013) 几乎同时提出了两种截然不同的后选择推断策略。Lee et al. 的“多面体引理”（polyhedral lemma）开创了条件推断路线：给定选择事件（如 LASSO 选出的活跃集），推导出估计量在该事件下的条件分布，从而构造精确的检验和置信区间。Berk et al. 则提出同时推断（simultaneous inference）路线：对所有可能的子模型构造同时置信区间，从而保证无论选择过程如何，覆盖概率都成立。这两种策略构成了后续所有工作的两条主线。

主要进展：从线性模型向更复杂设定扩展。 在条件推断路线上，Taylor & Tibshirani (2018) 将多面体引理推广到广义线性模型（logistic 回归、Cox 比例风险模型），但只给出了概念性框架和理论草图，未提供严格证明。Tibshirani et al. (2018) 证明了在非高斯噪声下该方法的渐近有效性，但指出在高维（d 随 n 增长）情形下不具有一致有效性。Hyun et al. (2018) 将条件推断推广到广义 LASSO 路径。在同时推断路线上，Zhang & Cheng (2017) 和 Bachoc et al. (2019, 2020) 将 PoSI 框架扩展到高维线性模型和广义线性模型。另一条并行路线是数据分裂（sample splitting）：Wasserman & Roeder (2009)、Meinshausen et al. (2009) 提出用一部分数据做选择、另一部分做推断，但 Rinaldo et al. (2019) 和 Rasines & Young (2022) 指出分裂结果对随机划分敏感，存在“p 值彩票”问题。

当前 frontier：处理更复杂的数据结构。 近年来的工作开始将后选择推断推广到更复杂的模型设定：Zhao et al. (2022) 处理因果推断中的效应修饰（effect modification）选择；Neufeld et al. (2022) 处理回归树（CART）的选择后推断；Panigrahi & Taylor (2022) 和 Panigrahi et al. (2021) 提出基于最大似然的近似选择性推断。但这些工作都假设响应变量完全可观测。

本文的位置： 本文是第一个将 post-selection inference 框架（条件推断路线）推广到响应变量部分缺失（分组检测数据）的工作。它填补了“缺失/误差响应 + 变量选择 + 有效推断”这一空白，但核心工具（LASSO + EM + polyhedral lemma）均为已有技术的组合。

子线索聚类¶

这些被引文献大致落在三条子线索上：

条件推断路线（polyhedral lemma 家族）：Lee et al. (2016)、Taylor & Tibshirani (2018)、Tibshirani et al. (2018)、Hyun et al. (2018)、Panigrahi & Taylor (2022)、Panigrahi et al. (2021)。核心思想：将选择事件刻画为响应变量上的多面体约束，推导条件分布。优点：精确有限样本性质（高斯情形）；缺点：对非高斯/高维情形理论困难，计算复杂。
同时推断路线（PoSI 家族）：Berk et al. (2013)、Bachoc et al. (2019, 2020)、Kuchibhotla et al. (2020)。核心思想：对所有子模型构造同时置信区间，不依赖具体选择过程。优点：对任意选择过程有效；缺点：保守（conservative），且目标参数是模型特定的（model-specific），而非真实参数。
数据分裂路线：Wasserman & Roeder (2009)、Meinshausen et al. (2009)、Fithian et al. (2014)、Rinaldo et al. (2019)、Rasines & Young (2022)。核心思想：用独立数据做选择和推断。优点：简单、假设少；缺点：效率损失、结果不稳定。

这个方向在追问的核心问题¶

如何刻画选择事件？ 对于 LASSO 等凸优化方法，选择事件可表示为响应变量上的多面体约束（polyhedral set）。但对于非凸/非光滑选择方法（如 CART、stepwise），刻画更困难。
条件分布是否可处理？ 即使选择事件被刻画，条件分布通常截断正态/截断高斯，计算 p 值和置信区间需要数值积分或 MCMC。
高维一致性？ Tibshirani et al. (2018) 已证明条件推断方法在固定 d 下渐近有效，但在 d 随 n 增长时不一致。如何在高维下获得一致推断仍是开放问题。
非高斯/缺失响应？ 当响应不是高斯或存在缺失时，多面体引理不再直接适用，需要新的理论工具。

⚠️ 作者的 framing¶

作者把缺口 frame 成： “现有 post-selection inference 方法都假设响应变量完全可观测（fully observed），而分组检测数据中真实响应（个体疾病状态）是缺失的，只能观测到有误差的检测结果。因此，需要将 post-selection inference 推广到部分观测响应场景。” 作者声称这是“首次”将 post-selection inference 应用于分组检测数据。

被淡化/回避的竞争路线： - 数据分裂路线被作者提及但未深入比较。作者在模拟中只与“naive inference”（用同一数据做选择和推断，不调整选择偏差）比较，未与数据分裂方法比较。 - 同时推断路线（PoSI）未被作者作为主要 baseline，尽管它理论上也适用于分组检测数据（只需将 PoSI 框架套用到 logistic 回归即可）。 - 贝叶斯方法（McMahan et al., 2017; Joyner et al., 2020）被作者提及但仅作为“估计 Se 和 Sp”的替代方案，未讨论其是否也能提供后选择推断。

什么明显该被引/该存在、却没出现在 intro 里？ - 没有引用任何关于高维下 post-selection inference 不一致性的文献（如 Tibshirani et al., 2018 中关于高维不一致的定理）。作者的方法在高维（p > n）下是否有效？文中未讨论。 - 没有引用关于选择性推断（selective inference）最优性的文献（如 Fithian et al., 2014 关于选择性 I 类错误控制）。作者的方法是否达到某种最优性？未讨论。 - 没有引用关于缺失数据下的高维推断的文献（如 multiple imputation + LASSO 的推断方法）。分组检测数据本质上是一种缺失数据问题，但作者未与缺失数据文献建立连接。

张力¶

未见明显对立引用。所有被引工作基本认同“post-selection inference 需要调整选择偏差”这一共识，分歧在于如何调整（条件推断 vs. 同时推断 vs. 数据分裂）。本文选择条件推断路线，但未与另外两条路线进行深入比较。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( N \)：个体总数（样本量）。 - \( \tilde{Y}_i \in \{0,1\} \)：第 \( i \) 个个体的真实疾病状态（0 = 阴性，1 = 阳性）。这是潜在变量（不可观测）。 - \( \mathbf{x}_i \in \mathbb{R}^p \)：第 \( i \) 个个体的 \( p \) 维协变量向量（可观测）。 - \( \boldsymbol{\beta} \in \mathbb{R}^p \)：logistic 回归系数向量（待估参数）。 - \( \theta = (\boldsymbol{\beta}^\top, \text{Se}, \text{Sp})^\top \)：完整参数向量，其中 Se = P(检测阳性 | 真实阳性) 为灵敏度，Sp = P(检测阴性 | 真实阴性) 为特异度。 - \( J \)：检测池（pool）的数量。每个池包含 \( c_j \) 个个体的混合样本。 - \( T_j \in \{0,1\} \)：第 \( j \) 个池的检测结果（可观测）。\( T_j = 1 \) 表示池检测阳性，\( T_j = 0 \) 表示阴性。 - \( \tilde{Z}_j = \max_{i \in \text{pool } j} \tilde{Y}_i \)：第 \( j \) 个池的真实池状态（潜在变量）。若池中至少有一个阳性个体则 \( \tilde{Z}_j = 1 \)，否则为 0。 - \( \mathcal{M} \)：变量选择后选中的协变量下标集（如 LASSO 选出的活跃集）。 - \( \hat{\boldsymbol{\beta}}_{\mathcal{M}} \)：在选中模型 \( \mathcal{M} \) 下估计的系数向量（仅对 \( \mathcal{M} \) 中的变量）。 - \( \boldsymbol{\beta}_{\mathcal{M}}^* \)：真实系数向量在 \( \mathcal{M} \) 上的投影（目标参数）。

模型： 1. 个体疾病模型（logistic 回归）：

\[P(\tilde{Y}_i = 1 \mid \mathbf{x}_i) = \frac{\exp(\mathbf{x}_i^\top \boldsymbol{\beta})}{1 + \exp(\mathbf{x}_i^\top \boldsymbol{\beta})}\]

假设给定协变量，个体疾病状态独立。 2. 检测误差模型：

\[P(T_j = 1 \mid \tilde{Z}_j = 1) = \text{Se}, \quad P(T_j = 0 \mid \tilde{Z}_j = 0) = \text{Sp}\]

假设检测误差与协变量无关，且不同池的检测结果条件独立。 3. 池状态与个体状态的关系：

\[\tilde{Z}_j = \max_{i \in \text{pool } j} \tilde{Y}_i\]

即只要池中有一个阳性个体，池状态即为阳性（假设检测前混合样本无稀释效应）。

可观测数据： - 可观测：协变量 \( \mathbf{x}_i \)（所有个体）、池检测结果 \( T_j \)（所有池）、池成员关系（哪个个体在哪个池）。 - 不可观测：个体真实状态 \( \tilde{Y}_i \)、池真实状态 \( \tilde{Z}_j \)。这些是潜在变量，只能通过检测结果和模型假设来推断。

关键点：由于 \( \tilde{Y}_i \) 不可观测，我们不能直接对 \( \tilde{Y}_i \) 拟合 logistic 回归。必须通过 EM 算法，在 E 步中基于当前参数估计计算 \( \tilde{Y}_i \) 的条件期望（即个体为阳性的后验概率），然后在 M 步中最大化带 LASSO 惩罚的完整数据对数似然。

第二步：讲最小内核¶

最简特例： 假设只有 一个池（\( J = 1 \)），池大小为 \( c \)，且所有个体共享相同的协变量 \( \mathbf{x}_i = \mathbf{x} \)（即无协变量异质性）。此时，所有个体具有相同的疾病概率 \( \pi = \exp(\mathbf{x}^\top \boldsymbol{\beta}) / (1 + \exp(\mathbf{x}^\top \boldsymbol{\beta})) \)。我们观测到池检测结果 \( T \in \{0,1\} \)，但不知道池中有多少阳性个体。

在这个特例下，要解决的问题退化成什么？ - 变量选择问题消失（只有一个协变量 \( \mathbf{x} \)），但后选择推断的核心困难——选择事件的条件分布——仍然存在，因为我们需要在“变量被选中”这个事件下做推断。 - 更简单地，我们考虑一个单变量选择问题：假设我们有一个候选协变量 \( x \)，我们通过某种选择规则（如 LASSO 是否将其系数非零）决定是否“选中”它。选中后，我们想对 \( \beta \) 做推断。

核心思路（用这个特例讲清）： 1. 选择事件刻画：LASSO 选择 \( x \) 的条件是 \( |\hat{\beta}| > \lambda \)（对于标准化数据）。这个事件可以写成关于完整数据（如果 \( \tilde{Y}_i \) 可观测）的线性约束。但由于 \( \tilde{Y}_i \) 缺失，我们只能观测到 \( T \)。因此，选择事件必须用可观测数据 \( T \) 和潜在变量 \( \tilde{Y}_i \) 的联合分布来刻画。 2. 条件分布：经典 polyhedral lemma 说：如果响应变量 \( \mathbf{y} \sim N(\boldsymbol{\mu}, \sigma^2 I) \)，且选择事件是 \( \mathbf{y} \) 上的多面体约束 \( \{\mathbf{y} : \mathbf{A} \mathbf{y} \leq \mathbf{b}\} \)，那么给定选择事件，\( \boldsymbol{\eta}^\top \mathbf{y} \) 的条件分布是截断正态。在分组检测中，\( \tilde{Y}_i \) 不是高斯，而是 Bernoulli。因此，我们不能直接套用 polyhedral lemma。 3. 作者的解决方案：作者将问题转化为加权最小二乘形式。在 EM 算法的 M 步中，带惩罚的 logistic 回归被近似为迭代重加权最小二乘（IRLS）。在 IRLS 的最终迭代中，我们可以写出一个加权线性模型：

\[\mathbf{z} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim N(0, \mathbf{W}^{-1})\]

其中 \( \mathbf{z} \) 是“工作响应”（working response），\( \mathbf{W} \) 是权重矩阵。关键：这个加权线性模型是在完整数据（即假设 \( \tilde{Y}_i \) 已知）下成立的近似。但 \( \tilde{Y}_i \) 缺失，所以 \( \mathbf{z} \) 和 \( \mathbf{W} \) 都依赖于 EM 估计的 \( \tilde{Y}_i \) 的后验期望。 4. 近似条件推断：作者假设，在 EM 算法收敛后，可以用最终 IRLS 迭代的加权线性模型来近似真实的数据生成过程。然后，将 LASSO 选择事件（在加权最小二乘意义下）刻画为 \( \mathbf{z} \) 上的多面体约束，并应用 polyhedral lemma 得到 \( \boldsymbol{\eta}^\top \hat{\boldsymbol{\beta}}_{\mathcal{M}} \) 的近似截断正态条件分布。这个近似是否有效，取决于 EM 估计的准确性以及加权线性模型对 logistic 回归的近似质量。

一句话总结最小内核：作者用 EM 算法将缺失响应问题转化为一个近似的加权线性模型，然后在这个近似模型上套用经典的 polyhedral lemma 进行后选择推断。近似是本文的核心数学困难——polyhedral lemma 的精确有限样本性质在近似下不再成立，只能依赖渐近论证。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在分组检测（group testing）数据中，响应变量（个体真实疾病状态）部分缺失，仅观测到有误差的池检测结果，如何对 logistic 回归模型进行变量选择后的有效推断（置信区间和 p 值）。
核心工具/方法：EM 算法 + LASSO 惩罚最大似然估计（用于变量选择和参数估计），结合多面体引理（polyhedral lemma）的条件推断框架（用于后选择推断），通过将 logistic 回归的 IRLS 迭代近似为加权线性模型来桥接缺失响应与经典 polyhedral lemma。
主要结论：模拟实验表明，所提出的后选择推断方法（条件置信区间和条件 p 值）相比未调整选择过程的朴素推断（naive inference）提供了更可靠的覆盖率和检验水平，即覆盖概率更接近名义水平、I 类错误控制更好。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

分组检测协议：本文考虑主协议（master protocol）和二级协议（two-stage hierarchical protocol）。主协议：所有个体先被分配到池中，只检测池。二级协议：池检测阳性后，再对池内个体进行个体检测。本文方法适用于任何协议，只要可观测数据包含池检测结果和（可能的）个体检测结果。
假设 1：检测误差独立于协变量。即 Se 和 Sp 不依赖于 \( \mathbf{x}_i \)。这是分组检测文献中的常见假设，但实际中可能不成立（如病毒载量高的个体更易被检测出）。
假设 2：无稀释效应。即池检测的灵敏度不随池大小变化。这在池大小较小时合理，但大池时可能不成立。
假设 3：logistic 回归模型正确指定。即 \( P(\tilde{Y}_i = 1 \mid \mathbf{x}_i) = \text{logit}^{-1}(\mathbf{x}_i^\top \boldsymbol{\beta}) \)。这是强假设，模型误指定会导致推断无效。
假设 4：Se 和 Sp 已知或可估计。本文主要假设 Se 和 Sp 已知（来自外部研究，如 Haugland et al., 2010），但也在模拟中考虑了 Se 和 Sp 未知并与 \( \boldsymbol{\beta} \) 联合估计的情形。
相比已有文献的放宽/强化：
- 放宽：相比经典 post-selection inference（Lee et al., 2016; Taylor & Tibshirani, 2018），本文允许响应变量部分缺失。
- 强化：相比分组检测回归文献（如 Xie, 2001; Zhang et al., 2013），本文额外要求进行变量选择后的有效推断，而不仅仅是点估计。
- 未放宽：相比 Taylor & Tibshirani (2018) 的 logistic 回归后选择推断，本文假设 Se 和 Sp 已知（或可外部估计），而 Taylor & Tibshirani 假设响应完全可观测。

主要结果¶

本文为应用/方法型论文，主要结果来自模拟实验，而非理论定理。核心量化结论如下：

模拟设计：生成 \( N = 500 \) 个个体的分组检测数据，池大小 \( c = 5 \) 或 10，协变量维度 \( p = 10 \)（其中 3 个有非零效应），Se = 0.95, Sp = 0.98。比较三种方法：
1. Naive：用同一数据做 LASSO 变量选择和推断（不调整选择偏差）。
2. Conditional（本文方法）：用 EM + LASSO 做选择，然后用 polyhedral lemma 做条件推断。
3. Oracle：用真实个体状态（不可观测）做 LASSO 选择和推断（作为 gold standard）。
覆盖率（Coverage）：对于选中的变量，本文方法的 95% 条件置信区间的经验覆盖率在 90%-95% 之间，接近名义水平；Naive 方法的覆盖率在 70%-85% 之间，严重不足。
区间长度：本文方法的置信区间比 Naive 方法宽（因为调整了选择偏差），但比 Oracle 方法宽（因为缺失信息导致效率损失）。
I 类错误：对于零效应变量被错误选中的情况，本文方法的条件 p 值在 0.05 水平下的拒绝率约为 0.05-0.08，接近名义水平；Naive 方法的拒绝率高达 0.20-0.30。
与 baseline 对比：本文方法的主要 baseline 是 Naive 方法。作者未与数据分裂方法或 PoSI 方法比较。

证明路线与技术技巧¶

本文为应用型论文，无严格数学证明。作者在 Section 3 中给出了方法推导，但未提供任何定理或渐近理论。核心推导路线如下：

EM 算法 + LASSO：在 E 步，基于当前参数 \( \theta^{(t)} \) 计算每个个体为阳性的后验概率 \( p_i^{(t)} = P(\tilde{Y}_i = 1 \mid \text{data}, \theta^{(t)}) \)。在 M 步，最大化带 LASSO 惩罚的完整数据对数似然：
\[Q(\boldsymbol{\beta} \mid \theta^{(t)}) - \lambda \|\boldsymbol{\beta}\|_1\]
其中 \( Q \) 是完整数据对数似然的条件期望。M 步通过 IRLS 实现。
选择事件刻画：LASSO 选择事件（即哪些变量被选中）可以表示为 KKT 条件。在 IRLS 的最终迭代中，KKT 条件可以写成关于工作响应 \( \mathbf{z} \) 的线性约束：
\[\mathbf{A} \mathbf{z} \leq \mathbf{b}\]
其中 \( \mathbf{A} \) 和 \( \mathbf{b} \) 依赖于设计矩阵 \( \mathbf{X} \)、权重矩阵 \( \mathbf{W} \) 和惩罚参数 \( \lambda \)。
条件分布：假设 \( \mathbf{z} \sim N(\mathbf{X} \boldsymbol{\beta}, \mathbf{W}^{-1}) \)（IRLS 近似），则给定选择事件 \( \{\mathbf{A} \mathbf{z} \leq \mathbf{b}\} \)，\( \boldsymbol{\eta}^\top \hat{\boldsymbol{\beta}}_{\mathcal{M}} \) 的条件分布是截断正态，截断区间由 polyhedral lemma 给出。作者直接套用 Lee et al. (2016) 的公式计算 p 值和置信区间。

关键跳跃点：从“EM 算法收敛后的 IRLS 近似”到“\( \mathbf{z} \) 服从高斯分布”这一跳跃没有理论保证。作者在文中承认这一点（“we do not provide rigorous proofs here”），并依赖模拟验证近似的有效性。

技术技巧点名： - EM 算法：处理缺失数据（个体真实状态）。 - LASSO 惩罚：实现变量选择。 - IRLS（迭代重加权最小二乘）：将 logistic 回归近似为加权线性模型。 - Polyhedral lemma：刻画选择事件的条件分布。 - 无：empirical process、chaining、U-统计量、Stein's method 等高级工具。

真实例子与应用¶

本文包含一个真实数据例子：衣原体（chlamydia）筛查数据。数据来自 Nebraska 公共卫生实验室，包含 2015-2017 年间约 10,000 个个体的分组检测结果（池大小 4-6）。协变量包括年龄、性别、就诊类型等。Se 和 Sp 取自外部文献（Haugland et al., 2010; Whellams, 2021）。

怎么用：将本文方法应用于该数据，进行变量选择和后选择推断。
得到什么结果：选出了几个显著变量（如年龄、性别），并给出了条件置信区间。与 Naive 方法相比，本文方法的置信区间更宽，但作者声称更可靠。
这个例子想说明什么：展示方法在真实数据上的可行性，并说明调整选择偏差的实际影响（Naive 方法可能给出过于乐观的结论）。

🔎 结论是否比证明窄¶

是。本文的结论（“我们的后选择推断方法提供了更可靠的覆盖率和检验水平”）仅基于模拟实验，没有严格的渐近理论支持。作者在文中明确写道：“We do not provide rigorous proofs here of the claimed results, but rather conceptual and theoretical sketches.”（这句话直接引自 Taylor & Tibshirani, 2018，但本文连“theoretical sketches”都很少）。具体而言：

无定理：没有给出任何关于条件分布近似误差的界，也没有证明当 \( n \to \infty \) 时条件推断的渐近有效性。
无高维理论：模拟中 \( p = 10 \) 固定，\( n = 500 \)，属于低维设定。方法在高维（\( p > n \)）下的表现未知。
无模型误指定分析：假设 logistic 模型正确指定，未讨论模型误指定下的稳健性。
泛化 claim 过宽：作者声称方法适用于“any group testing protocol”，但模拟只验证了主协议和二级协议，未验证更复杂的协议（如矩阵分组检测）。

四、开放问题¶

渐近理论缺失：本文方法在什么条件下（样本量、维度、信号强度）是渐近有效的？能否证明条件分布近似误差以 \( O_p(n^{-1/2}) \) 速率衰减？扎根点：作者在 Section 3 末尾承认“we do not provide rigorous proofs”，且全文无定理。
高维一致性：当 \( p \) 随 \( n \) 增长时，本文方法是否仍然有效？Tibshirani et al. (2018) 已证明经典 polyhedral lemma 方法在高维下不一致，本文的近似版本是否继承这一缺陷？扎根点：模拟中 \( p = 10 \) 固定，未探索高维设定。
Se 和 Sp 未知时的推断：本文主要假设 Se 和 Sp 已知。当 Se 和 Sp 需要与 \( \boldsymbol{\beta} \) 联合估计时，后选择推断如何调整？联合估计引入的额外不确定性如何传播到条件分布？扎根点：作者在模拟中考虑了联合估计情形，但未给出理论分析。
与其他后选择推断路线的比较：本文方法（条件推断）与数据分裂方法或 PoSI 方法在分组检测数据下的表现如何？是否存在某种设定下数据分裂方法更优？扎根点：作者在 intro 中提及数据分裂路线，但未在模拟中比较。
模型误指定稳健性：如果 logistic 模型误指定（如存在交互项或非线性），本文方法是否仍然有效？扎根点：作者假设 logistic 模型正确指定，未讨论稳健性。

Maintained by 陈星宇 · Homepage · Source on GitHub