Post‐selection inference for the Cox model with interval‐censored data¶
作者: Jianrui Zhang, Chenxi Li, Haolei Weng
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述(≥25%)¶
这个方向是什么¶
Post-selection inference (PoSI) 回答的是这样一个统计问题:在数据驱动的变量选择(如 lasso)之后,如何对被选中的变量的回归系数进行有效的假设检验和区间估计?经典的推断理论假设模型是预先指定的,而数据驱动的选择会扭曲选定系数的分布(例如 lasso 的估计量有非零概率恰好为0,导致常规标准误和置信区间覆盖不足)。PoSI 的目标是构造一种条件于选择事件的推断程序,使得在给定“哪些变量被选中”这一事实下,p 值和置信区间具有正确的频率性质。当前这个子方向的成熟度:对于线性回归和高斯误差,已有精确有限样本方法(polyhedral 框架);对于广义线性模型和 Cox 比例风险模型(右删失)已有渐近方法;但区间删失(interval-censored)数据下的 PoSI 仍为空白。本文填补的就是这一缺口。
发展脉络(从引言 + 参考文献梳理)¶
按时间顺序,PoSI 的主要进展可分为三波:
- 奠基性工作——揭示问题与条件推断框架的提出
- Leeb & Pötscher (2005, 2006, 2007) 证明:无条件地估计后选择估计量的分布是不可能的(minimax 下界逼近1/2),从而正式确立了“需要条件推断”这一共识。
- Fithian, Sun & Taylor (2014, influential) 提出选择性错误率控制(selective Type I error)的概念,并指出通过控制“给定测试被执行”的错误率可以恢复频率性质,与数据切分有相似直觉但更有效。
-
Lee, Sun, Sun & Taylor (2016, influential) 给出 lasso 后推断的精确有限样本方法——将选择事件刻画为对响应变量 y 的多面体约束(polyhedral set),从而得到截断正态分布,实现精确的 p 值和置信区间。这一方法成为条件推断的标杆。
-
主要进展:推广到广义线性模型、Cox 模型与高维渐近
- Taylor & Tibshirani (2018, influential)(即加拿大统计学期刊上的论文)将 Lee et al. 的框架推广到 \(\ell_1\) 惩罚似然模型,包括 logistic 回归、右删失 Cox 模型和 graphical lasso。该方法提供渐近有效的 p 值和置信区间,但仅适用于固定维数 p,且仅提供了概念性证明(“conceptual and theoretical sketches”,未给出严格证明)。
- Berk, Brown, Buja, Zhang et al. (2013, influential) 提出另一种路线:通过同时推断(simultaneous inference)对所有可能的子模型进行 Scheffé 型校正,获得任何选择程序下的保守推断。该方法的优点是无需依赖选择程序的具体形式,缺点是对特定选择程序(如 lasso)过于保守。
-
Tian & Taylor (2017, 2018, influential) 建立了条件推断在高维线性模型(\(p\) 增长)下的渐近理论,并引入了随机化响应以提高功效。但同样仅适用于线性模型。
-
其他重要支线
- debiased lasso 路线(van de Geer et al., 2014; Zhang & Zhang, 2014; Javanmard & Montanari, 2014):通过构造近无偏估计量直接进行推断,不依赖于选择事件的条件分布。本文引文中提及其“不是本文焦点”。
- bootstrap 与随机化方法(Tibshirani et al., 2018; Tian & Taylor, 2018):提供替代的非参数条件推断,适用于更广泛的误差分布。
-
区间删失数据下的估计基础:Zeng, Mao & Lin (2016, influential) 给出了区间删失数据下变换模型的 NPMLE 的渐近理论,包括 least favorable direction 的存在性和中心极限定理;Li, Pak & Todem (2020) 提出了区间删失 Cox 模型的 adaptive lasso 变量选择(oracle property)。这些为本文的 PoSI 提供了基础估计理论。
-
当前前沿与本文位置
当前条件推断的前沿主要集中在: - 将 polyhedral 框架推广到更复杂的模型(如 Cox 模型已有右删失版本,但缺少区间删失版本);
- 提高高维情形下的功效(随机化、参数规划、稳定化目标);
- 与 debiased lasso 路线的比较与融合。
本文的位置:它是第一个将条件推断(Fithian–Lee–Taylor 框架)扩展到区间删失数据下的 Cox 模型的工作。其直接前驱是 Taylor & Tibshirani (2018) 对右删失 Cox 模型的 PoSI,而本文面临的额外困难在于区间删失似然中包含非参数累积基线风险函数,导致 efficient score 需要估计 least favorable direction。
子线索聚类¶
这些被引文献可大致归为3条子线索:
| 子线索 | 代表性工作 | 核心思路 |
|---|---|---|
| 条件推断 (Conditional inference) | Lee et al. (2016), Fithian et al. (2014), Taylor & Tibshirani (2018), Tian & Taylor (2017), Tibshirani et al. (2016) | 构建选择事件的精确/渐近表达式,条件于该事件进行推断。多数工作假设 Gaussian 或可局部化为 Gaussian。 |
| 同时推断 (Simultaneous inference) | Berk et al. (2013) | 对所有子模型同时进行校正(如 Scheffé 保护),保守但通用。 |
| 随机化 & 重抽样 | Tian & Taylor (2018), Tibshirani et al. (2018), Liu et al. (2018) | 通过引入随机性或 bootstrap 提高功效或放松分布假设。 |
| debiased lasso | van de Geer et al. (2014), Zhang & Zhang (2014), Javanmard & Montanari (2014) | 构造近无偏估计量,不依赖选择事件,适用于高维。 |
本文明确站在第一条子线索(条件推断)上,并利用第二条子线索(debiased lasso)作为对照(但未采用)。
这个方向在追问的核心问题¶
- 如何在选择事件无法精确刻画(如非线性模型、非高斯误差)时获得有效推断?
当前主流方法依赖局部渐近正态性(LAN),将选择事件近似为线性约束。 - 当维数 \(p\) 随样本量增长时,条件推断是否仍均匀有效?
Taylor & Tibshirani (2018) 论文的附录指出其检验统计量在高维下不具有均匀有效性(引自 Tibshirani et al., 2018, p. 22 的结论)。 - 如何在保留条件推断框架的同时提高功效?
随机化、稳定化目标(Liu et al., 2018)是两条尝试,但尚未达成共识。 - 对于生存分析中的区间删失数据,非参数基线风险的引入如何影响选择事件的多面体近似?
这是本文试图回答的核心问题。
⚠️ 作者的 framing(必须明确标注为作者说法)¶
作者在引言中将缺口 frame 为:“已有 post-lasso inference 方法适用于线性模型、GLM 以及右删失 Cox 模型,但尚无针对区间删失数据的方法”(隐含引用 Taylor & Tibshirani, 2018 覆盖右删失,但未覆盖区间删失)。因此本文成为“显然的下一步”。
- 被淡化/回避的竞争路线:debiased lasso 路线(van de Geer et al., 2014 等)被一句“not the focus of this paper”带过,但实际上 debiased lasso 也可用于区间删失 Cox 模型(只需构造出 efficient score 的近似),作者未在该方向展开比较。
- 明显可能该被引但未出现的:
- 关于区间删失数据下 debiased lasso 推断的任何论文(若有的话);
- 关于高维区间删失 Cox 模型的变量选择后推断(现有 Du & Sun, 2022 只做变量选择,未做推断);
- 关于条件推断在非参数模型中的一般理论(如 Tian & Taylor 2017 的非参数情形)。
张力¶
未见明显的直接对立引用。不同子线索(条件推断 vs 同时推断 vs debiased lasso)之间是互补而非矛盾的关系,因为各自的假设和目标不同(条件推断目标是条件于选择事件的有效性,debiased lasso 目标是无条件的高维推断)。唯一可称为“张力”的是:Berk et al. (2013) 的同时推断方法声称对任意选择程序都有效,但代价是保守性;而条件推断方法在特化到具体选择程序(如 lasso)时可能更精确,但依赖于对选择事件的正确刻画。本文没有直接讨论这种紧张关系。
二、最核心、最简单的例子 / 数学问题(≥15%)¶
第一步:符号、模型、可观测数据交代清楚¶
符号(所有记号定义如下,后续节将直接使用):
| 记号 | 含义 | 类型 |
|---|---|---|
| \(T^*\) | 真实的失效时间 | 潜在随机变量 |
| \(L, R\) | 观测到的检查时间区间(\(L < T^* \le R\),若精确观测则 \(L=R\)) | 可观测随机变量 |
| \(X \in \mathbb{R}^p\) | \(p\) 维协变量向量(假设 \(p\) 固定,不随 \(n\) 增长) | 可观测随机变量 |
| \(\beta \in \mathbb{R}^p\) | Cox 模型对数风险比的回归系数 | 待估参数(有限维) |
| \(\lambda_0(t)\) | 基线风险函数 | 非参数(无穷维) |
| \(\Lambda_0(t) = \int_0^t \lambda_0(s)ds\) | 累积基线风险函数 | 非参数 |
| \(n\) | 样本量 | 标量 |
| \(\mathcal{L}_n(\beta, \Lambda)\) | 基于观测数据的似然函数(区间删失情形) | 函数 |
| \(S_n(\beta, \Lambda)\) | 似然的 score 函数(对 \(\beta\) 的偏导) | 随机向量 |
| \(I(\beta, \Lambda)\) | 半参数有效信息矩阵(Efficient information matrix) | \(p \times p\) 矩阵 |
| \(h^*(x, t)\) | 在 \((\beta^*, \Lambda^*)\) 处的 least favorable direction 函数(见 Zeng et al., 2016) | 函数 |
| \(\hat{\beta}^{\text{lasso}}\) | Lasso 估计量(带惩罚的 NPMLE) | 估计量 |
| \(\mathcal{M}\) | Lasso 选中的模型(非零系数指标集) | 随机集合 |
| \(\mathcal{S}\) | 选择事件,形如 \(\{\mathcal{M} = M\}\) | 随机事件 |
模型(直白语言): - 数据生成机制:给定协变量 \(X\),失效时间 \(T^*\) 的条件风险函数服从 Cox 比例风险模型:
可观测数据:独立同分布样本 \(\{(L_i, R_i, X_i)\}_{i=1}^n\)。
不可观测/潜在量:真实失效时间 \(T_i^*\)。
推断目标:对于 lasso 选中的每个变量 \(j \in \mathcal{M}\),检验 \(H_0: \beta_j = 0\) 并提供置信区间,条件于 \(\mathcal{M} = M\)。
第二步:讲最小内核¶
剥去一般性假设和区间删失的技术细节,支撑整篇论文的最小内核是这样一个事实:
在局部参数设定下(\(\beta = \beta_0 + \delta/\sqrt{n}\)),半参数 Cox 模型的 efficient score 函数近似为高斯线性函数,且 lasso 选择事件可以近似表示为对该 score 的线性不等式约束。因此,条件于选择事件的渐近分布可以通过一个单调变换映射为均匀分布。
最简特例:设只有 \(p=1\) 个协变量(但文中假设 \(p\) 固定,这里为最小值方便),且 lasso 的惩罚参数选择使得当且仅当该系数的估计非零时才被选中。观测数据为 \(\{(L_i, R_i, X_i)\}\)。
- 原假设:\(H_0: \beta_0 = 0\)。考虑局部参数 \(\beta = \delta/\sqrt{n}\)。
-
efficient score(对 \(\beta\) 的一阶偏导投影到正交补空间):记 \(U_n(\beta_0, \hat{\Lambda}_0)\) 为在 \(\beta_0\) 和某个初始估计 \(\hat{\Lambda}_0\) 下的 efficient score。在真值附近,\(U_n\) 可展开为
\[U_n \approx \frac{1}{\sqrt{n}} \sum_{i=1}^n \psi_i + I_0 \cdot \delta,\]其中 \(\psi_i\) 是影响函数,\(I_0\) 是有效信息矩阵。渐近正态性成立:\(U_n \Rightarrow N(I_0\delta, I_0)\)。 -
选择事件:Lasso 的 KKT 条件在局部参数下变为对 \(U_n\) 的线性不等式(因为惩罚项可近似为在 \(\beta=0\) 处的一阶展开)。例如,选中该变量当且仅当 \(|U_n| > \lambda\)(\(\lambda\) 为某个阈值),更精确地,选择事件可写为 \(U_n \in [a, b]\) 或 \(U_n \notin [a, b]\)(取决于是否考虑符号)。
-
构造 pivot:定义
\[T = \Phi\left( \frac{ U_n - I_0\delta_0 }{\sqrt{I_0}} \right),\]其中 \(\Phi\) 是标准正态 CDF。在原假设 \(\delta_0=0\) 下,\(U_n\) 的边际分布是 \(N(0, I_0)\),所以 \(T\) 边缘均匀。在条件于选择事件 \(\{U_n \in [a,b]\}\) 下,\[T \mid \{U_n \in [a,b]\} \ \text{的分布为} \ \text{Uniform}( \Phi(a/\sqrt{I_0}),\ \Phi(b/\sqrt{I_0}) ).\]因此,一个有效的条件 p 值可以通过将观测到的 \(T\) 与截断均匀分布比较得到,或更直接地,通过计算\[p\text{-value} = \frac{\Phi( U_n / \sqrt{I_0} ) - \Phi(a/\sqrt{I_0})}{\Phi(b/\sqrt{I_0}) - \Phi(a/\sqrt{I_0})}.\]这正是在线性回归中 Lee et al. (2016) 使用的思想。由于 Cox 模型下选择事件的多面体形式是近似的(因需要估计 nuisance 参数),严格证明需要 LAN 和 empirical process 技术,但其核心思想与最简例子完全相同。
为什么这算“最小内核”:本文全文的一般情形(\(p>1\)、半参数、区间删失)与上面这个1维例子之间的差距,仅仅是:① efficient score 的估计需要引入 least favorable direction \(h^*\);② 选择事件变为高维多面体;③ 区间的边界需要由 KKT 条件通过影响函数近似表示。但数学结构 —— efficient score 的渐近线性和选择事件的多面体近似 —— 完全一致。
三、这篇论文做了什么(≥45%,重心)¶
三句话¶
① 研究问题:在区间删失数据下,对于 Cox 比例风险模型,如何构造 lasso 模型选择后的条件有效的 p 值和置信区间。
② 核心工具:利用局部参数设定下的渐近正态性,将 lasso 选择事件近似为对 efficient score 的线性不等式约束,构造一个标准正态 CDF 变换后的 pivot,使其条件分布收敛到均匀分布。
③ 主要结论:该 pivot 在固定维数 \(p\) 和标准正则条件下渐近均匀;构造了 efficient information matrix 的三种一致性估计;模拟和 ADNI 实际数据表明方法可行。
关键设定与假设¶
设定: - 区间删失数据:每个个体 \(i\) 独立观测到 \((L_i, R_i, X_i)\),其中 \(0 \le L_i < R_i \le \infty\)(允许右删失点为无穷),且失效时间 \(T_i^*\) 落在 \((L_i, R_i]\) 中。检查过程假设为共轭删失(conditionally independent censoring given \(X\))。 - Cox 比例风险模型:\(\lambda(t \mid X) = \lambda_0(t) \exp(\beta^\top X)\)。 - 维数 \(p\) 固定,不随 \(n\) 增长。 - Lasso 惩罚用于变量选择,惩罚参数 \(\lambda\) 由某种数据驱动准则(如 GIC,作者使用 \(\kappa=4\) 的广义信息准则)选择,但理论部分假设 \(\lambda\) 固定(或至少随 \(n\) 以适当速率衰减)。
主要假设(综合自文中条件 C1–C5,并引用 Zeng et al. 2016 和 Li, Pak, Todem 2020):
| 编号 | 假设 | 统计含义 | 与文献比较 |
|---|---|---|---|
| C1 | 协变量 \(X\) 有界支撑,且 \(E[XX^\top]\) 正定 | 保证信息矩阵非退化 | 标准正则条件 |
| C2 | 累积基线风险 \(\Lambda_0\) 在 \([0, \tau]\) 上连续且有有界变差(\(\tau\) 为最长随访时间) | 非参数组成部分的识别性 | 与 Zeng et al. (2016) 一致 |
| C3 | 检查时间分布与协变量无关;区间长度有界 | 区间删失机制的正则性 | 比右删失情形更严格(因为需要处理区间而非点) |
| C4 | 存在 least favorable direction \(h^*(x, t)\) 且光滑性满足 Donsker 条件 | 保证 efficient score 的经验过程收敛 | 来自 Murphy & van der Vaart (2000) 和 Zeng et al. (2016, p. 269) |
| C5 | 选择事件 \(\mathcal{S}\) 能由关于 efficient score 的线性不等式近似(具体为 Assumption 5, 引用 Zeng et al. 2017 的验证方法) | 这是 PoSI 框架的核心技术假设——它说在局部参数下,lasso 的 KKT 条件可被影响函数线性化 | 对于线性模型是精确的;对于非线性模型是渐近近似;本文首次在区间删失 Cox 中验证该近似 |
相比已有文献的放宽或强化: - 放宽:允许区间删失(而非必须精确或右删失)。 - 强化:与 Taylor & Tibshirani (2018) 相比,本文给出了完整证明,而非“概念性草图”;与 Lee et al. (2016) 相比,本文要求固定 \(p\) 且依赖渐近理论,而非有限样本精确结果。
主要结果¶
定理 1(Pivotal quantity 的条件均匀性)
设 \(\beta_0\) 为真实参数,考虑局部参数序列 \(\beta_n = \beta_0 + \delta / \sqrt{n}\)。令 \(\hat{U}_n\) 为估计的 efficient score(基于 NPMLE 和估计的 least favorable direction),\(\hat{I}_n\) 为一致估计的有效信息矩阵。定义
- 直觉:在局部参数下,efficient score 是渐近正态的(\(N(I_0 \delta, I_0)\)),选择事件近似为对 score 的线性约束(因此形成截断区间),正态 CDF 变换将截断正态分布变为截断均匀分布。
- 必要条件:假设 C5 成立(选择事件的线性近似有效);\(p\) 固定;NPMLE 估计量 \(\hat{\Lambda}\) 收敛足够快(\(\sqrt{n}\) 一致收敛率,由 Zeng et al. 2016 保证)。
- 解决的技术难点:区间删失下 efficient score 的显式表达式未知,作者使用 profile likelihood 方法(通过估计 least favorable direction \(h^*\))构造 \(\hat{U}_n\),并证明其经验过程收敛性等价于真实 score。
定理 2(Efficient information matrix 的估计一致性)
提出三种估计方法:
1. Profile likelihood 方法:直接使用 profile 对数似然的二阶负 Hessian(通过数值差分)得到 \(\hat{I}_n\)。
2. 基于 MM 算法的近似:利用 EM 算法中的信息矩阵近似(Louis 方法的下界变体)。
3. 直接估计影响函数方差:利用估计的 least favorable direction 构造 efficient influence function 的样本方差。
三种估计量在定理 1 的假设下都是 \(\hat{I}_n(\mathcal{M}) \xrightarrow{p} I_0(\mathcal{M})\)(元素一致性)。
模拟:样本量 \(n=200, 400\),\(p=15\)(其中5个非零系数),lasso 通过 GIC 选择惩罚参数。评估指标:条件覆盖率和条件 p 值的均匀性(Q-Q 图)。主要发现: - 未调整选择的方法(即 naive 的 Wald 型置信区间)覆盖率严重偏低(如名义95%实际仅70%-80%)。 - 本文方法(三种信息矩阵估计)的覆盖率接近名义水平(93%-97%之间)。 - 随着 \(n\) 增大,覆盖率和均匀性改善。
重要提醒:模拟中 \(p=15\) 远小于 \(n\),因此不能外推到高维情形。
证明路线与技术技巧¶
整体路线(3-5 步逻辑主干):
1. Step 1: 局部渐近正态性 (LAN) 的建立
在假设 C1–C4 下,利用 Zeng et al. (2016) 的结论,证明 \((\hat{\beta}, \hat{\Lambda})\) 的 NPMLE 是渐近有效的,且 efficient score 函数 \(U_n(\beta_0, \Lambda_0)\) 满足局部渐近正态性:对任何 \(\delta\),有
-
Step 2: 选择事件的渐近线性化
考虑 lasso 的 KKT 条件:对 \(j=1,\dots,p\),\[\hat{S}_{n,j}(\hat{\beta}) - \lambda \cdot \text{sign}(\hat{\beta}_j) + \lambda \cdot \partial \|\hat{\beta}\|_1 = 0,\]其中 \(\hat{S}_{n,j}\) 为对 \(\beta_j\) 的 partial score。在局部参数 \(\beta_n\) 下,将 \(\hat{S}_{n,j}\) 在 \(\beta_0\) 处展开,并代入 NPMLE 的渐近线性表达式,得到\[U_{n,j} + \text{小误差项} \quad \text{满足某个线性不等式}.\]忽略小误差项后,选择事件 \(\mathcal{S}\) 可近似表示为\[\mathcal{S} \approx \{ A U_n \le b \} \quad \text{(对某个矩阵 } A \text{ 和向量 } b \text{)}.\]这是 PoSI 框架中最关键的一步——将非线性的 lasso 条件变换为关于有效得分的线性约束。 -
Step 3: 条件分布收敛
令 \(U_n\) 收敛到 \(Z \sim N(I_0 \delta, I_0)\)。给定近似线性约束 \(\{A Z \le b\}\),\(Z\) 的条件分布是截断多元正态。由于假设 C5 保证近似误差可忽略,因此 \(U_n \mid \mathcal{S}\) 的渐近分布等价于该截断正态。对选中的变量子集 \((\mathcal{M})\) 提取对应分量 \(Z_{\mathcal{M}}\),其条件分布为单变量截断正态(截断区间由选中的 KKT 条件决定)。 -
Step 4: Pivot 的均匀性
利用概率积分变换:若 \(Z_{\mathcal{M}} \mid \mathcal{S} \sim TN(\mu, \sigma^2; [l, u])\),则\[\Phi\left(\frac{Z_{\mathcal{M}} - \mu}{\sigma}\right) \mid \mathcal{S} \sim \text{Uniform}\big(\Phi((l-\mu)/\sigma), \Phi((u-\mu)/\sigma)\big).\]在原假设 \(\delta=0\) 下,\(\mu=0\)。因此,本文构造的\[Q_n = \Phi\left( \frac{\hat{U}_{n,\mathcal{M}}}{\sqrt{\hat{I}_{n,\mathcal{M}}}} \right)\]在给定选择下条件逼近 Uniform。 -
Step 5: 信息矩阵估计的一致性
证明三种估计量的收敛性:第一种通过 profile likelihood 的数值二阶导,利用 NPMLE 的渐近性质(profile 似然是二次的);第二种基于 EM 的 Louis 公式,需要证明其近似误差 \(o_p(1)\);第三种通过 least favorable direction 的样本二阶矩,并利用 Donsker 收敛性。
关键跳跃点: - 跳跃1:从 KKT 条件到线性不等式近似时,需要处理 lasso 惩罚的不可微性和 sign 函数的不连续性。作者使用“在 β=0 处展开且考虑局部参数”的方法,使得 sign(β_j) 在大多数情况下由 δ 的符号决定,从而忽略约束的非线性部分。这个近似在参数远非零时可能失效,但局部参数设定保证了其在 \(n\) 大时有效。 - 跳跃2:Least favorable direction \(h^*\) 的估计误差 \(\hat{h} - h^*\) 对 efficient score 的影响必须为 \(o_p(1/\sqrt{n})\),否则会破坏 LAN 展开。作者引用 Zeng et al. (2016) 的 \(\sqrt{n}\)-一致性,并通过 empirical process 验证 \(\hat{h}\) 属于 Donsker 类。
技术技巧点名: - Empirical process & Donsker 类:用于证明 efficient score 的经验过程收敛到高斯过程,从而保证 LAN 展开成立。 - Profile likelihood & least favorable direction:用于将半参数模型投影到参数方向,得到 efficient score。 - KKT 条件的局部线性化:是连接 PoSI 与半参数理论的桥梁。 - 截断多元正态的概率积分变换:构造 pivot 的标准工具。 - Louis 信息矩阵估计:用于 EM 算法下的信息矩阵近似。
真实例子与应用(有就一定要讲)¶
数据:来自阿尔茨海默病神经影像学倡议(ADNI-1),研究对象为基线时患有轻度认知障碍(MCI)的参与者,终点为从 MCI 到阿尔茨海默病(AD)的转换时间。由于参与者每6个月或12个月进行一次临床评估,转换时间被区间删失(已知发生在两次评估之间)。
方法应用: 1. 变量选择:使用 lasso(adaptive lasso 版本,与 Li et al., 2019 类似)从33个潜在预测变量中选出一个子集。文中列出选中变量(如 ADAS-Cog13、FAQ、海马体积等)。 2. 后选择推断:对每一个选中的变量,使用本文方法计算条件 p 值和 95% 置信区间,并与两种 naïve 方法比较:① 仅用选中变量拟合 Cox 模型(忽略选择);② 数据切分(样本分为两份,一份选择一份推断,作为参考标准)。 3. 结果: - 未调整的 naïve 置信区间普遍比本文方法窄,但作者声称模拟表明 naïve 方法的覆盖率远低于名义值,因此实际中不可靠。 - 数据切分给出的置信区间比本文方法宽(因为只用了部分数据),本文方法在宽度和覆盖率间取得平衡。 - 本文方法确认了 ADAS-Cog13、FAQ、海马体积等与转换时间显著相关(p<0.05),与已有文献(Li et al., 2017; Du & Sun, 2022)一致。
这个例子想说明什么:展示本文方法在实际数据中的可行性,并说明忽略选择会导致过度乐观的推断(更窄但覆盖不足),而本文方法提供了更可靠的区间。
🔎 结论是否比证明窄¶
必须指出以下 “窄结论”: 1. 固定维数 \(p\):文中所有理论结果假设 \(p\) 固定。作者在模拟中使用 \(p=15\)(\(n=200/400\)),但未给出高维情形的理论。引言中引用 Taylor & Tibshirani (2018) 的结论指出其方法在高维下不统一有效,但本文并未声称对高维有效。实际操作中,若 \(p\) 大于 \(n\) 或接近 \(n\),本文方法缺乏理论保证。 2. 局部参数假设:所有理论在 \(\beta = \beta_0 + \delta/\sqrt{n}\) 下成立。若真实参数远离0,选择事件的线性近似可能失效(因为 sign 不再由 δ 主导)。作者在模拟中使用了非零系数固定的设定(即非局部),并报告方法仍然工作良好,但论文中没有正式定理覆盖这种情况。这是理论与模拟之间的一个 gap。 3. 惩罚参数固定:理论中假设惩罚参数 \(\lambda\) 是固定的(或随 \(n\) 适当衰减但不依赖于数据)。实践中 \(\lambda\) 由数据驱动(如 GIC),作者在模拟中使用了 GIC,但 GIC 本身也涉及模型选择,可能影响 PoSI 的有效性。文中未给出数据驱动 \(\lambda\) 下的理论证明,仅在模拟中做了有限验证。
四、开放问题(≈10%,点到为止)¶
-
高维情形(\(p\) 随 \(n\) 增长)下的 PoSI 理论
本文假设 \(p\) 固定。当 \(p \gg n\) 时,选择事件的线性近似需要处理惩罚的伸缩效应和变量选择的不一致性。Taylor & Tibshirani (2018) 指出其检验统计量在高维下不作为均匀有效(Tibshirani et al., 2018, p. 22)。本文的方法很可能也有同样限制。一个开放问题是:能否在一定的稀疏性假设(如 \(\ell_0\) 范数)下,扩展本文的 pivot 到高维,或退而使用 debiased lasso 路线进行比较。 -
非局部参数下的均匀性
本文的 pivot 在局部参数下渐近均匀,但在固定参数下(即 \(\beta\) 不随 \(n\) 收缩),选择事件的近似误差可能积累。Leeb & Pötscher (2005, 2006) 已经证明了无条件推断的不可行性,但条件推断在非局部参数下是否仍能保持渐近有效性?本文未讨论。一个直接的问题是:能否在非局部参数下建立一致的条件推断,或者必须接受 worst-case 保守性? -
其他选择程序(如 adaptive lasso、SCAD)的 PoSI
本文仅针对 lasso。对于具有 oracle property 的选择程序(如 adaptive lasso,Li et al., 2019 已有区间删失版本),选择事件的结构可能不同,其线性近似是否仍成立?这是一个具体的扩展方向。 -
区间删失下其他生存模型的 PoSI
本文限于 Cox 模型。对于比例优势模型或更一般的变换模型(Zeng et al., 2016 已给出估计理论),PoSI 框架可以类似建立,但需要重新推导 least favorable direction 和选择事件的线性化。这是一个相对直接的扩展。 -
Efficient information matrix 估计的数值比较
文中提出了三种估计量,但未给出它们在复杂情况下的数值稳定性比较(如当某些协变量高度相关时,profile likelihood 的数值 Hessian 可能不稳定)。这是一个偏向计算的问题,但对实际用户重要。
提醒:要确认上述某条是否是真 gap,建议阅读同领域近 5 篇关于生存分析 PoSI 或区间删失变量选择的论文的引言。如果大多数都指向同一个问题(如高维扩展),则为共识性缺口;若各说各话,则可能是机会所在。
Maintained by 陈星宇 · Homepage · Source on GitHub