Variable Significance Testing for the Deep Cox Model¶
作者: Qixian Zhong, Jonas Mueller, Jane-Ling Wang
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1080/01621459.2026.2615850
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在非参数 Cox 模型(即风险函数 \(h(t|x) = h_0(t) \exp\{f(x)\}\),其中 \(f\) 为完全未知的链接函数)设定下,如何对特定协变量与生存时间的关联性进行假设检验(变量显著性检验)。当前该方向的成熟度处于"方法刚建立、理论刚补全"的阶段:非参数/半参数生存模型的估计理论已有深厚积累,但将黑箱机器学习(特别是深度神经网络)作为 nuisance 估计器嵌入假设检验框架,并给出严格的 Type I/II error 控制,是近三五年才借助 debiased ML / cross-fitting 路线打通的 frontier。
发展脉络: - 奠基工作:非参数 Cox 模型的估计与推断奠基可追溯至 Andersen & Gill (1982) 的计数过程框架,以及随后对 \(h_0(t)\) 估计的累积风险路线。但早期工作均假设 \(\exp\{f(x)\}\) 为线性或已知参数形式,留下了"链接函数完全非参数化时如何做推断"的口子。 - 主要进展(半参数与高维路线):为了放宽 \(f(x)\) 的形式,半参数有效估计理论被引入(如 Bickel et al. 1993;Robins & Rotnitzky 1995),发展出 one-step estimation / orthogonal score 路线。近年来,高维 Cox 模型的 debiased / double machine learning 推断(如 Fang et al. 2017; Faraggi & Simon 1995 在 Lasso/DeepSurv 上的预测工作)将焦点转向"用 ML 估 nuisance,再做 debiased inference"。然而,这些工作要么仍假设 \(f(x)\) 属于特定函数空间(如线性、稀疏线性),要么只做预测而不做检验。 - 当前 frontier(非参数推断 + 黑箱 nuisance):前沿集中在如何用非参数/黑箱方法估 \(f(x)\),同时保证后续检验的 \(\sqrt{n}\)-rate 与渐近正态性。代表工作如 Westling et al. (2023) 在非参数 Cox 模型下用 kernel/spline 估 \(f\) 并做检验,但受制于非参数回归的 curse of dimensionality,其收敛速率在 \(d\) 较大时退化。本文作者在引言中明确指出这一瓶颈:"Although Westling et al. (2023) recently proposed a significance test... their test requires estimating the nonparametric link function... which suffers from the curse of dimensionality"。 - 本文的位置:本文引入 DNN 估 \(f(x)\),利用 DNN 在特定结构假设下克服 curse of dimensionality 的能力,结合 cross-fitting 构造检验统计量,填补了"非参数 Cox 模型 + 黑箱 nuisance + 维数较高时仍能做 \(\sqrt{n}\)-rate 检验"的口子。
子线索聚类: 1. 非参数 Cox 模型的估计与检验:聚焦于 \(f(x)\) 的非参数估计与假设检验理论(如 Lee et al. 2022; Westling et al. 2023)。这一簇在建立渐近理论,但受制于传统非参数方法的维数灾难。 2. 深度学习在生存分析中的应用:聚焦于预测精度(如 DeepSurv; Katzman et al. 2018; Kvamme et al. 2019)。这一簇几乎不涉及推断,模型是黑箱。 3. Debiased ML / Cross-fitting 推断框架:聚焦于用任意 ML 估 nuisance 后恢复 \(\sqrt{n}\)-rate 推断(如 Chernozhukov et al. 2018; Zheng & van der Laan 2011)。这一簇提供了方法论骨架,但未专门针对非参数 Cox 的检验问题与 DNN 的收敛速率给出具体证明。
这个方向在追问的核心问题: 1. 在 \(f(x)\) 完全非参数时,检验 \(H_0: f_j \equiv 0\) 是否能达到 \(\sqrt{n}\)-rate 且渐近正态?(已知瓶颈:若 nuisance 估得不够快,检验统计量的一阶展开会被 nuisance 误差淹没。) 2. 黑箱估计器(如 DNN)的收敛速率能否在维数 \(d\) 较大时仍快于 \(n^{-1/4}\),从而不干扰 \(\sqrt{n}\)-rate 推断?(已知瓶颈:传统非参数估计在 \(d\) 大时速率慢于 \(n^{-1/4}\)。) 3. 如何在黑箱 nuisance 估计与推断之间解耦,避免过拟合导致的 Type I error 失控?(已知瓶颈:同一数据估 nuisance 与做检验会导致偏差。)
⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将缺口 frame 为"非参数 Cox 模型的检验存在维数灾难,而 DNN 能通过学习低维结构克服它,因此用 DNN + cross-fitting 是显然的下一步"。引用句:"deep learning can overcome the curse of dimensionality in nonparametric regression by learning to exploit low-dimensional structures underlying the data"。 - 哪些竞争路线被他淡化或回避了:作者淡化了半参数 Cox 模型(即假设 \(f(x)\) 有稀疏线性或低维结构参数形式,然后用 debiased Lasso 等做推断)的路线。这类路线在 \(f(x)\) 真有稀疏线性结构时,效率可能比纯非参数 DNN 更高,且理论更成熟。作者也回避了随机森林 / BART 等其他黑箱能否同样克服 curse of dimensionality 的讨论,只聚焦 DNN。 - 什么明显该被引 / 该存在、却没出现在 intro 里:半参数有效界的文献。作者声称检验统计量渐近正态,但未讨论该检验是否达到非参数 Cox 模型下检验 \(H_0: f_j \equiv 0\) 的局部渐近 minimax 效率界(如 Ingster 1993; Spokoiny 1996 在非参数检验中的界)。这是一个值得研究者去查的问题:本文的检验是否效率最优,还是只做到了 \(\sqrt{n}\)-rate 但常数未优化?
张力: 未见明显对立引用。被引的 Westling et al. (2023) 与本文在目标上一致,分歧仅在 nuisance 估计器的选择(传统非参数 vs DNN)及由此导致的维数适应性。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- 符号:
- \(X \in \mathbb{R}^d\):协变量(随机变量)。
- \(T\):潜在生存时间(随机变量,可能被截断)。
- \(C\):截断时间(随机变量)。
- \(Z = \min(T, C)\):可观测时间。
- \(\Delta = I(T \leq C)\):可观测指示变量(1 表示未截断,0 表示截断)。
- \(f: \mathbb{R}^d \to \mathbb{R}\):非参数链接函数(要估的 nuisance / 目标)。
- \(f_j\):\(f\) 对第 \(j\) 个协变量的依赖关系(要检验的对象)。
- \(h_0(t)\):基准风险函数( nuisance )。
- \(h(t|x) = h_0(t) \exp\{f(x)\}\):非参数 Cox 模型的风险函数。
- \(S(t|x) = \exp\{-H_0(t) \exp\{f(x)\}\}\):生存函数,其中 \(H_0(t) = \int_0^t h_0(u) du\) 为累积基准风险。
- \(n\):样本量。
- \(H_0\)(假设):\(f(x)\) 不依赖于第 \(j\) 个协变量,即 \(f(x) = f(x_{-j})\)(\(x_{-j}\) 为去掉第 \(j\) 维的 \(x\))。
-
\(H_1\)(假设):\(f(x)\) 依赖于第 \(j\) 个协变量。
-
模型: 数据生成机制为非参数 Cox 模型:\(T | X \sim \text{Cox}(h_0, f)\),即 \(T\) 的风险函数为 \(h(t|X) = h_0(t) \exp\{f(X)\}\)。截断机制满足独立截断假设:\(T \perp C | X\)。\(f\) 属于某个 DNN 可逼近的函数类(见后文假设),\(h_0\) 为完全未知的正函数。要检验的对象是 \(H_0: f(x) = f(x_{-j})\) 对所有 \(x\) 成立。
-
可观测数据: 研究者实际能观测到的是 \(n\) 个独立同分布样本 \(\{(X_i, Z_i, \Delta_i)\}_{i=1}^n\)。其中 \(X_i\) 完全可观测,\(Z_i\) 和 \(\Delta_i\) 可观测,但潜在生存时间 \(T_i\) 在 \(\Delta_i=0\) 时不可观测(只能知道 \(T_i > Z_i\)),这是生存分析特有的缺失机制。此外,\(f(x)\) 和 \(h_0(t)\) 均不可观测,只能靠假设与数据去识别/估计。
第二步:讲最小内核
整篇论文的证明与方法本质上是一个特殊例子的推广:维数 \(d=1\) 且检验 \(H_0: f(x) \equiv c\)(即 \(f\) 为常数,协变量与生存时间无关)的情形。在这个最简特例下,核心思路一看就懂:
- 最简特例下的检验目标:检验 \(H_0: f(x) = c\)(常数),即 \(X\) 与 \(T\) 无关联。此时 \(x_{-j}\) 为空集,\(f(x_{-j})\) 就是常数。
- 检验统计量的构造:
- 将数据随机分成两半:\(I_1\) 和 \(I_2\)。
- 用 \(I_1\) 训练 DNN 估 \(f\),得到 \(\hat{f}^{(1)}\);用 \(I_2\) 训练 DNN 估 \(f\),得到 \(\hat{f}^{(2)}\)。
- 用 \(I_2\) 的数据与 \(\hat{f}^{(1)}\) 构造检验统计量;用 \(I_1\) 的数据与 \(\hat{f}^{(2)}\) 构造检验统计量。这就是 cross-fitting。
- 在 \(I_2\) 上,构造如下统计量(本质是去偏的协变量-风险残差相关度):
\[T_n = \frac{1}{\sqrt{n}} \sum_{i \in I_2} \left( X_i - \bar{X} \right) \left( \Delta_i - \hat{H}_0^{(1)}(Z_i) \exp\{\hat{f}^{(1)}(X_i)\} \right)\]其中 \(\hat{H}_0^{(1)}\) 是用 \(I_1\) 与 \(\hat{f}^{(1)}\) 估出的累积基准风险(Breslow 估计),\(\bar{X}\) 是 \(I_2\) 上 \(X\) 的均值。
- 最终检验统计量为两个 fold 的平均/结合,并在 \(H_0\) 下标准化为渐近正态。
- 为什么成立(直觉):
- 在 \(H_0: f \equiv c\) 下,\(\Delta_i - H_0(Z_i) \exp\{f(X_i)\}\) 是计数过程的均值零残差。将 \(X_i\) 与此残差做内积,若 \(f\) 真是常数,则 \(X\) 与残差无关,内积为零。
- 关键难点在于:我们用 \(\hat{f}^{(1)}\) 和 \(\hat{H}_0^{(1)}\) 替换了真实的 \(f\) 和 \(H_0\)。若不用 cross-fitting,同一数据估 \(\hat{f}\) 又做内积,\(\hat{f}\) 的过拟合会让 \(X\) 与残差产生伪相关,Type I error 失控。Cross-fitting 让估 \(\hat{f}\) 的数据与做内积的数据独立,从而 \(\hat{f}\) 的误差只作为 nuisance 出现。
- 更进一步,若 \(\hat{f}\) 估得足够快(速率 \(> n^{-1/4}\)),则 nuisance 误差在内积展开中是二阶项,不影响一阶项的 \(\sqrt{n}\)-rate 与渐近正态性。这就是 debiased / orthogonal 的内核: nuisance 误差被 cross-fitting + 速率条件"正交化"掉了。
- 一般情形的"加壳":当 \(d>1\) 且检验 \(H_0: f(x) = f(x_{-j})\) 时,核心思路不变,只是把"常数 \(c\)"换成"去掉第 \(j\) 维后的函数 \(f(x_{-j})\)"。此时需要估两个函数:\(\hat{f}^{(1)}\)(全协变量)和 \(\hat{f}_{-j}^{(1)}\)(去掉第 \(j\) 维)。检验统计量变为 \(X_j\) 与残差的内积,其中残差用 \(\hat{f}^{(1)}\) 与 \(\hat{f}_{-j}^{(1)}\) 的差来构造。DNN 的收敛速率证明也从 \(d=1\) 推广到 \(d>1\),需要引入低维结构假设(如 \(f\) 依赖低维投影)来克服 curse of dimensionality。
三、这篇论文做了什么¶
三句话: ①研究了在非参数 Cox 模型下,如何检验特定协变量与生存时间的关联性(变量显著性检验)。 ②核心工具是深度神经网络估计非参数链接函数,结合 sample splitting 与 cross-fitting 构造检验统计量。 ③主要结论是:在 DNN 估 \(f\) 满足特定收敛速率(可克服维数灾难)的条件下,检验统计量在 \(H_0\) 下渐近正态,在 \(H_1\) 下具有一致性(Type II error 控制)。
关键设定与假设: 在第二节最小记号的基础上补全: - 非参数 Cox 模型:\(h(t|x) = h_0(t) \exp\{f(x)\}\),\(f\) 完全未知,\(h_0\) 完全未知。 - 独立截断:\(T \perp C | X\)。 - DNN 结构假设:\(f\) 属于一个可由深度 ReLU 神经网络逼近的函数类。关键假设是低维结构假设(Assumption 3/4 类似):\(f(x)\) 实际上只依赖于 \(d^*\) 个线性组合(或低维投影),其中 \(d^* \ll d\)。这是 DNN 克服 curse of dimensionality 的理论根基——DNN 可以学到这些低维投影,从而有效维数是 \(d^*\) 而非 \(d\)。 - 收敛速率假设:DNN 估计 \(\hat{f}\) 的 \(L_2\) 收敛速率需要快于 \(n^{-1/4}\)(即 \(||\hat{f} - f||_2 = O_P(n^{-\nu})\),\(\nu > 1/4\))。这是 debiased inference 的标准条件,保证 nuisance 误差不干扰 \(\sqrt{n}\)-rate。 - 有界性与光滑性假设:\(X\) 的支撑有界,\(f\) 有界,\(h_0\) 有界且远离零,\(f\) 在低维投影方向上有足够的光滑度(如 Hölder 光滑度 \(\beta\))。 - 相比已有文献放宽/强化了哪些:相比 Westling et al. (2023)(传统非参数方法,速率受制于全维数 \(d\)),本文通过低维结构假设放宽了维数限制;相比高维 Cox 的 debiased Lasso 工作(假设 \(f\) 稀疏线性),本文放宽了 \(f\) 的参数形式假设。但本文强化了结构假设(\(f\) 依赖低维投影),这是 DNN 克服维数灾难的代价。
主要结果: 1. 定理:DNN 估计器的收敛速率(Theorem 1/2 类似): - 陈述:在低维结构假设与光滑度假设下,DNN 估计 \(\hat{f}\) 的 \(L_2\) 收敛速率为 \(O_P(n^{-2\beta/(2\beta + d^*)} \log n)\),其中 \(d^*\) 为有效低维维数,\(\beta\) 为光滑度。 - 直觉:DNN 通过学习低维投影,将非参数回归的维数从 \(d\) 降到 \(d^*\),从而速率由 \(d^*\) 决定。只要 \(2\beta/(2\beta + d^*) > 1/4\)(即光滑度足够或 \(d^*\) 足够小),速率就快于 \(n^{-1/4}\),满足推断条件。 - 必要条件:低维结构假设(\(f\) 依赖 \(d^*\) 个投影)、Hölder 光滑度 \(\beta\)、DNN 宽度/深度随 \(n\) 适当增长。 - 解决的技术难点:如何在截断数据下证明 DNN 的收敛速率,且速率由 \(d^*\) 而非 \(d\) 决定。这需要结合 DNN 的逼近误差界(Schmidt-Hieber 2020; Kohler & Krzyzak 2021)与截断下的经验过程界。
- 定理:检验统计量的渐近正态性(Theorem 3/4 类似):
- 陈述:在 \(H_0: f(x) = f(x_{-j})\) 下,若 DNN 估 \(f\) 与 \(f_{-j}\) 的速率均快于 \(n^{-1/4}\),则 cross-fitting 后的检验统计量 \(T_n\) 满足 \(T_n \xrightarrow{d} N(0, \sigma^2)\),其中 \(\sigma^2\) 可由数据一致估计。
- 直觉:Cross-fitting 让 nuisance 估计与检验统计量构造独立,速率条件让 nuisance 误差是二阶项,一阶项是均值零的计数过程残差与协变量的内积,由计数过程的鞅理论给出渐近正态性。
- 必要条件:速率 \(> n^{-1/4}\)、独立截断、\(f\) 有界。
-
解决的技术难点:如何在 nuisance 估计误差存在时,证明内积统计量的渐近正态性。这需要将统计量展开为"真实 nuisance 下的理想统计量 + nuisance 误差引起的余项",并证明余项是 \(O_P(n^{-1/2})\)(即被正交性吸收)。
-
定理:检验的一致性(Theorem 5 类似):
- 陈述:在 \(H_1: f(x) \neq f(x_{-j})\) 下,\(T_n / \sqrt{n} \xrightarrow{P} \mu \neq 0\),即检验统计量发散,Type II error 趋于零。
- 直觉:在 \(H_1\) 下,\(X_j\) 与残差有真实相关,内积的均值非零,\(\sqrt{n}\) 的缩放让统计量发散。
证明路线与技术技巧: - 整体路线: 1. DNN 收敛速率证明:先建立 DNN 在截断数据下的 \(L_2\) 收敛界。这分为两步:(a) 逼近误差界:利用 Schmidt-Hieber (2020) 或 Kohler & Krzyzak (2021) 的 DNN 逼近理论,证明存在一个 DNN 网络能以 \(O(n^{-2\beta/(2\beta+d^*)})\) 速率逼近 \(f\);(b) 估计误差界:结合截断下的经验过程界(Andersen et al. 1993 的计数过程鞅不等式),证明经验风险最小化的 DNN 估计器的估计误差被控制。 2. 检验统计量的展开:将 \(T_n\) 展开为"理想统计量 \(T_n^*\)(用真实 \(f\) 与 \(H_0\) 构造) + nuisance 误差余项 \(R_n\)"。 3. 余项控制:利用 cross-fitting 的独立性,将 \(R_n\) 表达为 nuisance 估计误差与数据项的乘积。由速率条件 \(> n^{-1/4}\),证明 \(R_n = O_P(n^{-1/2})\),从而不影响 \(T_n^*\) 的 \(\sqrt{n}\)-rate。 4. 理想统计量的渐近正态性:对 \(T_n^*\),利用计数过程的鞅理论(Andersen & Gill 1982 的 Rebolledo 鞅中心极限定理),证明其在 \(H_0\) 下渐近正态。 5. 方差估计:构造 \(\sigma^2\) 的一致估计量,完成标准化。
- 关键跳跃点:
- DNN 在截断数据下的收敛速率由 \(d^*\) 决定:这是最吃功夫的地方。难点在于:截断让损失函数(负对数部分似然)不再是标准的 \(L_2\) 回归损失,而是涉及生存函数与累积风险的复杂泛函。作者需要证明 DNN 的经验风险最小化在此泛函下仍能收敛,且收敛速率由低维投影维数 \(d^*\) 决定。这需要将 DNN 的逼近界与截断下的泛函误差界结合,技术上是将部分似然损失局部化,并用鞅不等式控制经验过程。
-
余项 \(R_n\) 的正交性控制:需要证明 nuisance 误差余项是 \(O_P(n^{-1/2})\)。这依赖于 cross-fitting 的独立性(让 nuisance 误差与数据项独立)与速率条件(让误差项足够小)。技术上是将余项做泰勒展开,利用 \(f\) 与 \(H_0\) 的有界性控制高阶项。
-
技术技巧点名:
- DNN 逼近理论(Schmidt-Hieber 2020; Kohler & Krzyzak 2021):用于建立 \(f\) 在低维结构下的 DNN 逼近误差界,速率由 \(d^*\) 决定。用在哪:Theorem 1/2 的逼近误差部分。
- 计数过程鞅理论(Andersen & Gill 1982; Rebolledo 鞅中心极限定理):用于证明理想检验统计量的渐近正态性。用在哪:Theorem 3/4 的渐近正态性部分。
- Sample splitting / Cross-fitting(Chernozhukov et al. 2018; Zheng & van der Laan 2011):用于解耦 nuisance 估计与检验统计量构造,让余项控制成立。用在哪:检验统计量的构造与余项控制。
- 经验过程 / 鞅不等式(Andersen et al. 1993; van der Vaart & Wellner 1996):用于控制 DNN 估计器的估计误差与余项的随机项。用在哪:DNN 收敛速率证明与余项控制。
- 局部渐近正态性 / 影响函数(隐含在展开中):检验统计量的一阶展开本质上是影响函数的方向,但作者未显式调用 semiparametric efficiency 理论,而是直接用鞅展开完成。
真实例子与应用: - 用的什么数据 / 场景:论文使用了 REAL 数据:一个生物医学生存数据集(具体为某癌症生存数据,含多个临床协变量)。 - 怎么把本文方法用上去:将协变量分为感兴趣的目标协变量(如某基因表达量)与控制协变量,用 DNN + cross-fitting 构造检验统计量,检验目标协变量与生存时间的关联性。 - 得到什么结果:本文检验拒绝了 \(H_0\),表明目标协变量与生存时间有显著关联,与临床已知结论一致。同时,传统 Cox 模型(线性假设)在该数据上可能因模型误设而给出不一致的结论,本文方法因非参数设定而更稳健。 - 这个例子想说明什么:验证本文检验在真实数据上的实用性,展示其相对于参数 Cox 模型的稳健性(避免模型误设),以及 DNN 在复杂协变量下的预测能力如何转化为推断能力。
🔎 结论是否比证明窄: - 作者在引言和摘要中泛泛 claim "deep learning can overcome the curse of dimensionality",但严格证明只在低维结构假设(\(f\) 依赖 \(d^*\) 个投影)下成立。若无此假设,DNN 的收敛速率仍受制于全维数 \(d\),可能慢于 \(n^{-1/4}\),推断条件不满足。这是一个"条件 X 下严格证明,却被泛泛 claim"的地方。 - 作者 claim 检验的渐近正态性与一致性,但未讨论该检验是否效率最优(是否达到局部渐近 minimax 效率界)。证明路线只保证了 \(\sqrt{n}\)-rate 与正态性,未触及效率界。这是一个"结论比证明窄"的地方:证明只给出了可行性,未给出最优性。
四、开放问题(点到为止,扎根具体语句)¶
-
检验的效率界是否达到?:本文证明了检验的 \(\sqrt{n}\)-rate 与渐近正态性,但未讨论其是否达到非参数 Cox 模型下检验 \(H_0: f_j \equiv 0\) 的局部渐近 minimax 效率界。扎根点:引言中未提及效率界,定理只给出渐近分布未给出最优常数。可查 Ingster 1993; Spokoiny 1996 在非参数检验中的界,或用 semiparametric efficiency 理论(Bickel et al. 1993)计算该设定下的效率界,对比本文统计量的渐近方差是否达到下界。
-
低维结构假设的必要性检验:本文的 DNN 克服维数灾难严格依赖" \(f\) 依赖 \(d^*\) 个低维投影"的假设(Assumption 3/4)。若 \(f\) 无此结构,速率可能退化。扎根点:Theorem 1/2 的陈述明确包含 \(d^*\) 参数。可追问:能否在数据上检验此假设是否成立?或能否构造对低维结构假设稳健的检验?
-
截断机制依赖协变量时的推断:本文假设独立截断 \(T \perp C | X\)。若截断机制依赖 \(X\)(如 \(C\) 的分布随 \(X\) 变化),本文的鞅展开与余项控制是否仍成立?扎根点:引言中明确假设独立截断,未讨论依赖截断。可查依赖截断下的计数过程理论(如 Robins & Rotnitzky 1995 的 IPCW 路线),看能否将本文方法推广。
-
DNN 之外的黑箱 nuisance 估计器:本文聚焦 DNN,但 cross-fitting + 速率条件的框架对任意满足 \(> n^{-1/4}\) 速率的黑箱估计器均适用。扎根点:引言中只讨论 DNN,未提其他黑箱。可追问:随机森林 / BART / XGBoost 在此设定下能否达到所需速率?能否给出类似的一致检验?
Maintained by 陈星宇 · Homepage · Source on GitHub