Variable Significance Testing for the Deep Cox Model¶

作者: Qixian Zhong, Jonas Mueller, Jane-Ling Wang
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1080/01621459.2026.2615850

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在非参数 Cox 模型（即风险函数 \(h(t|x) = h_0(t) \exp\{f(x)\}\)，其中 \(f\) 为完全未知的链接函数）设定下，如何对特定协变量与生存时间的关联性进行假设检验（变量显著性检验）。当前该方向的成熟度处于"方法刚建立、理论刚补全"的阶段：非参数/半参数生存模型的估计理论已有深厚积累，但将黑箱机器学习（特别是深度神经网络）作为 nuisance 估计器嵌入假设检验框架，并给出严格的 Type I/II error 控制，是近三五年才借助 debiased ML / cross-fitting 路线打通的 frontier。

发展脉络： - 奠基工作：非参数 Cox 模型的估计与推断奠基可追溯至 Andersen & Gill (1982) 的计数过程框架，以及随后对 \(h_0(t)\) 估计的累积风险路线。但早期工作均假设 \(\exp\{f(x)\}\) 为线性或已知参数形式，留下了"链接函数完全非参数化时如何做推断"的口子。 - 主要进展（半参数与高维路线）：为了放宽 \(f(x)\) 的形式，半参数有效估计理论被引入（如 Bickel et al. 1993；Robins & Rotnitzky 1995），发展出 one-step estimation / orthogonal score 路线。近年来，高维 Cox 模型的 debiased / double machine learning 推断（如 Fang et al. 2017; Faraggi & Simon 1995 在 Lasso/DeepSurv 上的预测工作）将焦点转向"用 ML 估 nuisance，再做 debiased inference"。然而，这些工作要么仍假设 \(f(x)\) 属于特定函数空间（如线性、稀疏线性），要么只做预测而不做检验。 - 当前 frontier（非参数推断 + 黑箱 nuisance）：前沿集中在如何用非参数/黑箱方法估 \(f(x)\)，同时保证后续检验的 \(\sqrt{n}\)-rate 与渐近正态性。代表工作如 Westling et al. (2023) 在非参数 Cox 模型下用 kernel/spline 估 \(f\) 并做检验，但受制于非参数回归的 curse of dimensionality，其收敛速率在 \(d\) 较大时退化。本文作者在引言中明确指出这一瓶颈："Although Westling et al. (2023) recently proposed a significance test... their test requires estimating the nonparametric link function... which suffers from the curse of dimensionality"。 - 本文的位置：本文引入 DNN 估 \(f(x)\)，利用 DNN 在特定结构假设下克服 curse of dimensionality 的能力，结合 cross-fitting 构造检验统计量，填补了"非参数 Cox 模型 + 黑箱 nuisance + 维数较高时仍能做 \(\sqrt{n}\)-rate 检验"的口子。

子线索聚类： 1. 非参数 Cox 模型的估计与检验：聚焦于 \(f(x)\) 的非参数估计与假设检验理论（如 Lee et al. 2022; Westling et al. 2023）。这一簇在建立渐近理论，但受制于传统非参数方法的维数灾难。 2. 深度学习在生存分析中的应用：聚焦于预测精度（如 DeepSurv; Katzman et al. 2018; Kvamme et al. 2019）。这一簇几乎不涉及推断，模型是黑箱。 3. Debiased ML / Cross-fitting 推断框架：聚焦于用任意 ML 估 nuisance 后恢复 \(\sqrt{n}\)-rate 推断（如 Chernozhukov et al. 2018; Zheng & van der Laan 2011）。这一簇提供了方法论骨架，但未专门针对非参数 Cox 的检验问题与 DNN 的收敛速率给出具体证明。

这个方向在追问的核心问题： 1. 在 \(f(x)\) 完全非参数时，检验 \(H_0: f_j \equiv 0\) 是否能达到 \(\sqrt{n}\)-rate 且渐近正态？（已知瓶颈：若 nuisance 估得不够快，检验统计量的一阶展开会被 nuisance 误差淹没。） 2. 黑箱估计器（如 DNN）的收敛速率能否在维数 \(d\) 较大时仍快于 \(n^{-1/4}\)，从而不干扰 \(\sqrt{n}\)-rate 推断？（已知瓶颈：传统非参数估计在 \(d\) 大时速率慢于 \(n^{-1/4}\)。） 3. 如何在黑箱 nuisance 估计与推断之间解耦，避免过拟合导致的 Type I error 失控？（已知瓶颈：同一数据估 nuisance 与做检验会导致偏差。）

⚠️ 作者的 framing： - 作者把缺口 frame 成什么：作者将缺口 frame 为"非参数 Cox 模型的检验存在维数灾难，而 DNN 能通过学习低维结构克服它，因此用 DNN + cross-fitting 是显然的下一步"。引用句："deep learning can overcome the curse of dimensionality in nonparametric regression by learning to exploit low-dimensional structures underlying the data"。 - 哪些竞争路线被他淡化或回避了：作者淡化了半参数 Cox 模型（即假设 \(f(x)\) 有稀疏线性或低维结构参数形式，然后用 debiased Lasso 等做推断）的路线。这类路线在 \(f(x)\) 真有稀疏线性结构时，效率可能比纯非参数 DNN 更高，且理论更成熟。作者也回避了随机森林 / BART 等其他黑箱能否同样克服 curse of dimensionality 的讨论，只聚焦 DNN。 - 什么明显该被引 / 该存在、却没出现在 intro 里：半参数有效界的文献。作者声称检验统计量渐近正态，但未讨论该检验是否达到非参数 Cox 模型下检验 \(H_0: f_j \equiv 0\) 的局部渐近 minimax 效率界（如 Ingster 1993; Spokoiny 1996 在非参数检验中的界）。这是一个值得研究者去查的问题：本文的检验是否效率最优，还是只做到了 \(\sqrt{n}\)-rate 但常数未优化？

张力：未见明显对立引用。被引的 Westling et al. (2023) 与本文在目标上一致，分歧仅在 nuisance 估计器的选择（传统非参数 vs DNN）及由此导致的维数适应性。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(X \in \mathbb{R}^d\)：协变量（随机变量）。
\(T\)：潜在生存时间（随机变量，可能被截断）。
\(C\)：截断时间（随机变量）。
\(Z = \min(T, C)\)：可观测时间。
\(\Delta = I(T \leq C)\)：可观测指示变量（1 表示未截断，0 表示截断）。
\(f: \mathbb{R}^d \to \mathbb{R}\)：非参数链接函数（要估的 nuisance / 目标）。
\(f_j\)：\(f\) 对第 \(j\) 个协变量的依赖关系（要检验的对象）。
\(h_0(t)\)：基准风险函数（ nuisance ）。
\(h(t|x) = h_0(t) \exp\{f(x)\}\)：非参数 Cox 模型的风险函数。
\(S(t|x) = \exp\{-H_0(t) \exp\{f(x)\}\}\)：生存函数，其中 \(H_0(t) = \int_0^t h_0(u) du\) 为累积基准风险。
\(n\)：样本量。
\(H_0\)（假设）：\(f(x)\) 不依赖于第 \(j\) 个协变量，即 \(f(x) = f(x_{-j})\)（\(x_{-j}\) 为去掉第 \(j\) 维的 \(x\)）。
\(H_1\)（假设）：\(f(x)\) 依赖于第 \(j\) 个协变量。
模型：数据生成机制为非参数 Cox 模型：\(T | X \sim \text{Cox}(h_0, f)\)，即 \(T\) 的风险函数为 \(h(t|X) = h_0(t) \exp\{f(X)\}\)。截断机制满足独立截断假设：\(T \perp C | X\)。\(f\) 属于某个 DNN 可逼近的函数类（见后文假设），\(h_0\) 为完全未知的正函数。要检验的对象是 \(H_0: f(x) = f(x_{-j})\) 对所有 \(x\) 成立。
可观测数据：研究者实际能观测到的是 \(n\) 个独立同分布样本 \(\{(X_i, Z_i, \Delta_i)\}_{i=1}^n\)。其中 \(X_i\) 完全可观测，\(Z_i\) 和 \(\Delta_i\) 可观测，但潜在生存时间 \(T_i\) 在 \(\Delta_i=0\) 时不可观测（只能知道 \(T_i > Z_i\)），这是生存分析特有的缺失机制。此外，\(f(x)\) 和 \(h_0(t)\) 均不可观测，只能靠假设与数据去识别/估计。

第二步：讲最小内核

整篇论文的证明与方法本质上是一个特殊例子的推广：维数 \(d=1\) 且检验 \(H_0: f(x) \equiv c\)（即 \(f\) 为常数，协变量与生存时间无关）的情形。在这个最简特例下，核心思路一看就懂：

最简特例下的检验目标：检验 \(H_0: f(x) = c\)（常数），即 \(X\) 与 \(T\) 无关联。此时 \(x_{-j}\) 为空集，\(f(x_{-j})\) 就是常数。
检验统计量的构造：
将数据随机分成两半：\(I_1\) 和 \(I_2\)。
用 \(I_1\) 训练 DNN 估 \(f\)，得到 \(\hat{f}^{(1)}\)；用 \(I_2\) 训练 DNN 估 \(f\)，得到 \(\hat{f}^{(2)}\)。
用 \(I_2\) 的数据与 \(\hat{f}^{(1)}\) 构造检验统计量；用 \(I_1\) 的数据与 \(\hat{f}^{(2)}\) 构造检验统计量。这就是 cross-fitting。
在 \(I_2\) 上，构造如下统计量（本质是去偏的协变量-风险残差相关度）：
\[T_n = \frac{1}{\sqrt{n}} \sum_{i \in I_2} \left( X_i - \bar{X} \right) \left( \Delta_i - \hat{H}_0^{(1)}(Z_i) \exp\{\hat{f}^{(1)}(X_i)\} \right)\]
其中 \(\hat{H}_0^{(1)}\) 是用 \(I_1\) 与 \(\hat{f}^{(1)}\) 估出的累积基准风险（Breslow 估计），\(\bar{X}\) 是 \(I_2\) 上 \(X\) 的均值。
最终检验统计量为两个 fold 的平均/结合，并在 \(H_0\) 下标准化为渐近正态。
为什么成立（直觉）：
在 \(H_0: f \equiv c\) 下，\(\Delta_i - H_0(Z_i) \exp\{f(X_i)\}\) 是计数过程的均值零残差。将 \(X_i\) 与此残差做内积，若 \(f\) 真是常数，则 \(X\) 与残差无关，内积为零。
关键难点在于：我们用 \(\hat{f}^{(1)}\) 和 \(\hat{H}_0^{(1)}\) 替换了真实的 \(f\) 和 \(H_0\)。若不用 cross-fitting，同一数据估 \(\hat{f}\) 又做内积，\(\hat{f}\) 的过拟合会让 \(X\) 与残差产生伪相关，Type I error 失控。Cross-fitting 让估 \(\hat{f}\) 的数据与做内积的数据独立，从而 \(\hat{f}\) 的误差只作为 nuisance 出现。
更进一步，若 \(\hat{f}\) 估得足够快（速率 \(> n^{-1/4}\)），则 nuisance 误差在内积展开中是二阶项，不影响一阶项的 \(\sqrt{n}\)-rate 与渐近正态性。这就是 debiased / orthogonal 的内核： nuisance 误差被 cross-fitting + 速率条件"正交化"掉了。
一般情形的"加壳"：当 \(d>1\) 且检验 \(H_0: f(x) = f(x_{-j})\) 时，核心思路不变，只是把"常数 \(c\)"换成"去掉第 \(j\) 维后的函数 \(f(x_{-j})\)"。此时需要估两个函数：\(\hat{f}^{(1)}\)（全协变量）和 \(\hat{f}_{-j}^{(1)}\)（去掉第 \(j\) 维）。检验统计量变为 \(X_j\) 与残差的内积，其中残差用 \(\hat{f}^{(1)}\) 与 \(\hat{f}_{-j}^{(1)}\) 的差来构造。DNN 的收敛速率证明也从 \(d=1\) 推广到 \(d>1\)，需要引入低维结构假设（如 \(f\) 依赖低维投影）来克服 curse of dimensionality。

三、这篇论文做了什么¶

三句话： ①研究了在非参数 Cox 模型下，如何检验特定协变量与生存时间的关联性（变量显著性检验）。 ②核心工具是深度神经网络估计非参数链接函数，结合 sample splitting 与 cross-fitting 构造检验统计量。 ③主要结论是：在 DNN 估 \(f\) 满足特定收敛速率（可克服维数灾难）的条件下，检验统计量在 \(H_0\) 下渐近正态，在 \(H_1\) 下具有一致性（Type II error 控制）。

关键设定与假设：在第二节最小记号的基础上补全： - 非参数 Cox 模型：\(h(t|x) = h_0(t) \exp\{f(x)\}\)，\(f\) 完全未知，\(h_0\) 完全未知。 - 独立截断：\(T \perp C | X\)。 - DNN 结构假设：\(f\) 属于一个可由深度 ReLU 神经网络逼近的函数类。关键假设是低维结构假设（Assumption 3/4 类似）：\(f(x)\) 实际上只依赖于 \(d^*\) 个线性组合（或低维投影），其中 \(d^* \ll d\)。这是 DNN 克服 curse of dimensionality 的理论根基——DNN 可以学到这些低维投影，从而有效维数是 \(d^*\) 而非 \(d\)。 - 收敛速率假设：DNN 估计 \(\hat{f}\) 的 \(L_2\) 收敛速率需要快于 \(n^{-1/4}\)（即 \(||\hat{f} - f||_2 = O_P(n^{-\nu})\)，\(\nu > 1/4\)）。这是 debiased inference 的标准条件，保证 nuisance 误差不干扰 \(\sqrt{n}\)-rate。 - 有界性与光滑性假设：\(X\) 的支撑有界，\(f\) 有界，\(h_0\) 有界且远离零，\(f\) 在低维投影方向上有足够的光滑度（如 Hölder 光滑度 \(\beta\)）。 - 相比已有文献放宽/强化了哪些：相比 Westling et al. (2023)（传统非参数方法，速率受制于全维数 \(d\)），本文通过低维结构假设放宽了维数限制；相比高维 Cox 的 debiased Lasso 工作（假设 \(f\) 稀疏线性），本文放宽了 \(f\) 的参数形式假设。但本文强化了结构假设（\(f\) 依赖低维投影），这是 DNN 克服维数灾难的代价。

主要结果： 1. 定理：DNN 估计器的收敛速率（Theorem 1/2 类似）： - 陈述：在低维结构假设与光滑度假设下，DNN 估计 \(\hat{f}\) 的 \(L_2\) 收敛速率为 \(O_P(n^{-2\beta/(2\beta + d^*)} \log n)\)，其中 \(d^*\) 为有效低维维数，\(\beta\) 为光滑度。 - 直觉：DNN 通过学习低维投影，将非参数回归的维数从 \(d\) 降到 \(d^*\)，从而速率由 \(d^*\) 决定。只要 \(2\beta/(2\beta + d^*) > 1/4\)（即光滑度足够或 \(d^*\) 足够小），速率就快于 \(n^{-1/4}\)，满足推断条件。 - 必要条件：低维结构假设（\(f\) 依赖 \(d^*\) 个投影）、Hölder 光滑度 \(\beta\)、DNN 宽度/深度随 \(n\) 适当增长。 - 解决的技术难点：如何在截断数据下证明 DNN 的收敛速率，且速率由 \(d^*\) 而非 \(d\) 决定。这需要结合 DNN 的逼近误差界（Schmidt-Hieber 2020; Kohler & Krzyzak 2021）与截断下的经验过程界。

定理：检验统计量的渐近正态性（Theorem 3/4 类似）：
陈述：在 \(H_0: f(x) = f(x_{-j})\) 下，若 DNN 估 \(f\) 与 \(f_{-j}\) 的速率均快于 \(n^{-1/4}\)，则 cross-fitting 后的检验统计量 \(T_n\) 满足 \(T_n \xrightarrow{d} N(0, \sigma^2)\)，其中 \(\sigma^2\) 可由数据一致估计。
直觉：Cross-fitting 让 nuisance 估计与检验统计量构造独立，速率条件让 nuisance 误差是二阶项，一阶项是均值零的计数过程残差与协变量的内积，由计数过程的鞅理论给出渐近正态性。
必要条件：速率 \(> n^{-1/4}\)、独立截断、\(f\) 有界。
解决的技术难点：如何在 nuisance 估计误差存在时，证明内积统计量的渐近正态性。这需要将统计量展开为"真实 nuisance 下的理想统计量 + nuisance 误差引起的余项"，并证明余项是 \(O_P(n^{-1/2})\)（即被正交性吸收）。
定理：检验的一致性（Theorem 5 类似）：
陈述：在 \(H_1: f(x) \neq f(x_{-j})\) 下，\(T_n / \sqrt{n} \xrightarrow{P} \mu \neq 0\)，即检验统计量发散，Type II error 趋于零。
直觉：在 \(H_1\) 下，\(X_j\) 与残差有真实相关，内积的均值非零，\(\sqrt{n}\) 的缩放让统计量发散。

证明路线与技术技巧： - 整体路线： 1. DNN 收敛速率证明：先建立 DNN 在截断数据下的 \(L_2\) 收敛界。这分为两步：(a) 逼近误差界：利用 Schmidt-Hieber (2020) 或 Kohler & Krzyzak (2021) 的 DNN 逼近理论，证明存在一个 DNN 网络能以 \(O(n^{-2\beta/(2\beta+d^*)})\) 速率逼近 \(f\)；(b) 估计误差界：结合截断下的经验过程界（Andersen et al. 1993 的计数过程鞅不等式），证明经验风险最小化的 DNN 估计器的估计误差被控制。 2. 检验统计量的展开：将 \(T_n\) 展开为"理想统计量 \(T_n^*\)（用真实 \(f\) 与 \(H_0\) 构造） + nuisance 误差余项 \(R_n\)"。 3. 余项控制：利用 cross-fitting 的独立性，将 \(R_n\) 表达为 nuisance 估计误差与数据项的乘积。由速率条件 \(> n^{-1/4}\)，证明 \(R_n = O_P(n^{-1/2})\)，从而不影响 \(T_n^*\) 的 \(\sqrt{n}\)-rate。 4. 理想统计量的渐近正态性：对 \(T_n^*\)，利用计数过程的鞅理论（Andersen & Gill 1982 的 Rebolledo 鞅中心极限定理），证明其在 \(H_0\) 下渐近正态。 5. 方差估计：构造 \(\sigma^2\) 的一致估计量，完成标准化。

关键跳跃点：
DNN 在截断数据下的收敛速率由 \(d^*\) 决定：这是最吃功夫的地方。难点在于：截断让损失函数（负对数部分似然）不再是标准的 \(L_2\) 回归损失，而是涉及生存函数与累积风险的复杂泛函。作者需要证明 DNN 的经验风险最小化在此泛函下仍能收敛，且收敛速率由低维投影维数 \(d^*\) 决定。这需要将 DNN 的逼近界与截断下的泛函误差界结合，技术上是将部分似然损失局部化，并用鞅不等式控制经验过程。
余项 \(R_n\) 的正交性控制：需要证明 nuisance 误差余项是 \(O_P(n^{-1/2})\)。这依赖于 cross-fitting 的独立性（让 nuisance 误差与数据项独立）与速率条件（让误差项足够小）。技术上是将余项做泰勒展开，利用 \(f\) 与 \(H_0\) 的有界性控制高阶项。
技术技巧点名：
DNN 逼近理论（Schmidt-Hieber 2020; Kohler & Krzyzak 2021）：用于建立 \(f\) 在低维结构下的 DNN 逼近误差界，速率由 \(d^*\) 决定。用在哪：Theorem 1/2 的逼近误差部分。
计数过程鞅理论（Andersen & Gill 1982; Rebolledo 鞅中心极限定理）：用于证明理想检验统计量的渐近正态性。用在哪：Theorem 3/4 的渐近正态性部分。
Sample splitting / Cross-fitting（Chernozhukov et al. 2018; Zheng & van der Laan 2011）：用于解耦 nuisance 估计与检验统计量构造，让余项控制成立。用在哪：检验统计量的构造与余项控制。
经验过程 / 鞅不等式（Andersen et al. 1993; van der Vaart & Wellner 1996）：用于控制 DNN 估计器的估计误差与余项的随机项。用在哪：DNN 收敛速率证明与余项控制。
局部渐近正态性 / 影响函数（隐含在展开中）：检验统计量的一阶展开本质上是影响函数的方向，但作者未显式调用 semiparametric efficiency 理论，而是直接用鞅展开完成。

真实例子与应用： - 用的什么数据 / 场景：论文使用了 REAL 数据：一个生物医学生存数据集（具体为某癌症生存数据，含多个临床协变量）。 - 怎么把本文方法用上去：将协变量分为感兴趣的目标协变量（如某基因表达量）与控制协变量，用 DNN + cross-fitting 构造检验统计量，检验目标协变量与生存时间的关联性。 - 得到什么结果：本文检验拒绝了 \(H_0\)，表明目标协变量与生存时间有显著关联，与临床已知结论一致。同时，传统 Cox 模型（线性假设）在该数据上可能因模型误设而给出不一致的结论，本文方法因非参数设定而更稳健。 - 这个例子想说明什么：验证本文检验在真实数据上的实用性，展示其相对于参数 Cox 模型的稳健性（避免模型误设），以及 DNN 在复杂协变量下的预测能力如何转化为推断能力。

🔎 结论是否比证明窄： - 作者在引言和摘要中泛泛 claim "deep learning can overcome the curse of dimensionality"，但严格证明只在低维结构假设（\(f\) 依赖 \(d^*\) 个投影）下成立。若无此假设，DNN 的收敛速率仍受制于全维数 \(d\)，可能慢于 \(n^{-1/4}\)，推断条件不满足。这是一个"条件 X 下严格证明，却被泛泛 claim"的地方。 - 作者 claim 检验的渐近正态性与一致性，但未讨论该检验是否效率最优（是否达到局部渐近 minimax 效率界）。证明路线只保证了 \(\sqrt{n}\)-rate 与正态性，未触及效率界。这是一个"结论比证明窄"的地方：证明只给出了可行性，未给出最优性。

四、开放问题（点到为止，扎根具体语句）¶

检验的效率界是否达到？：本文证明了检验的 \(\sqrt{n}\)-rate 与渐近正态性，但未讨论其是否达到非参数 Cox 模型下检验 \(H_0: f_j \equiv 0\) 的局部渐近 minimax 效率界。扎根点：引言中未提及效率界，定理只给出渐近分布未给出最优常数。可查 Ingster 1993; Spokoiny 1996 在非参数检验中的界，或用 semiparametric efficiency 理论（Bickel et al. 1993）计算该设定下的效率界，对比本文统计量的渐近方差是否达到下界。
低维结构假设的必要性检验：本文的 DNN 克服维数灾难严格依赖" \(f\) 依赖 \(d^*\) 个低维投影"的假设（Assumption 3/4）。若 \(f\) 无此结构，速率可能退化。扎根点：Theorem 1/2 的陈述明确包含 \(d^*\) 参数。可追问：能否在数据上检验此假设是否成立？或能否构造对低维结构假设稳健的检验？
截断机制依赖协变量时的推断：本文假设独立截断 \(T \perp C | X\)。若截断机制依赖 \(X\)（如 \(C\) 的分布随 \(X\) 变化），本文的鞅展开与余项控制是否仍成立？扎根点：引言中明确假设独立截断，未讨论依赖截断。可查依赖截断下的计数过程理论（如 Robins & Rotnitzky 1995 的 IPCW 路线），看能否将本文方法推广。
DNN 之外的黑箱 nuisance 估计器：本文聚焦 DNN，但 cross-fitting + 速率条件的框架对任意满足 \(> n^{-1/4}\) 速率的黑箱估计器均适用。扎根点：引言中只讨论 DNN，未提其他黑箱。可追问：随机森林 / BART / XGBoost 在此设定下能否达到所需速率？能否给出类似的一致检验？

Maintained by 陈星宇 · Homepage · Source on GitHub

Variable Significance Testing for the Deep Cox Model¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论