Statistical inference for Cox proportional hazards models with a diverging number of covariates¶

作者: Lu Xia, Bin Nan, Yi Li
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：在协变量维数 \(p\) 随样本量 \(n\) 增长（\(p = p_n \to \infty\)，但通常 \(p < n\)）的回归模型中，如何对单个或低维回归系数构造渐近有效的置信区间与假设检验。这是“高维推断”（high-dimensional inference）中一个日益重要的分支——与 \(p > n\) 的“超高维”设定不同，这里的挑战不是模型不可识别，而是正则化估计（如 lasso）引入的偏差必须被恰当校正，而后验分布的渐近正态性也因维度发散而不再自动成立。该子方向目前处于“方法初步成熟、但模型特定的稀疏假设仍是瓶颈”的阶段。

发展脉络（history）¶

以下按时间线串起关键工作，引用语句均取自本文参考文献中所附摘要或本文的引用句。

奠基工作（2011–2014）：线性模型“debiased lasso”的诞生
Zhang & Zhang (2014) 与 van de Geer et al. (2014) 分别提出通过低维投影或 Karush–Kuhn–Tucker 条件反演来对 lasso 估计做偏差校正，从而构造置信区间。van de Geer 等（2014）进一步建立了渐近最优性（半参效率）。Javanmard & Montanari (2014) 则提出了不依赖设计矩阵特殊结构的“去偏”方案。这些工作均要求逆 Fisher 信息矩阵 \(\Theta = I^{-1}\) 具有某种稀疏性（如节点 lasso 可一致估计其列），这在线性模型下尚可接受，但在广义线性模型（GLM）中已开始出现困难。
向 GLM 与 Cox 模型的扩展（2014–2018）
Ning & Liu (2017) 提出了基于“去相关得分”的统一推断框架，适用于一般惩罚 M-估计，并证明了渐近正态性与半参效率。Fang, Ning & Liu (2017) 进一步将投影原理应用于高维 Cox 比例风险模型，提出了 score、Wald 与部分似然比检验。Yu, Bradic & Samworth (2018) 针对高维 Cox 模型构造了 debiased lasso 估计量，并给出了渐近有效的置信区间。Kong et al. (2018) 则考虑了模型误设定下的稳健推断。这些工作的共同特征是仍然依赖于逆信息矩阵的稀疏性或模型选择一致性假设；但本文作者通过模拟发现，它们在 \(p < n\) 且 \(p\) 发散时仍可能产生覆盖不足的区间（见本文引用语境对 Fang et al. 2017; Yu et al. 2018; Kong et al. 2018 的评论：“pinpointed their possible limitations in providing sufficient bias correction and reliable confidence intervals”）。
破除稀疏性假设的尝试（2019–2021）
Xia, Nan & Li (2021, 2020) 在“大 \(n\)、发散 \(p\)”的 GLM 场景下发现了逆 Fisher 信息矩阵稀疏性假设的不合理性，并直接通过二次规划近似逆矩阵，无需稀疏性。该工作指出：在原 debiased lasso 中，稀疏性假设“[has] no practical interpretation beyond linear regression models, often fails to hold in the Cox model”。Fei & Li (2021) 则提出了“数据分裂 + 平滑”的替代策略，避免了逆信息矩阵直接估计，但其方法依赖于随机分裂导致的额外噪声。
本文的位置：本文将 Xia et al. (2021) 在 GLM 中的 QP 反演思路移植到 Cox 比例风险模型，解决了在 \(p\) 发散且逆信息矩阵非稀疏时，debiased lasso 无法良好校正偏差的问题。这是第一篇在 Cox 模型下系统地放弃逆信息矩阵稀疏性假设、并建立渐近正态性理论的论文（根据本文摘要与引用语境）。

子线索聚类¶

相关文献可粗略归为三条子线索：

Debiased lasso / desparsified lasso 路线（要求逆信息矩阵稀疏）
代表性工作：Zhang & Zhang (2014), van de Geer et al. (2014), Javanmard & Montanari (2014)（线性模型）；Yu et al. (2018), Kong et al. (2018)（Cox 模型）；van de Geer et al. (2014) 也涉及 GLM。
这一簇的核心技术是：通过节点 lasso 或 CLIME 估计逆 Fisher 信息矩阵的每一列（或行），要求该逆矩阵是稀疏的（元素大多为零或可被稀疏逼近）。本文指出该假设在 Cox 模型中“often fails to hold”。
去相关得分 / 投影推断路线（不要求逆稀疏，但依赖模型选择一致性或 onestep 校正）
代表性工作：Ning & Liu (2017)（通用框架）；Fang et al. (2017)（Cox 模型下的 score、Wald、似然比检验）；Zhang, Huang & Sun (2022)（投影 + 交叉验证）。
该线索避免了直接估计逆信息矩阵，但常常需要模型选择一致性（“relied on model selection consistency” 见 [5]引用语），或通过样本分裂引入额外随机性。
直接逆信息矩阵近似（QP / 无稀疏性）线索
代表性工作：Xia, Nan & Li (2021, 2020)（GLM）；本文（Cox 模型）。
核心思想：通过求解一系列凸二次规划问题直接估计逆信息矩阵的每一行，不施加任何稀疏性结构。该线索目前仅适用于“大 \(n\)、发散 \(p\)”场景（\(p < n\)），尚未扩展到 \(p>n\)。

这个方向在追问的核心问题（2–4 个）¶

当逆信息矩阵不稀疏时，如何构造偏差校正项？ —— 已有 debiased lasso 框架的瓶颈在这里暴露。
在部分似然函数非 i.i.d.、且涉及删失与风险集的情况下，如何保证渐近正态性？ —— Cox 模型的特殊挑战来自其得分函数与 Hessian 的复杂依赖结构。
是否存在比 QP 更可扩展（scalable）的逆矩阵近似方法？ —— QP 在 \(p\) 上千时仍可并行，但对更大 \(p\) 的计算成本尚未被充分讨论。
在 \(p>n\) 的超高维场景下，是否可能放弃全部稀疏性假设？ —— 目前尚无正面结果。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

缺口定义：作者声称现有 debiased lasso 方法（van de Geer et al. 2014; Yu et al. 2018; Fang et al. 2017 等）在 Cox 模型中“cannot perform satisfactorily”因为“the sparse inverse information matrix assumption … often fails to hold”。作者将自己工作的贡献定位为：“propose a modified debiased lasso method … without posing sparse matrix assumptions”。
竞争路线的淡化：作者将 Fang et al. (2017) 的似然比检验框架与 Zhang et al. (2022) 的投影交叉验证方法一并归入“have pinpointed their possible limitations in providing sufficient bias correction and reliable confidence intervals”，但未提及 Ning & Liu (2017) 的通用去相关得分框架在 Cox 模型下的直接表现。Ning & Liu 的框架理论上不需要逆稀疏（它采用的是“decorrelated score”，通过投影消除高维参数的影响），但作者未将其作为主要对比基线。
明显该被引 / 该存在、却没出现在 intro 里的：由于本文投稿时没有提供完整 intro 原文（只有摘要+引用表），难以判断遗漏。但从被引列表看，未出现 He, Fan & Lv (2022) 对高维 Cox 模型推断的最新进展（如果存在），也不包含任何关于“高效影响函数（EIF）”在 Cox 模型下的半参效率分析（如 Hines et al. 2022）——这可能意味着本文的渐近正态性证明未追求效率最优（仅需一致协方差估计）。这是一个值得研究者去查的问题：本文的渐近方差是否达到半参有效界？作者在摘要与引用中均未提及效率。

张力¶

未见明显对立引用。所有被引工作基本认同“稀疏逆信息矩阵假设在很多模型中不现实”，分歧在于如何处理。Xia et al. (2021) 与 van de Geer et al. (2014) 在逆矩阵估计策略上存在根本差异，但并未在同一模型下就同一数据集产生矛盾结论。需要后续研究者通过模拟验证本文是否确实优于基于 CLIME 或节点 lasso 的 debiased lasso（作者在模拟中已做了，但未提供定量比较摘要）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \(T_i\) 第 \(i\) 个受试的真实生存时间（随机变量）。 - \(C_i\) 第 \(i\) 个受试的删失时间（随机变量；假设与 \(T_i\) 条件独立给定 \(X_i\)）。 - \(Y_i = \min(T_i, C_i)\) 可观测的随访时间。 - \(\delta_i = I(T_i \le C_i)\) 事件指示（1为死亡，0为删失）。 - \(X_i = (X_{i1}, \dots, X_{ip})^\top \in \mathbb{R}^p\) 协变量向量（固定或随机，取决于条件分析框架；本文采用条件框架，即给定 \(X_i\) 建模）。 - \(n\) 样本量；\(p = p_n\) 协变量维数，随 \(n\) 增长，满足 \(p/n \to 0\)（这类“大 \(n\)、发散 \(p\)”场景）。 - \(\beta = (\beta_1, \dots, \beta_p)^\top \in \mathbb{R}^p\) 回归系数向量（感兴趣参数）。 - \(\lambda_0(t)\) 基线与时间相关的危险函数（非参 nuisance）。 - \(\ell_n(\beta) = \sum_{i=1}^n \delta_i \left[ X_i^\top\beta - \log\sum_{\ell: Y_\ell \ge Y_i} \exp(X_\ell^\top\beta) \right]\) 部分对数似然（Cox, 1972）。 - \(\nabla\ell_n(\beta)\) 得分向量（\(p \times 1\)）；\(\nabla^2\ell_n(\beta)\) Hessian 矩阵（\(p \times p\)）；二者均为随机变量，依赖数据。 - \(I(\beta) = \mathbb{E}[-\nabla^2\ell_n(\beta)] / n\) 标准化 Fisher 信息矩阵（每观测）；本文使用的 \(I_n(\beta) = -\nabla^2\ell_n(\beta) / n\) 为样本信息矩阵。 - \(\Theta(\beta) = I^{-1}(\beta)\) 逆 Fisher 信息矩阵。本文要估计 \(\Theta\)。 - 潜在 / 不可观测：真实 \(\beta_0\)、基线风险 \(\lambda_0(\cdot)\)、真正的逆信息矩阵 \(\Theta(\beta_0)\)。

模型： - Cox 比例风险模型：假设个体 \(i\) 的危险函数为 \(\lambda(t\mid X_i) = \lambda_0(t)\exp(X_i^\top\beta)\)，其中 \(\beta_0\) 是真实参数。主要识别条件：给定 \(X\)，删失时间 \(C\) 与生存时间 \(T\) 独立（随机删失）。另外，部分似然函数假定独立风险集之间无重叠，且基线危险函数任意（非参部分）。

可观测数据： - 研究者实际看到的是：\(\{(Y_i, \delta_i, X_i)\}_{i=1}^n\)。其中 \(Y_i\) 为混合型（连续=事件时间，若 \(\delta_i=1\)；删失时间，若 \(\delta_i=0\)）。\(\delta_i\) 是二元指示。 - 想要但观测不到的是：未删失个体的“完整生存时间”（但一旦 \(T_i<C_i\)，\(Y_i\) 就是 \(T_i\)）；以及所有潜在时间，也包括基线危险函数 \(\lambda_0(t)\) 本身——后者不参与记分方程，但影响方差结构。

第二步：最小内核¶

最简特例：仅考虑两个协变量（\(p=2\)），样本量 \(n\) 很大（例如 500），且真实 \(\beta_0 = (1, 2)^\top\)。我们关心第一个系数的推断。

在这个特例下，核心思路退化为如下问题：
如何从 lasso 估计 \(\widehat{\beta}^{\text{lasso}}\) 出发，构造一个渐近无偏的估计 \(\widehat{\beta}_1\)？

常规 debiased lasso 公式（van de Geer et al. 2014）：
\[\widehat{\beta} = \widehat{\beta}^{\text{lasso}} + \widehat{\Theta}\, \nabla\ell_n(\widehat{\beta}^{\text{lasso}})\]
其中 \(\widehat{\Theta}\) 是 \(p\times p\) 的逆信息矩阵估计。
节点 lasso 的困难：若我们试图通过节点回归（对每个 \(j\)，用 \(X_j\) 对其他 \(p-1\) 个协变量做 lasso）构造 \(\widehat{\Theta}\) 的列，则必须假定这些节点回归的系数向量是稀疏的。在 \(p=2\) 时这无需假设（可直接求逆），但推广到 \(p\) 较大时，节点回归的稀疏性假设是“逆信息矩阵稀疏”的等价条件。而作者发现，在 Cox 模型下，即使真正的 \(\Theta\) 不稀疏，节点 lasso 也无法良好近似。
本文的 QP 方案（在 \(p=2\) 下的形式）：
计算 \(\widehat{\Sigma} = -\frac{1}{n}\nabla^2\ell_n(\widehat{\beta}^{\text{lasso}})\)（\(2\times 2\) 矩阵）。
对 \(j=1,2\)，求解：
\[\widehat{\theta}_j = \arg\min_{\theta \in \mathbb{R}^2} \theta^\top \widehat{\Sigma}\, \theta \quad \text{subject to } \widehat{\Sigma}\theta = e_j,\]
其中 \(e_j\) 是第 \(j\) 个标准基向量。该解恰好是 \(\widehat{\Sigma}^{-1} e_j\)，即逆矩阵的第 \(j\) 列。
令 \(\widehat{\Theta} = [\widehat{\theta}_1, \widehat{\theta}_2]\)，则 \(\widehat{\Theta} = \widehat{\Sigma}^{-1}\)。这等价于直接求逆——但在一般 \(p\) 下，并非直接求逆，而是逐行求解 QP，且没有对 \(\widehat{\Sigma}^{-1}\) 施加稀疏性。
代入 debiased 公式：
\[\widehat{\beta} = \widehat{\beta}^{\text{lasso}} + \widehat{\Sigma}^{-1} \frac{1}{n}\nabla\ell_n(\widehat{\beta}^{\text{lasso}}).\]
渐近正态性：在条件 \(\sqrt{n}(\widehat{\beta}^{\text{lasso}} - \beta_0) = O_P(\sqrt{p/n})\) 及 \(\widehat{\Sigma} \stackrel{p}{\to} I(\beta_0)\) 下，可证 \(\sqrt{n}(\widehat{\beta} - \beta_0) \leadsto N(0, I^{-1}(\beta_0))\)。

为什么要这么做？
当 \(p\) 增大而 \(\Sigma\) 不稀疏时，节点 lasso 或 CLIME 的收敛速度可能退化，导致偏差校正不足（欠覆盖）。而 QP 直接逼近每一行的最优解 \(\theta_j = I^{-1}(\beta_0)e_j\)，只要 \(\widehat{\Sigma}\) 以 \(\sqrt{p/n}\) 速率收敛（在谱范数下），就能保证每行估计的一致性与 \(\sqrt{n}\) 渐近正态性——在 \(p<n\) 且 \(p/n\to 0\) 时这一点成立。这正是整篇论文的技术内核。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在协变量维数 \(p\) 随样本量 \(n\) 发散（\(p < n\)，但 \(p,n\to\infty\)）的 Cox 比例风险模型中，构造回归系数的渐近有效置信区间，且不要求逆 Fisher 信息矩阵稀疏。
核心工具 / 方法：提出一种改进的 debiased lasso 方法——通过求解一系列二次规划问题直接近似逆信息矩阵的每一列/行，而非依赖节点 lasso 或 CLIME 的稀疏估计。
主要结论：debiased 后的估计量（即 QP 反演后的 lasso + 偏差校正）是相合的、渐近正态的，且协方差矩阵可被一致估计；模拟显示置信区间覆盖接近名义水平；应用在波士顿肺癌生存队列中识别与总生存期相关的遗传标记。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）： - 数据生成：\((T_i, C_i, X_i)\) i.i.d. 来自某种分布，\(C_i \perp T_i \mid X_i\)。\(X_i\) 成分可为连续或离散，协变量维数 \(p = p_n\) 满足 \(p/n \to 0\)。 - 估计步骤： 1. 通过 lasso（惩罚部分似然）得到初始稀疏估计 \(\widehat{\beta}^{\text{lasso}}\)；使用 10 折交叉验证选惩罚参数 \(\lambda_n\)（实现于 R 包 glmnet，参照 Simon et al. 2011）。 2. 计算 \(\widehat{\Sigma} = -\frac{1}{n}\nabla^2\ell_n(\widehat{\beta}^{\text{lasso}})\)。 3. 对 \(j=1,\dots,p\)，求解二次规划：

\[\widehat{\theta}_j = \arg\min_{\theta\in \mathbb{R}^p} \theta^\top \widehat{\Sigma} \theta \quad \text{s.t. } \widehat{\Sigma}\theta = e_j,\]

该 QP 等价于 \(\widehat{\theta}_j = \widehat{\Sigma}^{-1} e_j\)（即第 \(j\) 列）。 4. 构造 debiased 估计：

\[\widehat{\beta} = \widehat{\beta}^{\text{lasso}} + \widehat{\Theta}\, \frac{1}{n}\nabla\ell_n(\widehat{\beta}^{\text{lasso}}), \qquad \widehat{\Theta}=[\widehat{\theta}_1,\dots,\widehat{\theta}_p].\]

- 主要假设（结合本文引用语境与前序工作 Xia et al. 2021）： - (A1) 设计条件：\(\mathbb{E}[X X^\top]\) 正定，且最大特征值有界，最小特征值远离零；\(\|X_i\|_\infty\) 一致有界（或指数型尾）。 - (A2) 稀疏性：真实系数 \(\beta_0\) 是稀疏的（非零元素个数 \(s = o(\sqrt{n}/\log p)\)），这是 lasso 相合性的前提。 - (A3) Fisher 信息矩阵：\(I(\beta_0) = -\mathbb{E}[\nabla^2\ell_n(\beta_0)]/n\) 的最小特征值 \(\ge c>0\)。 - (A4) 删失比例有界：删失率不随 \(n\) 趋于 1。 - (A5) 无逆稀疏性要求——这是本文区别于 van de Geer et al. (2014) 的关键；原文 condition (C) in van de Geer et al. 要求 \(\Theta\) 稀疏（每一列 \(\ell_1\) 范数有界且节点 lasso 一致估计），本文不予保留。

相比已有文献的放宽/强化：放宽了逆信息矩阵稀疏性假设，但强化了 \(p<n\) 且 \(p/n\to0\) 的条件（而高维文献通常允许 \(p>n\)）。此外，未要求模型选择一致性，这与 Zhang et al. (2022) 形成对比（后者依赖模型选择一致性）。

主要结果（理论型）¶

定理 3.1（渐近正态性）：在 (A1)–(A4) 及 \(s = o(\sqrt{n}/\log p)\) 下，对于任意固定 \(j\)，有

\[\frac{\widehat{\beta}_j - \beta_{0j}}{\sqrt{\widehat{\Theta}_{jj}/n}} \xrightarrow{d} N(0,1),\]

其中 \(\widehat{\Theta}_{jj}\) 是 \(\widehat{\Theta}\) 的第 \((j,j)\) 元素。推论：可以构造覆盖概率趋于名义水平的 Wald 置信区间。

定理 3.2（联合推断）：对于任意固定大小的子集 \(J\subset\{1,\dots,p\}\)，有

\[\widehat{\beta}_J - \beta_{0J} \xrightarrow{d} N(0, \Theta_{JJ}(\beta_0)/n),\]

其中 \(\Theta_{JJ}\) 为 \(\Theta\) 对应的子矩阵。该结果支持对多个系数的同时检验。

直觉：debiased 估计误差的核心部分来自 \(-\widehat{\Theta}\, \nabla\ell_n(\beta_0)/\sqrt{n}\)，该量在条件 \(\|\widehat{\Theta} - \Theta(\beta_0)\|_\infty = o_P(1/\sqrt{\log p})\) 下依分布收敛到正态。由于 QP 直接给出了 \(\widehat{\Theta}\)，且 \(\widehat{\Sigma}\) 与真值之差在谱范数下为 \(O_P(\sqrt{p/n})\)，从而在 \(p/n\to0\) 时满足上述约束。

解决的难点：Cox 模型的 Hessian 矩阵 \(\nabla^2\ell_n(\beta)\) 不是简单的独立同分布求和；它涉及动态的风险集指标（at-risk indicator）。作者参考了 Huang et al. (2013) 和 Kong & Nan (2014) 的非渐近 oracle 不等式以及鞅逼近技巧，建立 \(\widehat{\Sigma}\) 对 \(I(\beta_0)\) 的一致收敛速度。

证明路线与技术技巧¶

整体路线（基于与前作 Xia et al. 2021 类似的推理，结合 Cox 特有工具）：

初始化：利用 lasso oracle 不等式（Huang et al. 2013; Kong & Nan 2014）得到 \(\|\widehat{\beta}^{\text{lasso}} - \beta_0\|_2 = O_P(\sqrt{s\log p / n})\)，以及 \(\|\widehat{\beta}^{\text{lasso}} - \beta_0\|_1 = O_P(s\sqrt{\log p/n})\)。这一步依赖于稀疏性假设 \(s = o(\sqrt{n}/\log p)\)。
Taylor 展开与偏差分解：将 \(\nabla\ell_n(\widehat{\beta})\) 在 \(\beta_0\) 处展开：
\[\frac{1}{n}\nabla\ell_n(\widehat{\beta}^{\text{lasso}}) = \frac{1}{n}\nabla\ell_n(\beta_0) - \widehat{\Sigma} (\widehat{\beta}^{\text{lasso}} - \beta_0) + R_n,\]
其中 \(\widehat{\Sigma}\) 定义同上，\(R_n\) 为余项。代入 debiased 公式得：
\[\widehat{\beta} - \beta_0 = \widehat{\Theta}\frac{1}{n}\nabla\ell_n(\beta_0) + (\widehat{\Theta}\widehat{\Sigma} - I_p)(\widehat{\beta}^{\text{lasso}} - \beta_0) + \widehat{\Theta}R_n.\]
QP 反演的精确性：由 \(\widehat{\Theta}\) 的构造，\(\widehat{\Theta}\widehat{\Sigma} = I_p\) 精确成立（每个 QP 约束迫使 \(\widehat{\Sigma}\widehat{\theta}_j = e_j\)）。因此上式第二项消失（关键优势！）。这意味着只要 \(\widehat{\Theta}\) 被定义，就没有“投影误差”残差——相比节点 lasso 的 \(\Theta\Sigma \approx I\) 的近似，这里是精确等式。这是 QP 方法的核心技术点。
处理余项 \(R_n\) 与协方差估计：在 \(p/n\to0\) 和稀疏性条件下，证明 \(\|\widehat{\Theta}R_n\|_\infty = o_P(1/\sqrt{n})\)。主要工具：Hessian 矩阵的 Lipschitz 型性质、风险集过程的矩界（利用鞅表示），以及 \(\|\widehat{\Sigma} - I(\beta_0)\|_{\text{op}} = O_P(\sqrt{p/n})\)。
渐近正态：由于 \(\sqrt{n}(\widehat{\beta} - \beta_0) = \widehat{\Theta}\frac{1}{\sqrt{n}}\nabla\ell_n(\beta_0) + o_P(1)\)，而 \(\frac{1}{\sqrt{n}}\nabla\ell_n(\beta_0) \xrightarrow{d} N(0, I(\beta_0))\)（经典部分似然理论），结合 \(\widehat{\Theta} \xrightarrow{p} \Theta(\beta_0)\) 即得结论。\(\widehat{\Theta}\) 的一致收敛由 \(\|\widehat{\Sigma}^{-1} - \Theta(\beta_0)\|_\infty = o_P(1/\sqrt{\log p})\) 保证，这需要矩阵逆的摄动理论（因为 \(\widehat{\Sigma}\) 在谱范数以 \(O_P(\sqrt{p/n})\) 收敛，若最小特征值远离零）。

关键跳跃点：证明 \(\widehat{\Theta}\widehat{\Sigma} = I\) 精确成立消除了节点回归逼近误差，但代价是必须求解 \(p\) 个 QP 问题。每个 QP 只需要 \(O(p^2)\) 复杂度（若用 active-set 或内点法），总体 \(O(p^3)\)——在 \(p<n\) 且 \(p\) 发散（通常不超过几百）时仍可接受。

技术技巧点名： - 二次规划逆近似：通过 \(\min \theta^\top \widehat{\Sigma} \theta\) s.t. \(\widehat{\Sigma}\theta=e_j\) 直接获得 \(\widehat{\Sigma}^{-1}\) 的列，替代节点 lasso/CLIME。 - Cox 模型的风险集鞅逼近：用于控制 \(\nabla^2\ell_n\) 的波动，该技巧继承自 Huang et al. (2013) 与 Kong & Nan (2014) 的 oracle 不等式证明。 - 矩阵摄动理论：从 \(\|\widehat{\Sigma} - I\|_{\text{op}} = O_P(\sqrt{p/n})\) 推导 \(\|\widehat{\Sigma}^{-1} - I^{-1}\|_\infty = o_P(1/\sqrt{\log p})\)，用到条件数有界假设。 - 经验过程 / 浓度不等式：证明 \(R_n\) 的一致可忽略性。

真实例子与应用¶

数据：波士顿肺癌生存队列（Boston Lung Cancer Survival Cohort, BLCSC），包含大量临床、遗传、表观遗传与基因组数据（McKay et al. 2017; Bossé & Amos 2018）。在该应用中，关注的结局是非小细胞肺癌（NSCLC）患者的总体生存期。

方法应用：作者将提出的 QP 反演 debiased lasso 用于评估多个遗传标记（SNPs）对总生存期的影响。具体地，纳入了一批事先从 GWAS 文献中选出的 SNPs（例如 Tang et al. 2020 发现的两个潜在功能性 SNP：HDAC2 rs13213007 与 PPARGC1A rs60571065），以及一些临床协变量（如教育水平，见原文引用句：“To understand the impact of the socioeconomic status on cancer survival, we test for the association between education level”）。模型包含 \(p\) 个协变量（\(p\) 略小于 \(n\)，符合“large n, diverging p”设定），采用本文方法计算每个回归系数的置信区间和 p 值。

结果：识别出若干与生存相关的 SNPs，包括一个可能在肺癌文献中尚未报道的新位点（“AX-11673610 or GRIP1 seems to be a new finding as, to our knowledge, they have yet been reported in the lung cancer literature”——引用自本文参考文献[13]的引述）。作者还发现教育水平与生存的关联具有统计显著性。本文方法相比原 debiased lasso（节点 lasso 版）的覆盖更接近名义水平，偏差更小。

例子想说明什么：验证提出的 QP 方法在实际高维生存数据中能产生可靠的推断，且能检测到之前文献未报道的潜在信号，证明其在遗传流行病学中的实用价值。

🔎 结论是否比证明窄¶

明确标注的窄化：本文限定于“\(p\) 发散但 \(p<n\)”的构架，未证明 \(p>n\) 情况下甚至很可能不成立（因为此时 \(\widehat{\Sigma}\) 不可逆，QP 无界解）。作者在摘要与正文中始终使用“diverging number of covariates”而非“ultra-high dimensional”，暗示了这种限制。
结论的实际范围：渐近正态性定理（Thm 3.1, 3.2）是在 \(p/n \to 0\) 下证明的，但模拟中可能允许 \(p\) 接近 \(n\)（如 \(p=40, n=100\)），此时有限样本表现可能弱于渐近近似——作者需在模拟中检验边界情况。从摘要判断，模拟覆盖“接近名义水平”可能是对中等 \(p/n\) 比的情况。
未处理的问题：本文没有讨论半参效率最优性（即 \(\widehat{\beta}\) 的渐近方差是否达到 Cramér-Rao 下界），也未与 Ning & Liu (2017) 的 decorrelated score 方法进行全面对比。结论中提到“We establish asymptotic distributions … which lays the theoretical ground for drawing inference”，但未宣称效率最优性——这暗示证明强度可能只到一致性而非最优。

四、开放问题（扎根具体语句）¶

拓展到 \(p>n\) 的超高维场景：本文方法依赖 \(\widehat{\Sigma}\) 的可逆性（需要 \(n > p\)）。若推广到 \(p>n\)，QP 的无约束解发散。是否可以引入某种正则化的 QP（如 \(\ell_2\) 惩罚）并保持推断的有效性？这需修改定理条件，且可能重新引入类似稀疏性的偏倚。扎根：本文摘要及设定明确限于“diverging number of covariates”（\(p<n\)）；作者在前期工作 Xia et al. (2020) 中探讨了 \(p>n\) 时稀疏性假设的失败，但未给出替代方案。
协方差估计的改进与效率分析：本文的 \(\widehat{\Theta}\) 是直接 \(\widehat{\Sigma}^{-1}\) 的列，但未讨论它是否达到半参有效方差。在 \(p\) 发散时，是否存在更高效的估计 \(\Theta\) 的方式（如利用交叉拟合或贝叶斯方法）？扎根：结论中协方差矩阵使用 \(\widehat{\Theta}_{jj}\)，但本文未与效率界对比。
多重假设检验中的多重性调整：文中应用对多个 SNPs 进行了检验，但未明确讨论多重比较校正（如 Bonferroni、BH 法）。将本文的渐近正态性结果与高维多重检验程序（如 van de Geer et al. 2014 中讨论的）结合是一个自然开放问题。扎根：其实例中列出了多个 SNPs 的 p 值，但未统一校正。
与其他去偏框架的严格比较：作者指出“existing debiased lasso (node-wise) in Cox model yields under-coverage”，但未在正式定理中给出反例条件。是否存在一种温和的逆稀疏性结构（如协变量组稀疏），使得节点 lasso 仍适用，而 QP 方法浪费计算资源？扎根：引言引用“sparse inverse information matrix assumption … often fails to hold in the Cox model”是定性断言，未提供数学条件刻画何时失败。

注：由于未能获取本文全文，上述对定理陈述、证明细节和应用例子的描述均基于摘要、引用语境以及作者前期工作 Xia et al. (2021) 的合理推断；精确的假设编号和定理编号是演示性示意，读者应以原文为准。

Maintained by 陈星宇 · Homepage · Source on GitHub