Robust Score Tests for Censored Outcomes and Incomplete Covariates Leveraging High-Dimensional Auxiliary Variables¶

作者: Jiahui Feng, Kin Yau Wong
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.5705/ss.202024.0391

一、领域脉络与小综述¶

这个方向是什么¶

本方向要解决的统计问题是：在生存分析中，当感兴趣协变量（如某个基因表达）存在缺失，且存在大量可观测到的辅助变量（如其他基因、临床特征）时，如何检验该协变量与删失生存结局之间的关联？核心挑战在于：高维辅助变量使传统多重插补/联合建模变得困难，且结果模型（生存模型）与插补模型（辅助变量到缺失协变量的映射）均可能被误设。本文的定位是：发展一个对两种模型误设均稳健的得分检验，且能自适应地利用高维辅助信息。

发展脉络（history）¶

奠基工作 (完整数据下的检验)：生存分析中的关联检验传统上使用Cox比例风险模型的Wald检验、Score检验或似然比检验。这些方法假设协变量完全观测。

主要进展 (缺失数据下的检验)：处理缺失协变量的主流方法包括： - 多重插补 (MI) + 鲁宾规则：将缺失数据插补多次，合并估计。但MI需要插补模型正确，且在高维辅助变量下插补模型的选择本身就是一个挑战。 - 逆概率加权 (IPW)：基于观测概率的加权得分方程，但需要缺失机制模型正确。 - 基于似然的联合建模：对生存结局和协变量缺失机制联合建模，但当辅助变量高维时计算上不可行。

当前Frontier与本文的位置：最近的工作试图在高维辅助变量下进行单一测试。例如，某些工作使用LASSO从高维辅助变量中挑选预测能力强的变量来插补协变量。但这些方法依赖于单个选择的模型，且检验的渐近性质在模型误设下会崩溃。本文的贡献在于： - 多模型组合的稳健性：不是依赖一个选定的最优插补模型，而是对多个候选插补模型（使用不同生存结局模型）的得分统计量进行组合，保证只要至少有一个模型接近真实，检验就能控制第一类错误且高效。 - 自适应模型选择：允许数据驱动地选择插补模型，并在理论上证明了该选择不影响检验有效性。

引用线梳理： - Binder et al. (2009)：提出在Cox模型中使用多重插补处理缺失协变量，但假设插补模型正确，且未处理高维情况。 - Schoop et al. (2011)：使用加权得分方程处理缺失协变量，但假设缺失机制可建模。 - van der Laan & Robins (2003) 的 均匀一致推断理论：为本文的模型误设下得分检验的有效性提供了理论框架（在完整的协变量下）。 - Huang et al. (2019)：使用高维辅助变量对缺失协变量进行LASSO预测，但留下口子：单模型选择不稳定，且检验在模型误设下功率可能严重下降。 - Feng & Wong (本文)：填补了单模型选择的不稳定性与模型误设敏感性的缺口，提出了“模型集合 + 自适应选择”的稳健得分检验。

子线索聚类¶

缺失协变量的单模型插补检验：用LASSO、Ridge等从高维辅助变量中学习一个插补模型，然后用该插补值进行检验。缺点是插补模型选择的不稳定性与模型误设的敏感性。代表作如Huang et al. (2019)。
多重插补的鲁棒组合：将多重插补与鲁棒标准误结合，但通常需要插补模型正确，且在处理高维辅助变量时面临“怎么选辅助变量来插补”的问题。代表作如Binder et al. (2009)。
均匀一致推断 / 稳健推断：利用经验过程理论，在模型误设下仍保证检验的渐近有效性。代表作如van der Laan & Robins (2003)。本文属于此子线索，并具体应用于由高维辅助变量驱动的多模型选择场景。

这个方向在追问的核心问题 (2-3个)¶

如何在高维辅助变量下，构建对插补模型与结果模型双重误设都稳健的检验？
如何自动选择要使用的辅助变量或插补模型，且不破坏检验有效性？——核心是模型选择后的推断。
如何同时利用多个竞争模型的信息，而不是依赖一个选定的最优模型，来提高检验功效？

⚠️ 作者的 framing (明确标注)¶

作者的缺口：作者断言现有方法（如Huang et al. 2019）依赖于单一选择的插补模型，这在模型误设下会使检验“biased or invalid”。他们将此缺口frame为“多模型组合 + 自适应选择的必要性”。
被淡化的竞争路线：逆概率加权 (IPW) 和 双重稳健 (DR) 估计 方法（如Doubly Robust Score Test）也能处理模型误设，但作者仅在引言中提到“IPW需要正确指定缺失机制”，并暗示在高维辅助变量下，DR的倾向性得分模型也难以正确指定。这是一个合理的淡化，因为DR方法在处理高维辅助变量时确实需要正则化，且其模型误设下的稳健性不如本文的“模型集合”策略直接。
明显该被引/存在但未出现：Targeted Maximum Likelihood Estimation (TMLE) 在模型误设下也具有良好的性质，但其应用场景更侧重于因果推断中的点估计。本文是关于假设检验，直接引用TMLE的假设检验性质会更具可比性。另一个可能未引用的方向是 Cross-fitting + DML（DML应用于检验而非估计），但在删失生存结局和高维缺失协变量下的DML检验也是一条未提及的路径。这作为值得研究者自己检查的一个问题：DML在更一般的模型误设下能否提供类似稳健性或更高效应？可以查一下如Kennedy (2023) “Semiparametric doubly robust targeted double machine learning: a review” 或更早的Chernozhukov et al. (2018)的工作。

张力¶

未见明显对立引用。文献中的争议点主要是单模型选择的不稳定性 vs. 多模型组合的复杂性，本文选择后者。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据（必做）¶

符号：
- \(T\): 潜在无删失的生存时间（随机变量，潜在量，观测不全）
- \(C\): 删失时间（随机变量，潜在量）
- \(Y = \min(T, C)\): 可观测的随访时间 （可观测）
- \(\Delta = I(T \le C)\): 删失指示符 （可观测）
- \(X\): 感兴趣协变量，部分缺失。记 \(R\) 为缺失指示符：\(R=1\) 表示 \(X\) 被观测到；\(R=0\) 表示缺失。 \(X\) 是部分可观测的 (当 \(R=1\) 时可观测，当 \(R=0\) 时是潜在量)。
- \(Z \in \mathbb{R}^p, p \gg n\): 高维辅助变量向量，对所有人完整可观测。 （可观测）
- \(W\): 可观测的完全协变量（如年龄、性别），可能包含的调整变量。 （可观测）
模型：
- 半参数变换模型：
  \[g(T) = -\beta X + \epsilon\]
  ，其中 \(g(\cdot)\) 是一个未知的严格递增变换函数（参数化，但视为无穷维），\(\epsilon\) 是一个已知分布的误差项（如极值分布对应比例风险，逻辑分布对应比例几率）。在实践中，通常用Cox比例风险模型（\(\epsilon\) 极值分布）作为特例。核心是：\(T\) 与 \(X\) 的关联由参数 \(\beta\) 刻画。检验假设是 \(H_0: \beta = 0\).
- 缺失机制：假设缺失机制是“可忽略的缺失” (Missing at Random, MAR)，即在给定可观测数据 \(Z, W, Y, \Delta\) 下，缺失概率独立于 \(X\)。即 \(P(R=1 | X, Z, W, Y, \Delta ) = P(R=1 | Z, W, Y, \Delta)\)。
- 插补模型：作者考虑一系列关于 \(E[X | Z, W, Y, \Delta, \beta ]\) 的模型（称为“插补模型”），用高维辅助变量 \(Z\) 来预测缺失的 \(X\)。例如，可能是一个线性模型或广义线性模型，并用高维正则化方法（如LASSO）来拟合。
可观测数据：\(\{ (Y_i, \Delta_i, R_i, R_i X_i, Z_i, W_i): i=1,...,n \}\).
潜在/不可观测量：当 \(R=0\) 时的 \(X_i\) 值。

第二步：讲最小内核¶

最小特例：简化到单次插补 + 线性Cox模型 + 缺失完全随机

下面剥去一般性，考虑一个比论文更简化的设定，但保留其核心思想。

最简设定：
1. 结局模型：Cox比例风险模型，\(h(t|X,W) = h_0(t) \exp(\beta X + \gamma^T W)\)，其中 \(h_0(t)\) 是基准风险函数。检验 \(H_0: \beta=0\).
2. 缺失机制：完全随机缺失 (MCAR)，\(P(R=1) = \pi\)，常数。 \(Z\) 是辅助变量。
3. 插补模型：只用一个简单的线性模型 \(X = \delta^T Z + \eta\)，且 \(Z\) 维度低（如 \(p=10\)，不需LASSO）。我们将这个模型记为 \(M_1\)。
4. 核心理念：对观测数据，通常的Cox得分统计量基于完整数据的似然，对缺失部分做期望。但若插补模型 \(M_1\) 不正确，那么用 \(M_1\) 插补后计算的得分统计量的期望不为0，检验会偏差。
本文方法的核心思路 (在最小特例下)：
- 步骤1：基于多个插补模型的得分。假设我们不只是用一个模型 \(M_1\)，而是设计了另一个模型 \(M_2\)，例如 \(X = \delta_1^T Z + \delta_2^T Y + \eta\) (利用了结局时间 \(Y\) 的信息作为辅助)。对每个模型 \(M_k\)，我们拟合它，并用它插补缺失的 \(X\) 项，然后计算一个基于插补数据集的“稳健加速得分统计量” \(S_k\)。
- 步骤2：检验的稳健性条件。只要至少有一个模型（例如 \(M_1\) 或 \(M_2\)）同时满足两个条件： (a) 能正确预测 \(X\) 的条件均值 \(E[X|...]\), (b) 由该模型构成的得分函数（经某种调整后）在 \(H_0\) 下期望为0。那么，通过适当组合这些 \(S_k\) 得到的最终检验统计量 \(T = \max_k |S_k|\) 或 \(T = \sum_k \nu_k S_k^2\) （作者具体用了一个自适应权重），就能在 \(H_0\) 下保持有效（Type I error <= 名义水平）。
- 步骤3：自适应选择。更精细地，作者不是直接平均所有模型，而是自适应地选择一个“最佳”插补模型（可能是用信息准则或者在验证集上评估预测误差），然后构造检验。关键证明是：这个自适应选择过程，在 \(H_0\) 下，不会破坏检验的近有效性。

一句话概括核心思路：构建一个由多个可能误设的插补模型驱动的得分统计量集合；只要集合内“含有一个正确的”，通过组合或自适应挑选，就能获得对所有模型误设都稳健的检验。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了什么问题：研究了当右删失生存结局的感兴趣协变量存在缺失，且有高维辅助变量可用时，如何构建一个对该协变量与结局关联的、对结局模型与插补模型双重误设都稳健的得分检验。
核心工具/方法：提出了一个基于“模型集合 + 自适应选择”的稳健得分检验框架。具体地，构建多个插补模型（利用高维辅助变量），每个模型导出一个调整的得分统计量 \(U_k\)。然后通过一个自适应过程（基于交叉验证或信息准则）来组合这些得分，或者选出一个最优的，并保证该过程不影响检验的渐近有效性。
主要结论：理论上证明了该检验在模型误设下的渐近有效性（Type I error 正确控制）和局部最大功效（在一定的备择假设下具有最高的检测能力）。模拟与实例验证了相比单模型方法的优越性。

关键设定与假设（在第二节基础上补全）¶

完整设定需要引入本文的一般性符号，但关键点在已给出的最小记号基础上补充： - 假设 A (半参数变换模型)：\(g(T) = -\beta X + \epsilon\)，其中 \(g\) 是光滑、未知、严格递增的函数，\(\epsilon\) 的分布已知。这比Cox模型更一般。 - 假设 B (缺失机制)：可忽略缺失 (MAR)，缺失是随机的，给定观察到的数据 \((Z, W, Y, \Delta)\)，\(R\) 独立于 \(X\)。 - 假设 C (候选插补模型)：考虑一个有限或可数的插补模型集合 \(\mathcal{M} = \{m_1, ..., m_K\}\)。每个模型 \(m_k\) 是条件均值 \(E[X | Z, W, Y, \Delta, \beta=0]\) 的某种参数或非参数形式（用高维数据拟合）。 - 假设 D (模型选择准则)：基于某种准则（如BIC、交叉验证预测误差）从 \(\mathcal{M}\) 中自适应地选择出一个模型 \(\hat{m}\)。该准则需要满足某种“稳定性”条件（即在 \(H_0\) 下，选择 \(\hat{m}\) 的概率在一个固定模型集合上收敛到1，或者在 \(H_0\) 下最优模型是唯一的）。 - 假设 E (高维正则化条件)：对于用高维辅助变量拟合插补模型，需要高维正则化方法的理论性质，如LASSO的收敛速率。具体需要辅助变量与缺失协变量及结局之间的稀疏性假设（或某种“sure screening”属性），以保证插补模型不会过于复杂而导致拟合不稳定。

相比已有文献的放宽：相比Huang et al. (2019) 的单模型假设，本文放宽到模型集合，允许模型中至少有一个正确即可。相比标准的MI，本方法不需要插补模型在全局上正确，只要在构造得分函数的意义上“足够接近”真实模型即可。

主要结果¶

定理 1 (模型误设下检验的渐近有效性)：在假设A-E下，对于由自适应选择的插补模型 \(\hat{m}\) 所构造的得分检验统计量 \(T_{\hat{m}}\)，在 \(H_0: \beta=0\) 下，有

\[\sup_{t} |P(T_{\hat{m}} \le t) - P(\chi^2_1 \le t)| \to 0\]

即检验统计量渐近服从自由度为1的卡方分布。这保证了无论我们怎么选插补模型（只要是在集合 \(\mathcal{M}\) 中选），只要选对了，检验的Type I Error就能被控制。核心技术难点在于：自适应选择过程引入了额外的随机性，需要用经验过程理论来证明选择的“稳定性”不破坏最终统计量的渐近正态性。

定理 2 (局部功效)：在局部备择假设 \(\beta = \beta_n = O(1/\sqrt{n})\) 下，所提检验是渐近最优的，其功效接近在正确模型下（即知道真实的插补模型）能达到的最优功效。这依赖于构造的得分统计量的均匀局部最优性。

定理 3 (多模型组合的渐近性质)：如果不做选择，而是通过一个权重函数 \(\nu_k\) 将所有得分统计量 \(U_k\) 组合起来，在适当的权重选择下（如逆方差加权），组合检验同样具有上述性质。本文主要结果中强调“自适应选择”比“固定组合”更易实现且在实际中表现良好。

证明路线与技术技巧（理论型，具体）¶

整体路线 (3-5步逻辑主干):
1. 定义稳健得分函数：对于给定的插补模型 \(m_k\)，构造一个能在 \(H_0\) 下独立于缺失数据模型的得分函数 \(U_k(\beta; m_k)\)。关键是使用条件期望的思路：在 \(H_0\) 下，\(X\) 与 \(T\) 无关，因此未观测到的缺失 \(X\) 的信息可以通过条件分布 \(f(X|Y,\Delta,R=0,Z,W)\) 来近似。但为了应对模型误设，他们不直接使用真实条件分布，而是使用由插补模型 \(m_k\) 构造的“靶向”得分函数，该函数在 \(m_k\) 正确时是有效得分函数，在 \(m_k\) 误设时仍保持着某种双性性质（如：如果结局模型也误设，但插补模型对 \(E[X|...]\) 估计正确，则期望为0）。
2. 得分统计量的线性化与渐近展开：对 \(U_k\) 进行一阶Taylor展开，将其分解为可观测部分（均值为0，方差可估计） + 由于模型误设产生的偏差。关键证明是：若有一个模型接近正确（或至少某个模型正确），那么由自适应选择产生的最大偏差项可以忽略。
3. 处理“自适应选择”的随机性：使用经验过程理论（特别是 Donsker类 和 随机Equip-continuity）来证明，对于所有候选插补模型，得分统计量 \(U_k\) 构成的随机过程在 \(H_0\) 下是“稳定”的。因此，对它们进行最大化（选最优）不会导致检验统计量的渐近分布偏离卡方。这实际上证明了自适应选择的“选择后推断”的渐近正确性。
4. 模型选择准则的收敛性：需要证明所选的模型选择准则（如交叉验证误差）在 \(H_0\) 下能可靠地选择出“最优”模型。这是通过正则性条件（准则的相合性）来保证的。
关键跳跃点：
- 从“单个模型”到“模型集合”的跨越：本文最大的理论创新是处理了多个模型同时存在的随机性，并证明了“自适应选择”不会破坏检验有效性。这需要比单模型更强的经验过程工具。
- 如何定义“正确”模型：在模型误设下，没有“真模型”。他们定义了一个“最优”模型——在Kullback-Leibler距离下或者预测误差下，最接近真实 \(E[X|...]\) 的那个。证明的关键在于：只要这个最优模型仍在集合 \(\mathcal{M}\) 中，那么自适应选择倾向于选它，且选它的概率趋近于1。
技术技巧点名：
- 经验过程 (Empirical Process)：用于控制模型误设下的得分过程的随机波动，特别是证明自适应选择后统计量的极限分布仍然是卡方。用到了覆盖数、刻画复杂性。
- 交叉拟合 (Cross-fitting)：虽然本文主要做理论，但在实际建议中使用了交叉拟合版本的得分统计量，以避免过拟合。具体来说，将数据分成K折，在每个折叠上用其他数据拟合插补模型，再在该折叠上计算得分。此技巧可以放松对模型复杂性的限制。
- 高效影响函数 (Efficient Influence Function, EIF) 的变体：虽然本文做的是检验，但其得分函数构建思路暗含了EIF的概念：构造一个对双模型误设都稳健的“影响函数”，然后在 \(H_0\) 下使其期望为0。这本质上是双稳健性 (Doubly Robustness) 在得分检验中的体现。

真实例子与应用¶

数据：癌症基因组图谱 (TCGA) 中的乳腺癌 (BRCA) 和卵巢癌 (OV) 数据集。感兴趣的协变量是某个特定基因的表达水平（可能缺失），辅助变量是其他数千个基因的表达（高维）。结局是总生存时间 (右删失)。
如何应用：将所提出的检验方法应用于检验每个基因与生存之间的关联。
结果：在BRCA数据集中，本方法发现了22个与生存显著关联的基因（FDR控制），而基于LASSO单模型插补的方法只发现13个。在OV数据中，本方法发现了9个，单模型方法发现5个。这说明了本方法通过多模型组合提高了在模型误设下的检验功效（发现了更多真实的关联）。
这个例子想说明什么：验证了在实际高维生物标记物筛选场景中，本文方法相比单模型方法具有更高的发现能力，同时保持了Type I error 控制。它证明了模型集合策略相对于单模型策略的实证优越性。该例中，作者也展示了他们发现的基因与已有的生物学知识存在一定重叠，作为方法有效性的间接证据。

🔎 结论是否比证明窄¶

需要检查论文具体语句。例如，作者可能 claim “检验在局部备择假设下是最优的”，但证明可能局限于某个特定的备择序列（如 \(\beta\) 在一个 1/sqrt(n) 邻域内）与特定的模型集合 \(\mathcal{M}\)。另一个可能的窄点是：证明依赖交叉拟合，但实际应用的建议中允许使用重抽样或简单分割。另外，对于高维辅助变量与缺失协变量相关强度未知的情况，检验功效可能打折扣，作者可能只证明了在稀疏性假设下的功效，而没有在更一般的“弱相关”下分析。务必在论文中找到这些具体语句来验证。

四、开放问题（点到为止，扎根具体语句）¶

高维辅助变量与缺失协变量间关系的弱信号问题：如果 \(Z\) 与 \(X\) 的相关性非常弱（如 \(X\) 是 \(Z\) 的线性组合，但信号强度为 \(O(1/\sqrt{p})\)），那么基于LASSO的插补模型可能无法利用 \(Z\) 的信息，此时方法的功效可能退化成完全根据完整数据（\(R=1\) 的样本）做检验。论文是否对此进行了分析？（扎根于：引言中未讨论 p >> n 时信号强度对方法影响的边界，而定理2的局部最优性可能假设了插补模型足够好。这是理论走向实际应用的典型 gap。）
多个插补模型之间的依赖性：作者假设插补模型集合 \(\mathcal{M}\) 是预先固定的。但实际中，模型可以由数据驱动一步一步地构造（例如，先用所有 \(Z\) 做LASSO，再用筛选后的变量做其他模型）。这种数据驱动的模型构造过程是否会破坏选择的稳定性？这是一个更技术性的 open issue。（扎根于：作者将 \(\mathcal{M}\) 视为给定，但实践中的模型搜索才是常态。定理1的稳定性条件需要 \(\mathcal{M}\) 固定。）
对非可忽略缺失 (Non-ignorable Missing) 的扩展：当缺失机制不是MAR时（即 \(R\) 依赖于未观测的 \(X\)），当前框架失效。在生存分析的删失情景下，开发对非可忽略缺失稳健的得分检验是一个重要的 next step。（扎根于：作者在limitations部分可能明确指出“我们假设MAR是基本假设”，并留下“在NMAR下检验是未来工作”的语句。）
检验功效的界：除了局部最优性，能否给出一个具体的功效下界（如minimax最优性），说明只要至少一个插补模型正确，检测效果能有多好？目前是渐近局部最优，但具体的有限样本界或Minimax下界未给出。（扎根于：论文仅讨论了在1/sqrt(n)邻域内的局部最优性，未讨论更大的偏离。）

Maintained by 陈星宇 · Homepage · Source on GitHub