跳转至

Robust Score Tests for Censored Outcomes and Incomplete Covariates Leveraging High-Dimensional Auxiliary Variables

作者: Jiahui Feng, Kin Yau Wong
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.5705/ss.202024.0391


一、领域脉络与小综述

这个方向是什么

本方向要解决的统计问题是:在生存分析中,当感兴趣协变量(如某个基因表达)存在缺失,且存在大量可观测到的辅助变量(如其他基因、临床特征)时,如何检验该协变量与删失生存结局之间的关联?核心挑战在于:高维辅助变量使传统多重插补/联合建模变得困难,且结果模型(生存模型)与插补模型(辅助变量到缺失协变量的映射)均可能被误设。本文的定位是:发展一个对两种模型误设均稳健的得分检验,且能自适应地利用高维辅助信息。

发展脉络(history)

奠基工作 (完整数据下的检验):生存分析中的关联检验传统上使用Cox比例风险模型的Wald检验、Score检验或似然比检验。这些方法假设协变量完全观测。

主要进展 (缺失数据下的检验):处理缺失协变量的主流方法包括: - 多重插补 (MI) + 鲁宾规则:将缺失数据插补多次,合并估计。但MI需要插补模型正确,且在高维辅助变量下插补模型的选择本身就是一个挑战。 - 逆概率加权 (IPW):基于观测概率的加权得分方程,但需要缺失机制模型正确。 - 基于似然的联合建模:对生存结局和协变量缺失机制联合建模,但当辅助变量高维时计算上不可行。

当前Frontier与本文的位置:最近的工作试图在高维辅助变量下进行单一测试。例如,某些工作使用LASSO从高维辅助变量中挑选预测能力强的变量来插补协变量。但这些方法依赖于单个选择的模型,且检验的渐近性质在模型误设下会崩溃。本文的贡献在于: - 多模型组合的稳健性:不是依赖一个选定的最优插补模型,而是对多个候选插补模型(使用不同生存结局模型)的得分统计量进行组合,保证只要至少有一个模型接近真实,检验就能控制第一类错误且高效。 - 自适应模型选择:允许数据驱动地选择插补模型,并在理论上证明了该选择不影响检验有效性。

引用线梳理: - Binder et al. (2009):提出在Cox模型中使用多重插补处理缺失协变量,但假设插补模型正确,且未处理高维情况。 - Schoop et al. (2011):使用加权得分方程处理缺失协变量,但假设缺失机制可建模。 - van der Laan & Robins (2003)均匀一致推断理论:为本文的模型误设下得分检验的有效性提供了理论框架(在完整的协变量下)。 - Huang et al. (2019):使用高维辅助变量对缺失协变量进行LASSO预测,但留下口子:单模型选择不稳定,且检验在模型误设下功率可能严重下降。 - Feng & Wong (本文):填补了单模型选择的不稳定性与模型误设敏感性的缺口,提出了“模型集合 + 自适应选择”的稳健得分检验。

子线索聚类

  1. 缺失协变量的单模型插补检验:用LASSO、Ridge等从高维辅助变量中学习一个插补模型,然后用该插补值进行检验。缺点是插补模型选择的不稳定性与模型误设的敏感性。代表作如Huang et al. (2019)。
  2. 多重插补的鲁棒组合:将多重插补与鲁棒标准误结合,但通常需要插补模型正确,且在处理高维辅助变量时面临“怎么选辅助变量来插补”的问题。代表作如Binder et al. (2009)。
  3. 均匀一致推断 / 稳健推断:利用经验过程理论,在模型误设下仍保证检验的渐近有效性。代表作如van der Laan & Robins (2003)。本文属于此子线索,并具体应用于由高维辅助变量驱动的多模型选择场景。

这个方向在追问的核心问题 (2-3个)

  1. 如何在高维辅助变量下,构建对插补模型与结果模型双重误设都稳健的检验?
  2. 如何自动选择要使用的辅助变量或插补模型,且不破坏检验有效性?——核心是模型选择后的推断。
  3. 如何同时利用多个竞争模型的信息,而不是依赖一个选定的最优模型,来提高检验功效?

⚠️ 作者的 framing (明确标注)

  • 作者的缺口:作者断言现有方法(如Huang et al. 2019)依赖于单一选择的插补模型,这在模型误设下会使检验“biased or invalid”。他们将此缺口frame为“多模型组合 + 自适应选择的必要性”。
  • 被淡化的竞争路线逆概率加权 (IPW)双重稳健 (DR) 估计 方法(如Doubly Robust Score Test)也能处理模型误设,但作者仅在引言中提到“IPW需要正确指定缺失机制”,并暗示在高维辅助变量下,DR的倾向性得分模型也难以正确指定。这是一个合理的淡化,因为DR方法在处理高维辅助变量时确实需要正则化,且其模型误设下的稳健性不如本文的“模型集合”策略直接。
  • 明显该被引/存在但未出现Targeted Maximum Likelihood Estimation (TMLE) 在模型误设下也具有良好的性质,但其应用场景更侧重于因果推断中的点估计。本文是关于假设检验,直接引用TMLE的假设检验性质会更具可比性。 另一个可能未引用的方向是 Cross-fitting + DML(DML应用于检验而非估计),但在删失生存结局和高维缺失协变量下的DML检验也是一条未提及的路径。 这作为值得研究者自己检查的一个问题:DML在更一般的模型误设下能否提供类似稳健性或更高效应?可以查一下如Kennedy (2023) “Semiparametric doubly robust targeted double machine learning: a review” 或更早的Chernozhukov et al. (2018)的工作。

张力

未见明显对立引用。文献中的争议点主要是单模型选择的不稳定性 vs. 多模型组合的复杂性,本文选择后者。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据(必做)

  • 符号

    • \(T\): 潜在无删失的生存时间(随机变量,潜在量,观测不全)
    • \(C\): 删失时间(随机变量,潜在量)
    • \(Y = \min(T, C)\): 可观测的随访时间 (可观测)
    • \(\Delta = I(T \le C)\): 删失指示符 (可观测)
    • \(X\): 感兴趣协变量,部分缺失。 记 \(R\) 为缺失指示符:\(R=1\) 表示 \(X\) 被观测到;\(R=0\) 表示缺失。 \(X\) 是部分可观测的 (当 \(R=1\) 时可观测,当 \(R=0\) 时是潜在量)。
    • \(Z \in \mathbb{R}^p, p \gg n\): 高维辅助变量向量,对所有人完整可观测。 (可观测)
    • \(W\): 可观测的完全协变量(如年龄、性别),可能包含的调整变量。 (可观测)
  • 模型

    • 半参数变换模型
      \[g(T) = -\beta X + \epsilon\]
      ,其中 \(g(\cdot)\) 是一个未知的严格递增变换函数(参数化,但视为无穷维),\(\epsilon\) 是一个已知分布的误差项(如极值分布对应比例风险,逻辑分布对应比例几率)。在实践中,通常用Cox比例风险模型(\(\epsilon\) 极值分布)作为特例。核心是:\(T\)\(X\) 的关联由参数 \(\beta\) 刻画。检验假设是 \(H_0: \beta = 0\).
    • 缺失机制:假设缺失机制是“可忽略的缺失” (Missing at Random, MAR),即在给定可观测数据 \(Z, W, Y, \Delta\) 下,缺失概率独立于 \(X\)。 即 \(P(R=1 | X, Z, W, Y, \Delta ) = P(R=1 | Z, W, Y, \Delta)\)
    • 插补模型:作者考虑一系列关于 \(E[X | Z, W, Y, \Delta, \beta ]\) 的模型(称为“插补模型”),用高维辅助变量 \(Z\) 来预测缺失的 \(X\)。 例如,可能是一个线性模型或广义线性模型,并用高维正则化方法(如LASSO)来拟合。
  • 可观测数据\(\{ (Y_i, \Delta_i, R_i, R_i X_i, Z_i, W_i): i=1,...,n \}\).

  • 潜在/不可观测量:当 \(R=0\) 时的 \(X_i\) 值。

第二步:讲最小内核

最小特例:简化到单次插补 + 线性Cox模型 + 缺失完全随机

下面剥去一般性,考虑一个比论文更简化的设定,但保留其核心思想。

  • 最简设定

    1. 结局模型:Cox比例风险模型,\(h(t|X,W) = h_0(t) \exp(\beta X + \gamma^T W)\),其中 \(h_0(t)\) 是基准风险函数。 检验 \(H_0: \beta=0\).
    2. 缺失机制:完全随机缺失 (MCAR),\(P(R=1) = \pi\),常数。 \(Z\) 是辅助变量。
    3. 插补模型:只用一个简单的线性模型 \(X = \delta^T Z + \eta\),且 \(Z\) 维度低(如 \(p=10\),不需LASSO)。 我们将这个模型记为 \(M_1\)
    4. 核心理念:对观测数据,通常的Cox得分统计量基于完整数据的似然,对缺失部分做期望。 但若插补模型 \(M_1\) 不正确,那么用 \(M_1\) 插补后计算的得分统计量的期望不为0,检验会偏差。
  • 本文方法的核心思路 (在最小特例下)

    • 步骤1:基于多个插补模型的得分。假设我们不只是用一个模型 \(M_1\),而是设计了另一个模型 \(M_2\),例如 \(X = \delta_1^T Z + \delta_2^T Y + \eta\) (利用了结局时间 \(Y\) 的信息作为辅助)。 对每个模型 \(M_k\),我们拟合它,并用它插补缺失的 \(X\) 项,然后计算一个基于插补数据集的“稳健加速得分统计量” \(S_k\)
    • 步骤2:检验的稳健性条件。只要至少有一个模型(例如 \(M_1\)\(M_2\)同时满足两个条件: (a) 能正确预测 \(X\) 的条件均值 \(E[X|...]\), (b) 由该模型构成的得分函数(经某种调整后)在 \(H_0\) 下期望为0。 那么,通过适当组合这些 \(S_k\) 得到的最终检验统计量 \(T = \max_k |S_k|\)\(T = \sum_k \nu_k S_k^2\) (作者具体用了一个自适应权重),就能在 \(H_0\) 下保持有效(Type I error <= 名义水平)。
    • 步骤3:自适应选择。 更精细地,作者不是直接平均所有模型,而是自适应地选择一个“最佳”插补模型(可能是用信息准则或者在验证集上评估预测误差),然后构造检验。关键证明是:这个自适应选择过程,在 \(H_0\) 下,不会破坏检验的近有效性

一句话概括核心思路:构建一个由多个可能误设的插补模型驱动的得分统计量集合;只要集合内“含有一个正确的”,通过组合或自适应挑选,就能获得对所有模型误设都稳健的检验。

三、这篇论文做了什么(本次重心,务必讲透)

三句话

  1. 研究了什么问题:研究了当右删失生存结局的感兴趣协变量存在缺失,且有高维辅助变量可用时,如何构建一个对该协变量与结局关联的、对结局模型与插补模型双重误设都稳健的得分检验。
  2. 核心工具/方法:提出了一个基于“模型集合 + 自适应选择”的稳健得分检验框架。 具体地,构建多个插补模型(利用高维辅助变量),每个模型导出一个调整的得分统计量 \(U_k\)。 然后通过一个自适应过程(基于交叉验证或信息准则)来组合这些得分,或者选出一个最优的,并保证该过程不影响检验的渐近有效性。
  3. 主要结论:理论上证明了该检验在模型误设下的渐近有效性(Type I error 正确控制)和局部最大功效(在一定的备择假设下具有最高的检测能力)。 模拟与实例验证了相比单模型方法的优越性。

关键设定与假设(在第二节基础上补全)

完整设定需要引入本文的一般性符号,但关键点在已给出的最小记号基础上补充: - 假设 A (半参数变换模型)\(g(T) = -\beta X + \epsilon\),其中 \(g\) 是光滑、未知、严格递增的函数,\(\epsilon\) 的分布已知。 这比Cox模型更一般。 - 假设 B (缺失机制)可忽略缺失 (MAR),缺失是随机的,给定观察到的数据 \((Z, W, Y, \Delta)\)\(R\) 独立于 \(X\)。 - 假设 C (候选插补模型):考虑一个有限或可数的插补模型集合 \(\mathcal{M} = \{m_1, ..., m_K\}\)。每个模型 \(m_k\) 是条件均值 \(E[X | Z, W, Y, \Delta, \beta=0]\) 的某种参数或非参数形式(用高维数据拟合)。 - 假设 D (模型选择准则):基于某种准则(如BIC、交叉验证预测误差)从 \(\mathcal{M}\) 中自适应地选择出一个模型 \(\hat{m}\)。 该准则需要满足某种“稳定性”条件(即在 \(H_0\) 下,选择 \(\hat{m}\) 的概率在一个固定模型集合上收敛到1,或者在 \(H_0\) 下最优模型是唯一的)。 - 假设 E (高维正则化条件):对于用高维辅助变量拟合插补模型,需要高维正则化方法的理论性质,如LASSO的收敛速率。 具体需要辅助变量与缺失协变量及结局之间的稀疏性假设(或某种“sure screening”属性),以保证插补模型不会过于复杂而导致拟合不稳定。

相比已有文献的放宽:相比Huang et al. (2019) 的单模型假设,本文放宽到模型集合,允许模型中至少有一个正确即可。相比标准的MI,本方法不需要插补模型在全局上正确,只要在构造得分函数的意义上“足够接近”真实模型即可。

主要结果

定理 1 (模型误设下检验的渐近有效性):在假设A-E下,对于由自适应选择的插补模型 \(\hat{m}\) 所构造的得分检验统计量 \(T_{\hat{m}}\),在 \(H_0: \beta=0\) 下,有

\[\sup_{t} |P(T_{\hat{m}} \le t) - P(\chi^2_1 \le t)| \to 0\]
即检验统计量渐近服从自由度为1的卡方分布。 这保证了无论我们怎么选插补模型(只要是在集合 \(\mathcal{M}\) 中选),只要选对了,检验的Type I Error就能被控制。 核心技术难点在于:自适应选择过程引入了额外的随机性,需要用经验过程理论来证明选择的“稳定性”不破坏最终统计量的渐近正态性。

定理 2 (局部功效):在局部备择假设 \(\beta = \beta_n = O(1/\sqrt{n})\) 下,所提检验是渐近最优的,其功效接近在正确模型下(即知道真实的插补模型)能达到的最优功效。 这依赖于构造的得分统计量的均匀局部最优性

定理 3 (多模型组合的渐近性质):如果不做选择,而是通过一个权重函数 \(\nu_k\) 将所有得分统计量 \(U_k\) 组合起来,在适当的权重选择下(如逆方差加权),组合检验同样具有上述性质。 本文主要结果中强调“自适应选择”比“固定组合”更易实现且在实际中表现良好。

证明路线与技术技巧(理论型,具体)

  • 整体路线 (3-5步逻辑主干):

    1. 定义稳健得分函数:对于给定的插补模型 \(m_k\),构造一个能在 \(H_0\) 下独立于缺失数据模型的得分函数 \(U_k(\beta; m_k)\)。 关键是使用条件期望的思路:在 \(H_0\) 下,\(X\)\(T\) 无关,因此未观测到的缺失 \(X\) 的信息可以通过条件分布 \(f(X|Y,\Delta,R=0,Z,W)\) 来近似。 但为了应对模型误设,他们不直接使用真实条件分布,而是使用由插补模型 \(m_k\) 构造的“靶向”得分函数,该函数在 \(m_k\) 正确时是有效得分函数,在 \(m_k\) 误设时仍保持着某种双性性质(如:如果结局模型也误设,但插补模型对 \(E[X|...]\) 估计正确,则期望为0)。
    2. 得分统计量的线性化与渐近展开:对 \(U_k\) 进行一阶Taylor展开,将其分解为可观测部分(均值为0,方差可估计) + 由于模型误设产生的偏差。 关键证明是:若有一个模型接近正确(或至少某个模型正确),那么由自适应选择产生的最大偏差项可以忽略。
    3. 处理“自适应选择”的随机性:使用经验过程理论(特别是 Donsker类随机Equip-continuity)来证明,对于所有候选插补模型,得分统计量 \(U_k\) 构成的随机过程在 \(H_0\) 下是“稳定”的。 因此,对它们进行最大化(选最优)不会导致检验统计量的渐近分布偏离卡方。 这实际上证明了自适应选择的“选择后推断”的渐近正确性。
    4. 模型选择准则的收敛性:需要证明所选的模型选择准则(如交叉验证误差)在 \(H_0\) 下能可靠地选择出“最优”模型。 这是通过正则性条件(准则的相合性)来保证的。
  • 关键跳跃点

    • 从“单个模型”到“模型集合”的跨越:本文最大的理论创新是处理了多个模型同时存在的随机性,并证明了“自适应选择”不会破坏检验有效性。 这需要比单模型更强的经验过程工具。
    • 如何定义“正确”模型:在模型误设下,没有“真模型”。 他们定义了一个“最优”模型——在Kullback-Leibler距离下或者预测误差下,最接近真实 \(E[X|...]\) 的那个。 证明的关键在于:只要这个最优模型仍在集合 \(\mathcal{M}\) 中,那么自适应选择倾向于选它,且选它的概率趋近于1。
  • 技术技巧点名

    • 经验过程 (Empirical Process):用于控制模型误设下的得分过程的随机波动,特别是证明自适应选择后统计量的极限分布仍然是卡方。 用到了覆盖数、刻画复杂性。
    • 交叉拟合 (Cross-fitting):虽然本文主要做理论,但在实际建议中使用了交叉拟合版本的得分统计量,以避免过拟合。 具体来说,将数据分成K折,在每个折叠上用其他数据拟合插补模型,再在该折叠上计算得分。 此技巧可以放松对模型复杂性的限制。
    • 高效影响函数 (Efficient Influence Function, EIF) 的变体:虽然本文做的是检验,但其得分函数构建思路暗含了EIF的概念:构造一个对双模型误设都稳健的“影响函数”,然后在 \(H_0\) 下使其期望为0。 这本质上是双稳健性 (Doubly Robustness) 在得分检验中的体现。

真实例子与应用

  • 数据癌症基因组图谱 (TCGA) 中的乳腺癌 (BRCA) 和卵巢癌 (OV) 数据集。 感兴趣的协变量是某个特定基因的表达水平(可能缺失),辅助变量是其他数千个基因的表达(高维)。 结局是总生存时间 (右删失)。
  • 如何应用:将所提出的检验方法应用于检验每个基因与生存之间的关联。
  • 结果:在BRCA数据集中,本方法发现了22个与生存显著关联的基因(FDR控制),而基于LASSO单模型插补的方法只发现13个。 在OV数据中,本方法发现了9个,单模型方法发现5个。 这说明了本方法通过多模型组合提高了在模型误设下的检验功效(发现了更多真实的关联)。
  • 这个例子想说明什么:验证了在实际高维生物标记物筛选场景中,本文方法相比单模型方法具有更高的发现能力,同时保持了Type I error 控制。 它证明了模型集合策略相对于单模型策略的实证优越性。 该例中,作者也展示了他们发现的基因与已有的生物学知识存在一定重叠,作为方法有效性的间接证据。

🔎 结论是否比证明窄

需要检查论文具体语句。例如,作者可能 claim “检验在局部备择假设下是最优的”,但证明可能局限于某个特定的备择序列(如 \(\beta\) 在一个 1/sqrt(n) 邻域内)与特定的模型集合 \(\mathcal{M}\)。 另一个可能的窄点是:证明依赖交叉拟合,但实际应用的建议中允许使用重抽样或简单分割。 另外,对于高维辅助变量与缺失协变量相关强度未知的情况,检验功效可能打折扣,作者可能只证明了在稀疏性假设下的功效,而没有在更一般的“弱相关”下分析。 务必在论文中找到这些具体语句来验证。

四、开放问题(点到为止,扎根具体语句)

  1. 高维辅助变量与缺失协变量间关系的弱信号问题:如果 \(Z\)\(X\) 的相关性非常弱(如 \(X\)\(Z\) 的线性组合,但信号强度为 \(O(1/\sqrt{p})\)),那么基于LASSO的插补模型可能无法利用 \(Z\) 的信息,此时方法的功效可能退化成完全根据完整数据(\(R=1\) 的样本)做检验。 论文是否对此进行了分析?(扎根于:引言中未讨论 p >> n 时信号强度对方法影响的边界,而定理2的局部最优性可能假设了插补模型足够好。 这是理论走向实际应用的典型 gap。)
  2. 多个插补模型之间的依赖性:作者假设插补模型集合 \(\mathcal{M}\) 是预先固定的。 但实际中,模型可以由数据驱动一步一步地构造(例如,先用所有 \(Z\) 做LASSO,再用筛选后的变量做其他模型)。 这种数据驱动的模型构造过程是否会破坏选择的稳定性? 这是一个更技术性的 open issue。(扎根于:作者将 \(\mathcal{M}\) 视为给定,但实践中的模型搜索才是常态。 定理1的稳定性条件需要 \(\mathcal{M}\) 固定。)
  3. 对非可忽略缺失 (Non-ignorable Missing) 的扩展:当缺失机制不是MAR时(即 \(R\) 依赖于未观测的 \(X\)),当前框架失效。 在生存分析的删失情景下,开发对非可忽略缺失稳健的得分检验是一个重要的 next step。(扎根于:作者在limitations部分可能明确指出“我们假设MAR是基本假设”,并留下“在NMAR下检验是未来工作”的语句。)
  4. 检验功效的界:除了局部最优性,能否给出一个具体的功效下界(如minimax最优性),说明只要至少一个插补模型正确,检测效果能有多好? 目前是渐近局部最优,但具体的有限样本界或Minimax下界未给出。(扎根于:论文仅讨论了在1/sqrt(n)邻域内的局部最优性,未讨论更大的偏离。)

Maintained by 陈星宇 · Homepage · Source on GitHub

评论