Robust and Scalable Sure Screening of Fixed effects in Ultrahigh-dimensional Linear Mixed Models¶
作者: Abhik Ghosh, Magne Thoresen
主题: 高维统计 / 随机矩阵
相关性: 6/10
链接: https://arxiv.org/abs/2606.27789
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向要解决的根本问题是:在超高维线性混合模型(LMM)中,如何从海量候选固定效应(FE)协变量中,稳健且可扩展地筛选出真正相关的变量。这里的“稳健”指对数据污染(离群点、杠杆点)和模型误设不敏感;“可扩展”指计算复杂度与协变量数量p呈近似线性关系,能处理p随样本量n指数增长(log p = O(n^τ))的超高维设定。当前成熟度:在无随机效应的线性回归中,稳健筛选已有大量工作;但在LMM中,由于随机效应引入的组内相关性,稳健筛选的理论与方法仍处于早期阶段。
发展脉络(history)¶
-
奠基工作:SIS框架的提出。Fan and Lv (2008) 提出了Sure Independence Screening (SIS) 框架,通过边际相关性对协变量排序,将维度从超高维降至中等规模(o(n)),并证明了“确定筛选性质”(sure screening property)。这是后续所有筛选工作的基石。
-
主要进展:SIS向LMM的扩展。研究者将SIS思想推广到LMM,提出了基于边际相关性、偏相关系数或得分统计量的筛选方法(Chu, 2016; Zhang, 2019; Lai et al., 2020; Alabiso and Shang, 2023; Bratsberg et al., 2024)。这些方法利用了LMM的似然框架,但作者指出它们“inherited the well-known lack of robustness of LS and ML estimators”,对数据污染高度敏感。
-
当前Frontier:稳健筛选。在无随机效应的回归中,稳健筛选已得到广泛研究(Li et al., 2012a,b; Mu and Xiong, 2014; Wang et al., 2017; He et al., 2019; Ghosh and Thoresen, 2021; Ghosh et al., 2023; Yu et al., 2023; Li and Xu, 2024; Roy et al., 2024; Yan et al., 2025; Bai and Tang, 2026; Guo et al., 2026)。然而,作者强调“relatively little attention has been paid to robust screening in mixed-model contexts”,现有工作仅限于特定纵向模型子类(Jiang et al., 2025; Chen et al., 2025),且缺乏一个通用的理论框架来保证稳健筛选的确定筛选性质。
-
本文的位置:本文试图填补这个缺口。它提出了一种结合“代理矩阵(proxy matrix)白化变换”和“最小密度幂散度(minimum DPD)边际估计”的筛选方法(DPD-SISP),旨在同时实现:
- 可扩展性:通过代理矩阵将LMM转化为近似的线性回归模型,避免了对每个协变量进行完整的LMM拟合。
- 稳健性:使用DPD损失函数替代传统的似然函数,对离群点具有有界影响函数和高崩溃点。
- 理论保证:在一般条件下(允许非高斯误差和指数级维度增长)证明了确定筛选性质。
子线索聚类¶
这些被引文献大致落在以下三条子线索上:
-
LMM中的变量选择(非筛选):这类工作使用惩罚似然(Lasso, SCAD)或贝叶斯收缩方法,在LMM中同时进行FE选择和估计(Schelldorfer et al., 2011; Fan and Li, 2012; Rohart et al., 2013; Li et al., 2018; Ghosh and Thoresen, 2018; Yi and Tang, 2022; Oliveira et al., 2023; Gorstein et al., 2025; Scheipl, 2011; Yang et al., 2020; Yang, 2020; Li et al., 2023; Williams et al., 2023; Zgodic et al., 2025)。作者定位:这些方法在超高维(p >> n)下计算上不可行(“computationally intensive ... become impractical”),因此需要先进行筛选降维。
-
LMM中的稳健估计(低维):这类工作开发了针对LMM的稳健估计方法,如有界影响得分方程、Huber型M估计、高崩溃点S估计等(Richardson and Welsh, 1995; Pinheiro et al., 2001; Wang et al., 2005; Koller, 2016; Copt and Victoria-Feser, 2006; Agostinelli and Yohai, 2016; Zheng et al., 2021; Saraceno et al., 2024; Sugasawa et al., 2025)。作者定位:这些方法是为低维设定设计的,直接用于筛选在计算上不可行(“computationally infeasible for screening problems involving millions of covariates”),因为每个协变量都需要迭代求解。
-
无随机效应下的稳健筛选:这类工作在高维线性或广义线性模型中开发了稳健的SIS方法(Li et al., 2012a,b; Mu and Xiong, 2014; Wang et al., 2017; He et al., 2019; Ghosh and Thoresen, 2021; Ghosh et al., 2023; Yu et al., 2023; Li and Xu, 2024; Roy et al., 2024; Yan et al., 2025; Bai and Tang, 2026; Guo et al., 2026)。作者定位:这些方法不能直接处理LMM中的组内相关性,但其中的DPD方法(Ghosh and Thoresen, 2021; Ghosh et al., 2023)是本文方法的核心组成部分。
这个方向在追问的核心问题¶
- 如何定义和度量“边际信号”:在LMM中,由于随机效应引入的相关性,简单的边际相关性可能无法反映真实的边际信号。如何构造一个既能解耦相关性、又能抵抗污染的边际效用度量?
- 如何保证“确定筛选性质”:在超高维且存在相关性的设定下,如何证明基于代理变换和稳健估计的筛选方法能以指数高概率保留所有真正相关的变量?
- 如何平衡稳健性与计算效率:稳健估计通常需要迭代计算,如何设计一个计算复杂度与经典SIS(如边际相关性)相当,但稳健性显著提升的筛选方法?
- 如何处理协变量间的强相关性:边际筛选的一个固有缺陷是,当协变量高度相关时,真正重要的变量可能被“遮蔽”(masking)。如何通过迭代或条件筛选来缓解这个问题?
⚠️ 作者的framing¶
- 作者把缺口frame成什么:作者将缺口frame为“在超高维LMM中,缺乏一个同时具备可扩展性、稳健性和理论保证的筛选框架”。他们声称现有方法要么不稳健(似然方法),要么不可扩展(稳健LMM估计),要么不能处理相关性(无随机效应的稳健筛选)。因此,本文提出的DPD-SISP是“显然的下一步”,因为它通过“代理矩阵”和“DPD损失”的组合,巧妙地同时解决了这三个问题。
- 哪些竞争路线被他淡化或回避了:
- 直接使用稳健LMM估计进行筛选:作者在引言中用图1展示了这些方法的计算时间,强调其不可行性。但这是否意味着所有稳健LMM估计都不可行?是否存在一些计算上更高效的稳健LMM估计(如基于矩的方法)?作者没有深入讨论。
- 基于秩相关或距离相关的非参数筛选:这类方法(如Li et al., 2012a,b)本身具有稳健性,且不依赖模型假设。作者在引言中提到了它们,但将其归入“无随机效应”的线索,暗示它们不能处理LMM的相关性。然而,这些方法是否可以通过某种方式(如先对数据进行白化变换)扩展到LMM?作者没有讨论。
- 什么明显该被引/该存在、却没出现在intro里?:作者没有引用任何关于“计算-统计权衡”(statistical-computational tradeoff)的文献。在超高维筛选问题中,一个核心问题是:是否存在一个计算上可行的(多项式时间)筛选方法,其统计性能(如检测边界)能达到信息论下界?本文的DPD-SISP是一个多项式时间算法,但作者没有讨论其统计最优性(例如,在给定计算约束下,其信号强度条件n^{-κ}是否是最优的?)。这是一个值得研究者去查的问题。
张力¶
未见明显对立引用。所有被引工作基本沿着“更稳健、更可扩展、更通用”的路径发展,彼此之间没有根本性的矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
m: 独立簇(如个体)的数量。n_i: 第i个簇内的观测数。总样本量n = Σ n_i。p: 候选固定效应(FE)协变量的数量。超高维设定:p >> n。q: 随机效应(RE)协变量的数量。q << n。y_i(n_i × 1): 第i个簇的响应向量。X_i(n_i × p): 第i个簇的FE设计矩阵。Z_i(n_i × q): 第i个簇的RE设计矩阵。β(p × 1): FE系数向量。这是要筛选的目标参数。b_i(q × 1): 第i个簇的RE向量。潜在变量,不可观测。ε_i(n_i × 1): 第i个簇的误差向量。Ψ(q × q): RE协方差矩阵。σ²: 误差方差。Σ_i = (1/σ²) Z_i Ψ Z_i^T + I_{n_i}: 第i个簇的边际响应协方差矩阵。S_0 = {j: β_{0j} ≠ 0}: 真正的活跃FE集合,大小为s。α ≥ 0: DPD损失函数的调优参数。α=0对应极大似然,α>0提供稳健性。
-
模型:
- 数据生成机制(LMM):
y_i = X_i β + Z_i b_i + ε_i,其中b_i ~ (0, Ψ),ε_i ~ (0, σ² I_{n_i}),且b_i与ε_i独立。簇间独立。 - 高斯LMM特例:
b_i ~ N(0, Ψ),ε_i ~ N(0, σ² I_{n_i})。此时,y_i ~ N(X_i β, σ² Σ_i)。 - 要估的对象:
β的支撑集S_0。Ψ和σ²是讨厌参数(nuisance parameters),本文假设它们已知或可通过代理矩阵近似。
- 数据生成机制(LMM):
-
可观测数据:
- 可观测:
{ (y_i, X_i, Z_i) }_{i=1}^m。即每个簇的响应、FE协变量和RE协变量。 - 不可观测/潜在:
b_i(随机效应)和ε_i(误差)的具体实现。Ψ和σ²(除非假设已知)。β的真实值及其支撑集S_0。
- 关键识别假设:本文的核心假设是,通过一个“代理矩阵”
P来近似σ^{-2}Ψ,从而构造一个近似的白化变换。这个变换的有效性依赖于P与σ^{-2}Ψ的接近程度(见假设P0)。
- 可观测:
第二步:讲最小内核¶
本文的核心思路可以归结为以下最简特例:假设随机效应协方差矩阵Ψ和误差方差σ²是已知的。
在这个特例下,整个方法变得极其清晰:
- 白化变换:由于
Ψ和σ²已知,我们可以精确计算每个簇的协方差矩阵Σ_i = (1/σ²) Z_i Ψ Z_i^T + I_{n_i}。然后,对每个簇的数据应用ZCA白化变换:y_i^* = Σ_i^{-1/2} y_i,X_i^* = Σ_i^{-1/2} X_i。 - 变换后的模型:变换后,原始LMM变成了一个标准的线性回归模型(LRM),且误差是独立同分布(IID)的:
y_i^* = X_i^* β + ε_i^*,ε_i^* ~ N(0, σ² I_{n_i})。 注意,β和它的支撑集S_0在这个变换下保持不变。 - 边际筛选:现在,问题简化为在IID LRM中进行稳健的边际筛选。对于每个FE协变量
j,我们拟合一个边际模型:y_{ik}^* = β_{j0} + X_{ij,k}^* β_{j1} + ε_{ijk}^*。 这里,β_{j1}就是我们要的边际信号强度。 - 稳健估计:为了稳健地估计
β_{j1},我们不使用普通最小二乘(OLS),而是使用最小密度幂散度(MDPD)估计。对于高斯误差,MDPD估计通过最小化一个加权平方和来工作,其中离群点被指数地降权(权重ω_α(r) ∝ exp(-α r² / (2σ²)))。当α=0时,退化为OLS;当α>0时,离群点的影响被抑制。 - 筛选:对所有
j计算|β̂_{j1}|,然后按降序排列,选择前d个(例如d = n / log n)或超过某个阈值的变量。
这个特例揭示了本文方法的本质:它通过一个“白化变换”将LMM的筛选问题转化为一个更简单的IID LRM筛选问题,然后利用已有的稳健筛选工具(DPD)来解决后者。论文的一般情形(Ψ和σ²未知)只是在这个特例上增加了一层“代理矩阵近似”,并证明只要近似误差足够小,确定筛选性质仍然成立。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在超高维线性混合模型(LMM)中,提出并理论分析了一种稳健且可扩展的固定效应(FE)协变量筛选方法。
- 核心工具/方法:结合了“代理矩阵(proxy matrix)白化变换”以解耦随机效应引起的相关性,以及“最小密度幂散度(minimum DPD)边际估计”以抵抗数据污染。
- 主要结论:所提出的DPD-SISP方法在一般条件下(允许非高斯误差和维度指数增长)以指数高概率满足“确定筛选性质”(sure screening property),即保留所有真正相关的FE变量,同时控制所选模型的大小。该方法还展现出有界影响函数和高崩溃点等强稳健性。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 模型设定:LMM
y_i = X_i β + Z_i b_i + ε_i。b_i和ε_i的分布可以是任意的,只要满足矩条件(A0, A1)。高斯LMM是一个重要的特例。 - 超高维设定:
log p = O(n^τ),τ ∈ (0,1)。活跃集大小s << n。RE数量q << n。 - 代理矩阵假设 (P0):代理矩阵
P需要满足谱一致性条件:max_i || \hat{Σ}_i - Σ_i ||_{op} = O(n^{-κ}),其中\hat{Σ}_i = Z_i P Z_i^T + I_{n_i},κ ∈ (0, 1/2)。这个假设保证了白化变换的近似误差足够小。作者给出了两个实用的P选择:基于截距-only子模型的REML估计(I0-P)和通过交叉验证选择的标量矩阵(cv-P)。 - 信号强度假设 (B3):
min_{j ∈ S_0} |β^M_{j1,α}| ≥ c_2 n^{-κ}。这是经典的“beta-min”条件,要求真正活跃的FE变量在边际上具有足够强的信号,且信号强度不能衰减得太快(κ < 1/2)。 - 与已有文献的对比:相比经典SIS(Fan and Lv, 2008),本文的假设放宽了对误差独立同分布的要求,允许组内相关性。相比已有的LMM筛选方法(如Chu, 2016),本文的假设明确允许数据污染,并通过DPD损失函数提供了稳健性保证。相比无随机效应的稳健筛选(如Ghosh et al., 2023),本文增加了代理矩阵假设(P0)来处理相关性。
主要结果¶
- 定理4.1(总体层面的合理性):证明了在总体水平上,边际DPD参数
β^M_{j1,α}为零当且仅当稳健关联度量S_{j,α}为零。这确保了不活跃的变量不会产生虚假的边际信号。同时,如果活跃变量的S_{j,α}有下界,那么|β^M_{j1,α}|也有下界。直觉:这个定理为基于|β̂_{j1,α}|的排序提供了理论基础,确保了活跃和不活跃变量在总体水平上是可分离的。 - 定理4.2(样本层面的确定筛选性质):这是本文的核心理论结果。它证明了在假设(B1)-(B4)下,DPD-SISP方法能以概率
1 - O(s(R_n + \tilde{R}_n))保留所有活跃变量(确定筛选性质),并且所选模型的大小以概率1 - O(p(R_n + \tilde{R}_n))被控制在O(n^{2κ} λ_{max}(Σ^*))。直觉:这个定理表明,只要边际MDPDE是均匀指数一致的(B1),代理矩阵的近似误差足够小(B2),且信号足够强(B3),那么DPD-SISP就能像经典SIS一样,以接近1的概率正确筛选出所有重要变量。 - 定理4.4(高斯LMM下的特例):将一般理论具体化到高斯LMM。在子高斯协变量、信号强度条件(ii)和代理矩阵条件(iii)下,DPD-SISP的确定筛选性质和模型大小控制性质成立。直觉:这个定理为实际应用中最常见的高斯LMM场景提供了更直接的理论保证。
- 稳健性保证(第4.5节):通过影响函数(IF)和崩溃点(BP)分析,证明了边际MDPDE具有有界影响函数(对于
α>0)和高崩溃点(可达1/2)。直觉:这从局部和全局两个角度严格证明了DPD-SISP对数据污染的稳健性,这是它相对于经典似然方法的核心优势。
证明路线与技术技巧¶
-
整体路线:
- 总体层面分离:首先证明在总体水平上,活跃和不活跃变量的边际DPD参数
β^M_{j1,α}是可分离的(定理4.1)。这通过泰勒展开和矩条件(A0-A3)实现。 - 代理近似误差控制:证明如果代理矩阵
P满足谱一致性条件(P0),那么由代理变换引入的偏差|β^P_{j1,α} - β^M_{j1,α}|可以被控制在O(n^{-κ})的量级(定理4.3)。这通过泰勒展开和算子范数不等式实现。 - 样本估计误差控制:假设边际MDPDE
β̂_{j1,α}是均匀指数一致的(B1),即|β̂_{j1,α} - β^P_{j1,α}| = O_p(n^{-κ})。这个假设的验证依赖于M估计的指数不等式,作者引用了Ghosh et al. (2023)和Bratsberg et al. (2025)的工作。 - 三角不等式与概率并集:将上述三步结合起来,通过三角不等式
|β̂_{j1,α} - β^M_{j1,α}| ≤ |β̂_{j1,α} - β^P_{j1,α}| + |β^P_{j1,α} - β^M_{j1,α}|,得到β̂_{j1,α}对β^M_{j1,α}的估计误差。然后,利用信号强度条件(B3),证明活跃变量的|β̂_{j1,α}|以高概率大于阈值。最后,通过概率并集(union bound)得到确定筛选性质(定理4.2)。
- 总体层面分离:首先证明在总体水平上,活跃和不活跃变量的边际DPD参数
-
关键跳跃点:最吃功夫的引理是验证假设(B1),即边际MDPDE的均匀指数一致性。这需要处理两个难点:
- 非独立同分布数据:代理变换后的数据
(eY, eX_j)虽然近似不相关,但并非独立同分布,且其分布依赖于代理矩阵P。 - M估计的复杂性:DPD损失函数
V_α是非线性的,其MDPDE没有显式解,需要利用经验过程理论(empirical process theory)来建立一致性。 作者通过引用Bratsberg et al. (2025)的工作来绕过这个技术难点,该工作专门研究了广义线性混合模型中M估计的指数一致性。
- 非独立同分布数据:代理变换后的数据
-
技术技巧点名:
- ZCA白化变换:用于解耦相关性,将LMM转化为近似的LRM。
- 最小密度幂散度(MDPD):用于构造稳健的边际估计量,其权重函数
ω_α(r)对离群点进行指数降权。 - 影响函数(IF)和崩溃点(BP):用于理论分析估计量的局部和全局稳健性。
- 算子范数不等式:用于控制代理矩阵近似误差(定理4.3的证明)。
- 泰勒展开:用于建立总体参数
β^M_{j1,α}与关联度量S_{j,α}之间的联系(定理4.1),以及控制代理近似误差(定理4.3)。 - 概率并集(Union Bound):用于将单个变量的概率保证扩展到所有变量,从而得到确定筛选性质(定理4.2)。
真实例子与应用¶
- 数据/场景:使用了ADNI-2研究中的高维纵向数据。响应变量是重复测量的MMSE评分(认知功能指标),FE协变量包括49,386个基因表达探针和时间。通过随机截距和随机斜率来建模个体内的相关性。
- 方法应用:应用DPD-SISP(α=0.3)和两种代理矩阵(cv-P和I0-P)筛选出前185个FE变量。同时,也应用了基于ML/REML的经典SIS作为基准。
- 结果:
- DPD-SISP筛选出的基因集与基准方法筛选出的基因集有显著差异。
- 通过外部生物学验证平台VarElect,以“Alzheimer”为表型,对筛选出的基因进行相关性打分。
- 核心发现:DPD-SISP筛选出的基因在最高置信度类别(G1)中数量更多(3-4个 vs. 1个),且平均表型相关性(PR)得分更高(13.67-19.80 vs. 10.78)。特别是,DPD-SISP识别出了与神经退行性疾病直接相关的基因,如
VCP(PR=33.29)、LMNB1、SNAP25等,而基准方法主要识别出与更广泛生物学过程相关的基因。
- 这个例子想说明什么:这个真实数据应用旨在验证DPD-SISP的实用性和生物学相关性。它表明,在存在复杂依赖结构和数据不规则性的真实超高维数据中,DPD-SISP能够优先筛选出与目标疾病(阿尔茨海默症)有更强、更直接关联的基因,从而优于经典的、非稳健的筛选方法。
🔎 结论是否比证明窄¶
- 窄化1:代理矩阵的选择。定理4.2的确定筛选性质依赖于假设(B2),而定理4.3表明(B2)可由代理矩阵的谱一致性条件(P0)保证。作者给出了两个实用的代理矩阵选择(I0-P和cv-P),并证明了它们在特定条件下满足(P0)。然而,模拟结果显示,在复杂场景(如FE与RE重叠、强相关性)下,I0-P的性能显著劣于cv-P,甚至不如基准方法。这表明,理论上的“存在性”保证(存在一个满足(P0)的P)与实际中“可构造性”之间存在差距。作者在结论中也承认了这一点:“the performance of the proposed procedures depends on the quality of the proxy matrix approximation”。
- 窄化2:信号强度条件。定理4.2要求
min_{j∈S_0} |β^M_{j1,α}| ≥ c_2 n^{-κ},其中κ < 1/2。这是一个很强的“beta-min”条件。作者没有讨论当信号更弱(如κ ≥ 1/2)时,DPD-SISP是否还能工作,或者其性能会如何退化。结论中提到“The restriction κ < 1/2 ensures that the signal dominates the stochastic fluctuation”,但没有进一步探讨这个条件的必要性或放宽的可能性。 - 窄化3:迭代筛选(DPD-ISISP)的理论保证。作者在第6节提出了DPD-ISISP来缓解相关性引起的遮蔽问题,但没有提供该迭代过程的理论保证(如确定筛选性质)。这只是一个算法描述,其有效性仅通过模拟进行了验证。这是一个明显的“结论比证明窄”的地方。
四、开放问题¶
-
代理矩阵的自适应选择:如何数据自适应地选择最优的代理矩阵
P?作者提到了cv-P和I0-P,但前者计算成本更高,后者在复杂场景下不稳定。是否存在一个理论驱动的、计算高效的P选择准则,使其在更广泛的依赖结构和污染水平下都能保证(P0)?扎根点:第9节“Data-driven choices of both the proxy and tuning parameters ... are likely to improve performance”。 -
DPD调优参数α的自适应选择:如何数据自适应地选择DPD调优参数
α?模拟显示α≈0.3或0.5表现良好,但缺乏一个理论指导的选择机制。是否存在一个基于数据(如离群点比例)的α选择方法,能在稳健性和效率之间达到最优平衡?扎根点:第9节“the development of data-adaptive strategies for selecting the divergence tuning parameter ... is another important avenue for future works”。 -
迭代筛选(DPD-ISISP)的理论保证:能否为DPD-ISISP建立类似于定理4.2的确定筛选性质?这需要分析迭代过程中累积误差的传播,以及如何保证每次迭代的边际筛选仍然有效。扎根点:第6节提出了DPD-ISISP算法,但未提供理论分析。
-
更弱信号下的性能:当信号强度条件
κ ≥ 1/2时,DPD-SISP的确定筛选性质是否还能成立?如果不能,其检测边界是什么?是否存在一个计算上可行的筛选方法,能在更弱的信号下工作?扎根点:定理4.2要求κ < 1/2,作者在文中将其与“optimal detection boundaries of existing SIS approaches”联系起来,但没有讨论这个边界是否是根本性的。
Maintained by 陈星宇 · Homepage · Source on GitHub