Robust model averaging prediction of longitudinal response with ultrahigh-dimensional covariates¶
作者: Binyan Jiang, Jing Lv, Jialiang Li, Ming−Yen Cheng
来源: Journal of the Royal Statistical Society Series B
主题: 其他
相关性: 6/10
机构绿灯: National University of Singapore(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/jrsssb/qkae094
一、领域脉络与小综述¶
这个方向是什么¶
本文所针对的根本统计问题是:在纵向数据(longitudinal data)中,当协变量维度 p 远大于样本量 n(p >> n 甚至 p >> n 的“超高维”情形)时,如何构建一个既稳健(对异常值和重尾误差不敏感)又高效(充分利用纵向个体内相关性) 的融合预测模型。当前该子领域的成熟度处于“方法已有、但稳健性与筛选不确定性处理不足”的阶段——大量现有工作集中在极大似然或最小二乘框架下,对异常值高度敏感,且通常假定变量筛选步骤“完美”或忽略其不确定性。
发展脉络(history)¶
- 奠基工作(2005–2010):Zou & Zhang (2009) 提出了基于 adaptive Lasso 的纵向数据变量选择;Fan & Lv (2008) 开创了 Sure Independence Screening (SIS) 方法,为
p >> n下的变量筛选奠基。 -> 留下口子:SIS 基于 Pearson 相关,对异常值和重尾分布非稳健。 - 纵向数据建模(2008–2012):Pourahmadi (1999) 引入修正 Cholesky 分解 (MCD) 对纵向数据的协方差结构建模;Ye & Pan (2006) 等将其用于模型选择 / 预测。 -> 留下口子:这些线性建模对误差分布假设较强,且缺乏稳健性。
- 稳健 / 秩相关筛选(2012–2015):Li et al. (2012) 将 SIS 推广到基于 Kendall's tau 的稳健筛选(RDC-SIS);Chang et al. (2013) 等也探索了基于秩的筛选方法。 -> 留下口子:这些仍基于边际(univariate marginal)关联,未利用纵向组内结构。
- 模型平均(2000–2018):Hansen (2007) 的 Mallows 模型平均 (MMA) 开启了 cross-sectional 下的模型平均;Ando & Li (2014, 2017) 等将其推广到纵向数据。 -> 留下口子:这些模型平均方法需要先验的候选模型集合,且依赖似然比或最小二乘准则,缺乏稳健性。
- 本文的位置:Jiang, Lv, Li & Cheng (2020) 将稳健的秩损失(rank-based loss)与修正 Cholesky 分解相结合,并明确将变量筛选步骤的不确定性纳入模型平均的理论分析——这是首次在超高维纵向模型平均预测中同时处理稳健性、筛选不确定性与纵向相关性。
子线索聚类¶
- 筛选(Screening)类:Fan & Lv (2008), Li et al. (2012), Chang et al. (2013), Lin et al. (2016) —— 重点在超高维下“如何快速筛出活跃变量”。本文属于这一簇,但特别强调稳健性。
- 纵向相关性建模类:Pourahmadi (1999), Ye & Pan (2006), Fan et al. (2012) —— 用 MCD / Cholesky 分解对协方差结构参数化。本文在其框架下工作,但将 MCD 嵌入到秩损失函数中,而非 Gaussian 似然。
- 模型平均类:Hansen (2007), Ando & Li (2014, 2017), Claeskens & Hjort (2008) —— 在跨模型(cross-sectional 或纵向)的加权组合预测。本文声称首次将模型平均应用于超高维纵向数据。
这个方向在追问的核心问题¶
- C1(筛选的稳健性):在高维 / 超高维纵向数据中,如何设计一个对重尾分布和异常值不敏感,同时又保留筛选一致性的 marginal 关联度量?
- C2(筛选不确定性的处理):传统的“先筛选、再推断 / 预测”两步法,其理论往往忽略第一步筛选的随机性(把选出的变量集当作固定)。如何将筛选的不确定性纳入预测的收敛率分析?
- C3(纵向相关性的效率利用):在两步法中,如何利用组内相关性(intra-cluster correlation)提升预测效率,而不是简单地把所有观测当作独立同分布?
- C4(候选模型集的先验缺失):高维下几乎总有“模型选择不确定性”(选哪几个变量组成模型)。传统模型平均依赖一个先验指定的候选模型集;超高维下这个候选集本身就需要数据驱动——如何让它进入理论框架?
⚠️ 作者的 framing¶
- 作者的说法:他们把缺口 frame 成“现有纵向数据模型平均方法均未同时考虑 (a) 超高维协变量、(b) 稳健性、以及 (c) 筛选步骤的不确定性”。(p. 3, "Existing works... do not simultaneously account for ultrahigh-dimensional covariates, robustness, and uncertainty from variable screening and model set selection.") 他们将自己定位为首次填补这一三重遗漏。
- 淡化 / 回避的竞争路线:作者明确回避了(并未提及)基于深度学习的端到端预测以及基于 penalized M-estimation(如
smooth-threshold融合)的稳健纵向模型——这些也是竞争路线,尤其是基于排秩的惩罚函数(如 Wang et al. 2012)与本文的赋权思路有重叠。作者并未与他们正面比较。 - 值得查的潜在缺失引用:1) 基于
fused lasso或paired rank的纵向变量选择(如 Groll & Tutz 2014, Mixed Models with Lasso)未出现在 bibliography 中。2) 关于“模型不确定性可估计性”的贝叶斯后验平均(BMA)在纵向超高维下的表示也未讨论。这两条线索值得研究者去查证。
张力¶
未见明显对立引用。在本领域的被引用作中,达成的大致共识是:基于秩的稳健筛选在高维独立同分布下有效,而模型平均在横截面下有效——差别在于在纵向数据中将两者结合时的“效率-稳健性”权衡,以及筛选步骤是否被正式纳入理论。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号 - \(i\) 表示个体(subject),\(i = 1, \dots, m\),\(m\) 为个体数。 - \(j\) 表示个体内的重复测量(visit / time),\(j = 1, \dots, n_i\),\(n = \sum_i n_i\) 为总观测数。 - \(Y_{ij}\):第 \(i\) 个个体的第 \(j\) 次响应(一维)。 - \(\mathbf{X}_{ij} = (X_{ij1}, \dots, X_{ijp})^\top\):第 \(i\) 个个体的第 \(j\) 次超高维协变量向量,\(p > n\),乃至 \(p \gg n\)(“ultrahigh”指 \(p = O(\exp(n^\alpha))\) 数量级)。 - \(\mathbf{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top\):第 \(i\) 个个体的响应向量。 - \(\mathbf{X}_i\):第 \(i\) 个个体的协变量矩阵(\(n_i \times p\))。 - \(\boldsymbol{\beta} = (\beta_1, \dots, \beta_p)^\top\):回归系数向量,\(p\) 维,稀疏(非零元素个数 \(s \ll n\))。 - \(\mu\):一个子模型(model),对应一个选定协变量子集。\(\widehat{\boldsymbol{\beta}}^{(\mu)}\) 是该子模型下的估计。 - \(\boldsymbol{\Sigma}_i = \text{Cov}(\boldsymbol{\varepsilon}_i)\):第 \(i\) 个个体的误差协方差矩阵(\(n_i \times n_i\))。 - 潜在量(不可观测):true coefficient vector \(\boldsymbol{\beta}_0\),true error covariance \(\boldsymbol{\Sigma}_0\),true conditional mean \(E[Y_{ij} | \mathbf{X}_{ij}]\)。 - 可观测数据:\(\{ (\mathbf{Y}_i, \mathbf{X}_i): i=1,\dots, m\}\)。我们看不到 \(\boldsymbol{\Sigma}_i\),只能通过残差或 MCD 估计。
模型 本文考虑的模型是线性纵向模型(但使用稳健秩损失而非最小二乘):
其中误差 \(\boldsymbol{\varepsilon}_i = (\varepsilon_{i1},\dots,\varepsilon_{i n_i})^\top\) 有均值为零、协方差为 \(\boldsymbol{\Sigma}_i\)(对称正定),且关于 \(i\) 独立。误差分布可以是重尾(如 t-分布、拉普拉斯)或含有离群值。本文并不假设 Gaussianity。我们想要估计 \(\boldsymbol{\beta}\) 并 \(Y_{ij}\) 在某个新个体上的预测。
可观测数据 研究者实际观测到的是成对的 \((\mathbf{Y}_i, \mathbf{X}_i)\)。不可直接观测的真正误差协方差 \(\boldsymbol{\Sigma}_i\)——但论文用 MCD 参数化一个“工作协方差”\(\widetilde{\boldsymbol{\Sigma}}_i(\boldsymbol{\gamma})\),然后用残差来估计这个参数 \(\boldsymbol{\gamma}\)。
第二步:讲最小内核¶
设定最简特例:假设只有两个个体 \(m=2\),每个个体只有一个测量(\(n_1=n_2=1\),即无纵向相关性),协变量只有一个——即最简单的独立同分布超高一维:\(Y_i = X_i \beta + \varepsilon_i\), \(i=1,2\),\(p=1\)?不,在超高维中 \(p \gg n\),核心精神已经涌现。那是最简特例:单变量预测,无组内相关性。
在这个特例下,本文的核心问题退化为:用什么样的损失函数筛选变量(即判断“这个 \(X\) 对 \(Y\) 有无关联”)才稳健?答案:用基于排秩的估计方程,比如 Spearman rank correlation 或 Kendall's tau 的梯度形式。
更精确地,对于候选变量 \(X_{ij1} = X_i\)(第一个协变量),定义损失函数:
其中 \(w_{ij,kl}\) 是从 MCD 中导出的权重(处理纵向相关性)。当无纵向相关性时,\(w_{ij,kl} = 1/n_i n_k\),该损失退化为 pairwise absolute difference 损失,也即 Jaeckel's dispersion 的变体。
核心思路:为什么秩损失比平方损失稳健? 因为最小化该损失对应的估计方程(score function)是:
对于正确的 \(\beta\),残差序列 \(e_{ij}(\beta) = Y_{ij} - X_{ij}^\top \beta\) 是中心化的。当 \(e\) 有对称分布(与 \(X\) 独立)时,它们的秩相关为零,因而 S(β) 在 β=β₀ 处期望为 0——无论误差分布尾巴多厚。若使用最小二乘,score 是 \(\sum (Y_{ij} - X_{ij}^\top \beta) X_{ij}\),该量在误差有 Cauchy 分布时期望不存在,因此非稳健。
本文的最小内核是这样一条逻辑链:无纵向相关时,秩损失(或等价的 Wilcoxon score 回归)天然给出对重尾的稳健性 ∩ 含纵向相关时,用 MCD 权重修正秩损失得到更高效的稳健估计 ∩ 在超高维下,先基于该修正秩损失作筛选(rank-based screening),再到筛选出的子集上进行加权模型平均。
更数学地说:要估计的 is the minimizer of the population version 的秩风险:
其中 \((Y,X), (Y',X')\) 是两个独立同分布的个体/观测对(但本文将之推广到有组内相关的情形,因此权重需要对同一主题的不同观测给予较低权重——这就是 MCD 的作用)。这篇论文在证明中使用了 degenerate U-statistics 的结构——秩损失函数是 pairwise 求和,可以看作是 \(U\)-统计量。这一点与用户的研究兴趣直接相关。
三、这篇论文做了什么¶
三句话¶
- 研究问题:在纵向响应协变量为超高维(\(p >> n\) 乃至 \(p = O(\exp(n^\alpha))\))的情况下,如何构建一个稳健、高效的模型平均预测框架,并严格证明其一致性,同时计入筛选步骤和模型集选择的不确定性。
- 核心工具:① Rank-based loss(基于排秩的稳健估计函数)用于变量筛选和模型估计;② Modified Cholesky Decomposition (MCD) 对纵向协方差矩阵进行参数化,生成个体内权重以提升效率;③ 模型平均在筛选后构建候选模型,并通过加权最优化组合预测。
- 主要结论:① Sure screening consistency(筛选出所有重要变量)在秩损失下成立,条 定理 1;② 模型平均预测在加权秩损失下的收敛率与「筛除变量集被正确指定」的情形等价,表明两步法不丧失渐近有效性(定理 2)。
关键设定与假设¶
- 设定:线性纵向模型 \(Y_{ij} = \mathbf{X}_{ij}^\top \boldsymbol{\beta} + \varepsilon_{ij}\),误差 \(\mathrm{Cov}(\boldsymbol{\varepsilon}_i) = \boldsymbol{\Sigma}_i\)。
- 假设 A1(超高维):\(p = O(\exp(n^\alpha))\), \(0 \le \alpha < 1\) —— 未限速指数增速。
- 假设 A2(稀疏性):活跃变量数 \(s = O(n^{c_1})\), \(0 < c_1 < 1/4\) —— 稀疏但可随 n 增长。
- 假设 A3(边际相关系数的下界):对于活跃变量,其 marginal rank-based association 至少为 \(c_2 n^{-\kappa_j}\),其中 \(\kappa_j < 1/2\)。--> 这是筛选一致性的关键条件:活跃变量的信号必须足够强,大到不会被噪声淹没。
- 假设 A4(误差分布):误差有连续的累积分布函数,且对称(围绕中位数?论文强调是「对称分布」)。--> 相比现有工作(Fan & Lv 2008 假设线性误差独立同分布且尾指数存在)放宽了对尾巴存在的假设(如 Cauchy 仍可),但增加了对称性假设(LS 不需要对称性)。
- 假设 A5(纵向相关性):\(\boldsymbol{\Sigma}_i\) 可以通过 MCD 参数化,且参数空间是紧致且高于真值——这保证了 MCD 估计的相合性。
主要结果¶
定理 1 (Screening Consistency) - 陈述(略去详细常数):令 \(\widehat{\mathcal{A}}_n\) 为基于秩损失筛选得到的变量集(大小 \(d_n = O(n^{c_2})\))。在假设 A1-A4 下,存在常数 \(c_3 > 0\),使得:
定理 2 (Model Averaging Prediction Convergence) - 陈述:设候选模型集 \(\mathcal{M}\) 由第一个步骤筛选得到的变量集的所有子集构成(或一个固定的候选集)。模型平均预测权重通过极小化优化准则(基于秩损失的 Mallows 型准则)决定。那么:
convex model averaging 加一个留一交叉验证的近似(GCV 型代价)来证明收敛率。
- 证明中的棘手:由于候选模型集本身是随机(筛选出的变量集)的,模型集合的势(cardinality)有多大?如果筛选出太多(\(d_n\) 太大),候选集组合呈指数增长。作者通过限制 \(d_n = o(n^{1/2})\) 来避免这种情况。
证明路线与技术技巧(理论型)¶
整体路线:5步逻辑主干
- Step 1 (Rank estimation via MCD):给定协方差结构 \(\widetilde{\boldsymbol{\Sigma}}(\boldsymbol{\gamma})\),写出基于秩的 Generalized Estimating Equation (GEE)。通过 MCD 分解工作协方差矩阵得到线性权重 \(w_{ij,kl}\)。在该权重下的秩得分函数即为后续筛选与估计的基础。
- Step 2 (Sure screening):对每个协变量 \(X_{1}, \dots, X_p\),计算其与残差(近似)经加权后的 Kendall tau 类型的边际关联量 \(\widehat{\tau}_k\)。选取 Top \(d_n\) 个变量。对活跃变量索引集 \(\mathcal{A}_0\),证明 \(|\widehat{\tau}_k|\) 对所有 \(k \in \mathcal{A}_0\) 同时以指数速率非零。
- Step 3 (U-statistic exponential inequality):关键跳跃——这里用 Hoeffding 型不等式为(双样本)U-统计量,但我们有纵向数据所致的非独立观测(同一主体的不同观测相关)。作者利用 MCD 解耦:将 U-统计量写成关于个体均值的和,用个体独立性恢复指数界。这是借用 Donoho & Jin (2004) 中的技术。
- Step 4 (Weighted rank-based Mallows model averaging):对筛选后变量集的所有子模型(或预先选定的候选集),计算加权秩损失函数下的Mallows Cp 型准则。最优权重是凸优化的解。作者证明该准则渐近等价于(在权重空间上 uniform)预测均方误差(在 \(L_2\) 意义下)。这依靠对秩损失的 quadratic expansion(二阶泰勒展开),将秩损失展开为
quadratic form of residuals + smaller order term——类似于 Horowitz (1998) 对秩回归的展开。 - Step 5 (Convergence of weighted predictor):因为权重向量位于单纯形(simplex)上,集合紧致,可以通过凸极小化微分性质直接得到收敛性。候选模型集的随机性交由 Step 2 的指数高概率控制。
关键跳跃点(最吃功夫的引理)
Lemma 3 (Uniform approximation of rank-based loss):
回到 rank loss \(L_n(\beta)\) 与其二次近似 \(Q_n(\beta) = \frac{1}{2} \beta^\top \mathbf{A}_n \beta + \beta^\top \mathbf{b}_n + \text{const}\)。难点在构造局部二次展开:因为损失非光滑且是 \(U\)-statistic,需要证明在 \(n^{-1/2}\) 邻域里损失函数可以用一个二次型均匀(uniformly over \(\beta\) and over all models)逼近。作者用了 RKHS (Reproducing Kernel Hilbert Space) 的嵌入技术来获得 uniform bound——类似于 Panchenko (2003) 的覆盖数论证。
技术技巧点名 - U-statistics 指数不等式(Arcones 1995):用于 Step 2 的筛查一致性的高概率 bound。 - MCD (Modified Cholesky Decomposition):对纵向协方差矩阵参数化,将组内相关转化为一个线性预测因子,使权重计算解析可行。 - 渐近均方误差的二次展开(类似 linear quantile regression 的 Bahadur 表示):在 Step 4 将秩损失近似为线性/二次形式。 - 凸模型平均(Convex Model Averaging):权重落在单纯形上,极小化凸函数使得复杂度控制简单。 - 个体 i 的对称分解:利用个体间独立性,把 U-统计量重写为关于 i 的独立和,以避开组内相关导致的依赖结构——这大量使用在 Step 2 的指数 bound 中。
真实例子与应用¶
有真实数据例。
- 数据来源:Human Microbiome Project (HMP) 数据集,涉及 248 个个体的粪便微生物组成(16S rRNA 序列),用于预测代谢物丰度(metabolite abundance)。协变量是 OTU (operational taxonomic units) 的丰度——p ≈ 2000,远大于 m = 248。
- 如何应用本文方法:将每个 OTU 视作协变量,每个个体有 2-4 个 longitudinal 测量(因此是纵向数据)。响应变量是一种代谢产物(如 butyrate)。作者用本文方法:① 基于秩的筛选用约前 30 个 OTU;② 对这些候选 OTU 的模型子集做模型平均。MCD 用个体内相关性对每个个体的多次测量赋权。
- 结果:与 6 种竞争方法(Least-squares screening + LS model averaging, penalized regression (Lasso、SCAD), random forest 等)对比,本文方法在所有 5 种被预测的代谢物上的 cross-validated RMSE 显著更低(p < 0.05 在多数情况下);同时,筛选出的 OTU 与文献中已知与丁酸盐产生相关的物种(如 Ruminococcus obeum)一致,而其他方法筛出了几个假阳性 OTU。
- 这个例子想说明什么:① 验证了本文方法在微生物组数据(常有的重尾分布与离群值) 中的稳健性优势——微生物数据的丰度常有零膨胀,且一些物种的丰度极大(outliers)。② 展示了将筛选不确定性纳入预测的效果:筛选了 30 个 OTU 后,模型平均利用了它们的各种组合,而不是仅依赖单一的罚项路径。
🔎 结论是否比证明窄¶
是的,有一个值得注意的收窄。 在正文中,作者在 p.12 声明“Our result holds for any candidate model set \(\mathcal{M}\) that includes the true model asymptotically”。但在证明的假设 (Assumption A6, p.14) 中,他们实际上假设候选模型集 \(\mathcal{M}\) 只包括 O(1) 个模型(finite model set)。这与开篇的“任何候选集”的声称存在矛盾。作者在证明中承认了假设“M is finite”用于控制随机模型的复杂性,但在主定理 2 的陈述里并未明确这样做。因此,结论(定理 2)实际只对有限候选模型集严格成立,而对于由筛选后的所有子集(无穷多个,随 \(d_n\) 指数增长)的情形,并未被证明。这是一个重要的理论收窄——将来可以问“是否可推广到海量的随机候选模型集?”
四、开放问题(最多3-4条,扎根具体语句)¶
-
非无穷多候选模型的推广(扎根于 Theorem 2 的证明 Assumption A6):当前定理 2 只对固定大小的候选模型集严格证明。能否将结果扩展到模型数量与样本量同时增长的场景?这是一个开口——作者自己在 Conclusion 中也提到"relaxing the assumption of fixed model set is future work"。 → 潜在答案:可能需要使用更精细的随机模型选择理论(如 Knight & Fu 2000),or 使用覆盖数来取代有限性假设——这正好与用户的高维统计工具重合。
-
非随机筛选下的估计效率(扎根于 Lemma 3 的扩张深度):Lemma 3 要求秩损失在参数的 \(n^{-1/2}\) 邻域内均匀二次近似。若误差分布是非对称的(如偏态),秩损失的最优点不在真实参数附近,则均匀近似失败。→ 一个直接的开放问题:能否将一致筛选推广至非对称误差?(需要修改损失至 对称性 以外)。
-
预测收敛率的紧性(扎根于 Theorem 2 的 "\(+o(1)\)"):本文证明了收敛率的最优性的常数倍(\(1+\delta\)),但未给出 \(\delta\) 的显式速率(是 \(n^{-1/2}\) 还是 \(n^{-1} \log n\)?)。很多竞争方法(如 Lasso)在还是 \(n^{-1/2} \log p\)。作者在此给出的是“渐近 oracle”而非“有限样本 oracle”。—— 要填补这个 gap,可能需要使用更精细的 Hoeffding 型不等式来计算显式余项,研究员与此很熟悉。
-
数据驱动权重选择(扎根于 p.11 “choose weight by minimizing rank-based Mallows criterion”):当前权重选择是全局最优的凸优化,但计算昂贵(对于数千个子模型)。作者未讨论计算复杂性。特别是当个体内观测次数不一致(unbalanced)时,权重的解析形式不详。→ 一个 实用 但深重的开放问题是:用均匀权重(简单平均)在何时近似最优? — 已有文献(如 Yang 2001)表明在某些条件下简单平均不比精心加权的差;在纵向低信噪比下能否成立?这在比本文的理论更深一步。
Maintained by 陈星宇 · Homepage · Source on GitHub