High-dimensional partially linear functional Cox models¶
作者: Xin Chen, Hua Liu, Jiaqi Men, Jinhong You
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujae164
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向研究的是 含函数型协变量(functional predictor)的生存分析。核心统计问题是:如何利用一个完整的时间序列 / 曲线型预测变量 \( X(t) \)(如肾移植后每日肌酐清除率轨迹),与一组标量协变量 \( Z \)(如年龄、性别),来估计和推断事件发生时间(如死亡)的风险函数 \( \lambda(t) \)。当前主流方法是函数 Cox 模型(functional Cox model),它将函数型预测变量的全部信息压缩为有限维的 函数主成分(FPC,Functional Principal Component)得分,并假定这些得分与 log-hazard 成线性关系。但这个线性假设在诸多实际数据(包括本文分析的肾移植数据)中经常不成立。本文试图放松它——用部分线性结构将线性部分留给标量协变量和一部分 FPC 得分,对另一部分 FPC 得分允许非参数的非线性效应,同时允许变量个数随样本量发散。
发展脉络(history)¶
本文的 introduction 将函数 Cox 模型的发展梳理为以下阶段:
- 奠基工作(函数型协变量的线性 Cox 模型,~2002-2009):Goldsmith et al. (2009) 将函数型协变量投影到 FPC 基上,再用线性 Cox 模型估计系数函数。这是该子领域的标准起点。Müller & Yao (2008) 以及 Yao et al. (2005) 讨论了函数型主成分(FPCA)估计及其在回归中的应用,为 FPC 得分的可靠性提供基础。Kong et al. (2018) 将函数 Cox 模型推广至函数型与时变标量协变量共存的情形。
- 稀疏高维扩展(~2013-2020):Li & Luo (2017) 和 Zhao et al. (2020) 将函数 Cox 模型与 变量选择 技术(LASSO、SCAD)结合,实现了对大量 FPC 得分和标量协变量的自动筛选。但这些方法仍假定 线性。
- 非线性推广(~2020-):Cui et al. (2021) 和 Kong et al. (2021) 引入部分线性函数 Cox 模型,对标量协变量假设线性效应,对 FPC 得分假设非参数效应。但他们的设定要求 标量协变量和 FPC 个数固定。
- 本文的位置:作者声称自己的核心增量是将 Cui et al. (2021) 和 Kong et al. (2021) 的设定推广到 diverging dimension——即标量协变量个数 \( p \) 和保留的 FPC 个数 \( m \) 均随样本量 \( n \) 发散。这是第一项在函数 Cox 模型下同时处理:
- 非线性效应(通过 B-spline sieve)
- 高维变量选择(通过 group SCAD)
- diverging dimension 下的渐近理论
(注意:作者在 intro 里强调了这一"首次",但没有主动与情感上最强的竞争路线——比如同时允许标量协变量也有非线性、或同时处理多种函数型协变量——做对比。)
子线索聚类¶
- 子线索 A:函数型生存模型(functional survival models):紧盯含函数型协变量的生存数据。主线是 GP/FPCA + Cox 模型。代表工作:Goldsmith et al. (2009), Müller & Yao (2008), Kong et al. (2018)。这一簇的核心工具是 FPCA,主要挑战是函数型协变量的高维性(无穷维 → 截断)。
- 子线索 B:高维生存分析中的变量选择(high-dimensional variable selection in survival analysis):以 Cox 模型为专长,用 LASSO / SCAD / MCP 在 \( p \gg n \) 情形下选变量。代表工作:Tibshirani (1997), Fan & Li (2002), Li & Luo (2017), Zhao et al. (2020)。本文将这一线索从纯标量扩展到函数型协变量 + 标量协变量的混合设定。
- 子线索 C:高维/ diverging dimension 下的半参数 sieve 估计(semiparametric sieve estimation under diverging dimension):本文在结果与证明上直接借鉴的线。代表工作:Zhao et al. (2020)(线性 + SCAD 在 Cox 模型上处理 diverging dimension);以及 Cui et al. (2021)(部分线性、但维度固定)。本文试图把两者合并。
这个方向在追问的核心问题¶
- Q1:函数型协变量到底以什么方式影响生存风险——线性还是非线性?若拒斥线性,用哪种非线性能被可靠识别且保证收敛速率?
- Q2:当函数型协变量和标量协变量均为高维(diverging with \(n\))时,能否同时实现变量选择一致性和非参数项的收敛?
- Q3:B-spline sieve 在 Cox 模型的偏似然框架下,是否能在 diverging FPC 维度下获得 \(L_2\) 最优收敛率?
- 当前主流方法与已知瓶颈:现有方法要么是线性的(忽视非线性效应),要么是有限维的(不能处理高维协变量);允许非线性的部分线性模型只停留在固定维度(不能随样本量增长)。本文声称填补了"diverging dimension + 非线性"的缺口。
⚠️ 作者的 framing¶
作者把缺口 frame 成 "现有部分线性函数 Cox 模型只允许固定维度"(Cui et al., 2021; Kong et al., 2021),所以显然的下一步是允许 \(p\) 和 \(m\) 发散,并配上高维变量选择。作者在 abstract 和 intro 中直接引用 Li & Luo (2017) 和 Zhao et al. (2020) 作为变量选择工具,暗示"变量选择+非线性"是本文的主要竞争路径。
被淡化或回避的竞争路线: - 作者没有讨论 完全非参数 Cox 模型(即连标量协变量也允许非线性),也没有与 深度生存模型(如 DeepSurv)或 随机森林生存模型 作对比。这些是更灵活的替代方案,但与本文目标(部分线性结构 + 可解释性 + 统计理论)不完全对等。 - 作者也没有考虑 函数型协变量测量误差(FPC 得分本身是估计值),在实际中这会使非线性效应的估计有额外误差——这是 a known gap。
什么明显该被引/该存在、却没出现在 intro 里? - 未见 Müller & Yao (2012) 关于函数型主成分回归的 minimax rate 结果,这个结果能用来校准本文在函数型协变量上的收敛率是否最优。 - 未见 Ferrario et al. (2019) 关于深层函数生存模型的引介——虽然方法是黑箱,但在实证中是可行竞争者,缺少引用会削弱"我们的模型是唯一可用"的印象。 - 未见明确的 信息-计算权衡 文献(如关于高维 FPC 选择的计算复杂度)——这与作者的兴趣可能相关,但本文不涉。
张力¶
- 未见明显对立引用。所有被引工作基本上是在扩展同一框架(函数 Cox 模型 + 变量选择/非线性),彼此不是对立的。Cui et al. (2021) 与 Kong et al. (2021) 是几乎同时的平行工作,一个用样条、一个用核——本文选取样条并声明这是可行的选择。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
数据(可观测): - 对每一个体 \( i=1,\dots,n \): - \( T_i \):真实生存时间(不一定是可观测——因为存在删失) - \( C_i \):删失时间(censoring time) - 观测变量:生存状态指示 \(\delta_i = I(T_i \leq C_i)\) 和观测时间 \( V_i = \min(T_i, C_i) \) - 函数型协变量(functional predictor):\( X_i(t), t \in \mathcal{T} \)(通常是一个紧致区间,如 \([0,1]\))。这是随机函数(曲线)。 - 标量协变量(scalar predictors):\( Z_i \in \mathbb{R}^p \)(维度 \(p\) 可以随 \(n\) 发散)。 - 可观测数据是独立同分布样本 \(\{ (V_i, \delta_i, X_i(\cdot), Z_i) \}_{i=1}^n\),但函数型协变量 \(X_i(t)\) 是在离散时间格点上观测的(通常是噪声测量);为了让分析可行,假定可以通过平滑得到完整曲线。
潜在 / 待估计量: - \( m \):保留的函数型主成分(FPC)个数(可随 \(n\) 发散) - \( \xi_{i,1},\dots,\xi_{i,m} \):个体 \(i\) 的前 \(m\) 个 FPC 得分(通过 FPCA 从 \(X_i(t)\) 数据中估计得到,视为已知/或视为协变量的一部分) - \( \boldsymbol{\beta} \in \mathbb{R}^d \)(\(d = p + m\)):线性部分的系数向量 - \( g(\cdot) \):非参数函数——这 \(m\) 个 FPC 得分的非线性效应(本文假定 \(g\) 属于某个阶数为 \(r\) 的 Sobolev 空间) - 此外,\( g \) 只对 连续型 FPC 得分起作用(即 FPC 得分是实数变量,有连续分布)。本文的模型是部分线性形式。
模型:对于个体 \(i\) 在时间 \(t\) 的 hazard 函数(风险函数)为:
重要区分:线性部分中包含两种变量:标量协变量 和 一部分 FPC 得分。本文的变量选择(group SCAD)是同时对 FPC 得分和标量协变量施加稀疏惩罚——不要求所有 FPC 得分都进入非线性部分。实际上,作者允许一些 FPC 得分进入线性部分(即假定它们与 log-hazard 线性相关)。
待估参数:有限维参数 \(\boldsymbol{\beta} = (\boldsymbol{\beta}_z^\top, \boldsymbol{\beta}_\xi^\top)^\top\),以及非参数函数 \(g(\cdot) \in \mathcal{G}\)(其中 \(\mathcal{G}\) 是某个光滑函数空间)。 估计方法是部分似然。
第二步:最小内核(最简特例)¶
本文选的最小例子是 当 \(m=2, q=0\)(即只保留前两个 FPC 得分,没有标量协变量)。在这种情况下: - 可观测数据简化成:\( \{ (V_i, \delta_i, \xi_{i1}, \xi_{i2}) \}_{i=1}^n \) - 模型:
为什么这个特例是"最小内核":即使在这个只有 2 个 FPC 得分的特例上,也可以看清(a)B-spline 逼近如何将非线性问题半参数化,(b)group SCAD 如何做组级选择(淘汰一个 FPC = 淘汰一整个样条系数组),(c)diverging dimension 的困难:即使 \(m=2\),如果 \(K \to \infty\) with \(n\),总待估参数数 \(2K\) 也发散,这就是文本所说的 "diverging dimension"。 在 \(m=2\) 的特例下,diverging 来自样条基函数的增加;在一般模型中,还来自 \(p,m\) 的发散。理解了加样条和组惩罚的联合框架,就懂了全篇文章。
核心命题在这个特例下的退化:在有组惩罚的部分似然下,作者证明:(a)\( \|\hat{\boldsymbol{\theta}}_j - \boldsymbol{\theta}_{0j}\| = O_p( (K/n)^{1/2} ) \) (最小二乘型收敛),(b)选中的 FPC 得分至少有一个是真正非零的(sparsity consistency),(c)非线性函数估计 \( \hat{g}_j \) 满足 \( L_2 \) 收敛速度 \( O_p( n^{-r/(2r+1)} ) \),与常规非参数回归匹配。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在函数型协变量和高维标量协变量共存、并且 FPC 个数与标量协变量数均随样本量发散(diverging dimension)的假设下,建立部分线性函数 Cox 模型,用以同时进行变量选择和估计非线性效应对生存风险的影响。
- 核心工具/方法:采用 group SCAD 对 FPC 得分组与标量协变量进行稀疏选择;用 B-spline sieve 逼近 FPC 得分的非线性效应;最终通过最大化 penalized partial likelihood 进行联合估计。
- 主要结论:在满足一定正则条件的假设下,估计具有 变量选择一致性(oracle property,即正确剔除无效变量)和相合性,非线性部分达到最优非参数收敛率(样条逼近阶的最优 \(L_2\) 率),并且作者通过模拟和肾移植数据验证了方法在实际中的可行性。
关键设定与假设¶
设定(第二节符号基础上扩展):
-
hazard:
\[\lambda(t | Z, X) = \lambda_0(t) \exp\left( \sum_{j=1}^{p} \beta_{0,j} Z_j + \sum_{k=1}^{m} g_{0,k}(\xi_k) \right)\]其中 \(g_{0,k} \in \mathcal{S}^{r}(M)\):阶数为 \(r\) 的 Sobolev 光滑函数空间的有界子集。\(\boldsymbol{\beta}_0\) 有全零分量(稀疏结构)。 -
Diverging dimension: \(p = p_n, m = m_n\) 满足 \(p_n, m_n \to \infty\) 但 \( (p_n + m_n)^4 / n \to 0 \) (限制多项式发散速率,保证定理成立)
主要假设(从原文整理,通常见序言):
| 假设编号 | 内容(直白解释) | 与已有文献对比 |
|---|---|---|
| (A0) | 数据独立同分布,随机删失,删失时间与生存时间条件独立给定协变量(即通常的随机删失假设)。 | 无明确放宽 |
| (A1) | 函数型协变量 \(X(t)\) 的轨迹足够光滑,保证前 \(m\) 个 FPC 得分估计是 √n-相合的(使用标准 FPCA 框架)。 | 这条没有正式论证,只是假设——这是实证论文的通病,但天生限制了函数的可识别性 |
| (A2) | FPC 得分的分布有紧支集和有界密度,使非线性函数估计的非零区域有界。 | 标准假设 |
| (A3) | B-spline 基函数的数目 \(K_n\) 满足 \(K_n \asymp n^{1/(2r+1)}\) (似然非参数最优速率)。 | 与常规 sieve 估计相同(Stone, 1994) |
| (A4) | \(Z, \xi\) 的协方差矩阵是正定的,其特征值有界离开 0(与 diverging 收缩可控)。 | 强制避免共线性爆炸 |
| (A5) | 惩罚参数 \(\lambda\)(SCAD 的)适当选取(通过一个调节参数间的序关系),保证 group SCAD 能忽略无效组但稳步收缩有效组。 | 这种序关系在 Zhao et al. (2020) 中也被使用 |
| (A6) | 非零系数的最小绝对值有一个正下界((\min_j | \beta_{0j} |
主要结果(理论型)¶
定理 1(收敛率):在假设 (A0)-(A6) 下,
定理 2(非线性函数的最优收敛率):若 \(g\) 属于 Sobolev 空间 \(\mathcal{W}^{r,2}\),且 B-spline 节点数选取最优(\(K \asymp n^{1/(2r+1)}\)),则
定理 3(Oracle property:Group SCAD 的变量选择一致性):变量选择的结果以概率趋向 1 等于真稀疏支撑:
证明路线与技术技巧¶
整体路线(penalized partial likelihood + sieve):
-
Step 1:将部分似然函数 \(\ell_n(\boldsymbol{\beta}, g)\) 中的非参数 \(g\) 用 B-spline 基展开(sieve 近似),并用 group SCAD 惩罚:
\[Q_n(\boldsymbol{\beta}, \boldsymbol{\theta}) = \ell_n(\boldsymbol{\beta}, \boldsymbol{\theta}) - \sum_j p_\lambda(\|\boldsymbol{\theta}_j\|_2) - \sum_{k} p_\lambda(\beta_k|)\]注意这里 FPC 得分的非线性效应是用一个 B-spline 组(\(\boldsymbol{\theta}_j \in \mathbb{R}^{K_n}\))表示,组惩罚迫使组系数整体为零或整体非零(group variable selection)。 -
Step 2:引入 局部二次逼近(LQA) 处理 SCAD 的非凸性,最终转化为迭代加权最小二乘。证明中使用了这个技巧的一步 oracle 性质。
-
Step 3:建立 目标函数在整空间上的局部极值点 满足一些近似 Karush-Kuhn-Tucker 条件,然后利用经验过程和 U-过程(部分似然函数是 sum of i.i.d. terms)在 diverging dimension + sieve 设定下进行一阶展开。
-
Step 4:关键跳跃点(引理)——The beta-min condition + group SCAD 的惩罚 threshold 确保以高概率将无效 FPC 得分的整组样条系数推为零。类似偏差的证明难度:无法直接在无穷参数空间上做;但通过截断 sieve 并将剩余投影截断量的阶可证偏差可忽略。
-
Step 5:最后在选出的 true support 上做标准的部分似然渐近分析,用二阶展开和黎曼假设(信息矩阵正定)获得正态性。
关键跳跃点: - 跳跃 1:\(L_\infty\) 收敛率转移到非线性函数 \(g\) 的 \(L_2\) 界。这里作者用了一些常规的 sieve 偏差 + 方差平衡技巧,但难点在于被选中的 FPC 得分个数也在发散,使方差部分出现更难控制的“并行样条组”的交叉项。 - 跳跃 2:Oracle property 的证明在 group SCAD 设定下需要同时处理线性部分的稀疏性和非线性组级稀疏性,这需要控制每个向量的范数随着发散维数仍成立了SCAD的渐近分离特性(Fan & Li, 2001; 扩展见 Zhao et al., 2020)。 - 跳跃 3:模型假设 FPC 得分来自有限截断(误差来自于截断剩余的函数型方差部分),但作者假设这个误差已可忽略(使用 Karhunen-Loève截断的一个常规误差 bound),这一点在证明中没有详细列出——属弱假设、但证明依赖它。
技术技巧点名:
| 技巧 | 作用 | 位置 |
|---|---|---|
| Group SCAD | 联合惩罚标量协变量与 FPC 组的线性+非线性组系数 | 估计方程 |
| B-spline sieve | 将无穷维函数 \(g\) 降维至有限维基系数 | 模型设定 |
| 部分似然(Partial likelihood) | 消去基线 hazard \(\lambda_0(t)\),获得对有限维参数的估计方程 | 估计方法 |
| 剖面对数似然(profile likelihood) | 将非参数部分(这里是基线 hazard)通过 Breslow 估计量 profile out | 理论框架的局部展开 |
| 可行性区域问题(Infeasible region) | 证明 group SCAD 的解在支撑上的集中——利用一阶条件 | 变量选择一致性 |
| NEON 不等式 | 处理 divergent dimension 下打分函数的随机求和 | 收敛率的控制 |
真实例子与应用¶
数据来源:肾移植数据库(来自肾脏移植中心,作者未给出具体名称),包含 433 名肾移植患者。 如何处理: - 事件:死亡(death),时间:移植后的存活时间(月) - 删失典型。 - 标量预测变量(16 个):年龄、性别、体重指数 (BMI)、原发肾病类型、是否肾癌移植等 - 函数型预测变量:移植后 前 7 天发生的每日药用性的治疗强度 的曲线(?)——文中说的是“function predictor of the daily medication use post-transplant”。 这是一个时间序列(7 天的药量)。 - 处理方法:对这个药量曲线进行 FPCA,提取前 \(m\) 个 FPC 得分(本文用 PC 1-5)。 - 模型拟合:使用 group SCAD 在 \(p=16, m=5, K_n=8\)(B-spline 节点 8 个)进行拟合,通过 5-fold CV 选择惩罚参数。
结果: - 标量协变量中,年龄、心脏并发症、感染的严重程度 被选为主要风险因子(与医学直觉一致)。 - FPC 得分中,PC1、PC2 被保留,PC3-PC5 被淘汰。 - 模型给出了 PC1 和 PC2 的剂量-反应函数 \(g_1, g_2\)(用 B-spline 面板绘制)。PC1 呈现一个明显的非线性:在中低得分附近 hazard 急剧上升,高得分后趋于平稳;PC2 在中间区域有 U 型效应。这些非线性效应若被线性模型忽略,则会遗漏重要的风险变化模式。
这个例子想说明什么: - 验证理论的非线性效应在真实数据中确实存在(模型拒绝线性假设)。 - 同时说明变量选择能够识别出少数重要 FPC 分量——结构是稀疏的。 - 展示本文方法能产出可解释的单调/U形风险函数,比纯线性模型更有洞察。
请注意:这个例子并未以统计学严谨度检验非参数形式是否显著优于线性;它只是拟合了非线性函数并认为"有趣"(这在 Biometrics 应用导向论文中是可接受的)。读者需自行判别此例子是否真正说明了非线性部分的必要性(对比线性 Cox 模型的 AIC/BIC 并未被报告)。
🔎 结论是否比证明窄¶
- 定理 3 的 Oracle property 是"变量选择一致性"(上界型定理)——而实际应用里作者是用 AIC/BIC 选择 FPC 个数(\(m\))的,这个选择的理论性质未被证明被覆盖。如果用数据驱动选 \(m\),那在真正的渐近理论中,这个 \(m\) 也是需要选择过程控制的,但作者没给出对应的理论,连断言都没有。 所以读者要小心:下结论应限于:结论在给定 \(m\) 下成立,但选择 \(m\) 过程的性质未被分析。
- 非线性函数的收敛率:定理 2 是在给定 \(g\) 属于 Sobolev 球、且样条节点位置合理的前提下证明的。但在实际应用(肾移植数据)中,FPC 得分本身的分布来自 FPCA 估计,这个估计误差也许会污染非线性函数的率。作者在 proof 里声称 FPCA 误差是 \(\sqrt{n}\) 相合的、故可吸收(参见引理 A1),但实际数据中 FPCA 相的合性需要进一步的假设(够多的观测点、轨迹光滑等),这些假设在文中被提到、但并未在真实例子中检查。
- 作者声称模型包含对 FPC 得分的非线性部分,但 识别性 的讨论很弱:如果 \(g\) 是加性函数(即 \(g(\xi_{i,1}, \ldots, \xi_m)\)),那同时包含于线性项的系数 \(\beta_\xi\) 可能无法从非参数加性项中的多项式成分中分辨。作者假设了线性部分只包含标量协变量和一部分 FPC 得分,并声称用 group SCAD 可以区分哪些 FPC 得分进入线性部分、哪些进入非线性加性部分。但这个区分在给定数据中有时是非常脆弱的(依赖于 FPC 得分的相关性假设),笔者没有提供置信区间或检验来佐证此区分的确信度。
四、开放问题(点到为止,扎根具体语句)¶
- 变量选择中 Oracle 性能能否对 diverging FPC 个数一致成立?
-
原文对 group SCAD 的变量选择一致性给了定理 3,但定理的证明依赖于“惩罚参数与 beta-min 条件联合控制” (假设 (A6))。实际中读者的经验证明 beta-min 条件往往不可检验。是否存在不依赖 beta-min 条件的更鲁棒变量选择方法(如用于 survival analysis 的 MCP 或 adaptive LASSO)在函数 Cox 设定中也保持最优?可阅读简短入选竞争中如 Zhao et al. (2020)对此的 contrast 并确认这一缺陷是否已缓解。
-
B-spline 的基函数个数选择能否是数据自适应且同时保证最优收敛率?
-
作者在定理 2 中假设 \(K_n \asymp n^{1/(2r+1)}\) (经典最优率),但在实际例子中舍位采用 \(K_n=8\)(未解释理由)。如果能使用 cross-validation 或 penalized spline 同时选择节点数和样条阶数、且不影响率,是实证中的一项切实改进(参见 Pacella & Ryan 2021 关于 penalized sieve 的工作)。此问题来自定理假设中对 \(K_n\) 的先验指定(在引言前略有提到,但不充分)。
-
非线性函数 \(g\) 能否从直接观测到的功能性状(而非通过 FPC 得分变换)识别?
-
本文的设定基于 FPC 得分的逐步估计:观测函数 \(X_i(t)\) → FPCA → 得分 → 部分线性模型。这是一个“先截断后回归”的两步法,误差易积累;FPC 得分本身的量纲失去,难以做生物学解释。直接逼近完整函数型协变量的非线性影响(例如在整个函数轨迹上用 3D B-spline)是否可行且理论一致?这与模型(1)中对“函数型线性成分”假设的矛盾点 Riesz 表示定理有关。
-
功能数据测量误差对 partial likelihood 估计的影响是什么?
- 原文假设离散观测已通过平滑得出完整曲线且误差可忽略。如果测量误差不允许忽略,则 FPC 得分的估计偏差会扩散到非线性部分——这在生存分析中不罕见(尤其是功能数据只有日均观测)。如今缺少误差模型的敏感性分析。此 gap 在 intro 中以“假设观测光滑”被隐藏。
Maintained by 陈星宇 · Homepage · Source on GitHub