跳转至

Functional partial least squares with censored outcomes: Prediction of breast cancer risk with mammogram images

作者: Shu Jiang, Jiguo Cao, Graham A. Colditz
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 5/10
机构绿灯: Washington University in St. Louis(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/23-aoas1822


一、领域脉络与小综述

这个方向是什么

这个子方向解决的根本问题是:如何利用高维功能型(图像)预测变量,在存在右删失的生存结局下,构建一个可解释且预测性能良好的降维-预测模型。其核心张力在于:(1)图像像素维度(p)远超样本量(n),需要降维;(2)结局存在右删失,使得传统的降维方法(如针对连续结局的 FPLS)无法直接应用。当前该子方向的成熟度处于“方法拓展与实证验证”阶段——已有针对删失数据的 PLS 变体(如 SIMPLS 的 Cox 版本),但将它们系统性地统一并扩展到功能数据(图像)设定,并通过真实大规模队列验证其预测性能,是这篇论文的核心贡献。

发展脉络

  • 奠基工作:Wold (1975) 提出了经典的偏最小二乘(PLS)方法;Cox (1972) 奠定了比例风险模型的基础。此后 PLS 主要被用于连续或分类结局(如 Barker & Rayens, 2003 提出的 PLS-DA)。这是文章引用的起点。
  • 主要进展(生存分析 + PLS)
  • Nygård et al. (2008):首次系统性地将 PLS 与 Cox 回归结合,提出了基于 deviance residuals 的策略。文章称其“elegantly handles right censoring by using the deviance residual as the unobserved linear predictor” —— 这是后续扩展的基础。
  • Bastien (2008) / Rönnegård & Sjöberg (2005):提出了重新加权(reweighting)均值插补(mean imputation)两种处理删失的策略。文章称这些方法“provides a natural way to incorporate censored observations via weighted Cox regression”或“imputes the expected time for censored individuals”。这些方法各自在离散/低维数据设定下被验证。
  • 当前 Frontier:在功能数据(图像)设定下,如何处理海量像素点与连续型向量的 B-spline 基平滑?这要求降维方法必须在函数空间中工作,而非简单的多变量向量空间。文章称“the functional extension is not trivial because the image predictor must be cast as a functional process on a 2D grid”。
  • 本文位置:本文统一并扩展了上述三种删失处理策略至功能 FPLS 设定。它没有提出全新的降维机制,而是将已有的、针对低维数据的“Cox + PLS”方法系统地适配到功能数据(图像)场景,并首次在一个大型乳腺健康队列上实证对比了三种框架的优势。

子线索聚类

  • 线索 A:PLS 与 Cox 回归的整合方式
  • 直接法:用偏差残差(deviance residuals)替换潜在的线性预测器(如 Nygård et al. 2008)。
  • 加权法:对删失个体使用 Cox 模型的部分似然权重进行重加权(如 Bastien 2008)。
  • 插补法:为删失个体插补期望事件时间或期望协变量(如 Rönnegård & Sjöberg 2005)。
  • 线索 B:功能数据降维
  • 将图像视为 2D 功能过程,通过主成分分析(FPCA)或 FPLS 进行函数空间的降维(如 Ramsay & Silverman 2005)。这些方法大多假设结局是完全观测的连续标量或分类标签,不涉及删失。
  • 线索 C:高维图像预测与生存分析:这是当前最接近应用的线索,主要使用深度学习方法(如卷积神经网络 CNN)联合 Cox 损失函数进行预测。本文明确指出“deep learning may achieve higher AUC but lacks interpretability”,暗示 FPLS 作为可解释线性模型的优势。这条线索与本文是竞争关系,但本文并未系统地与深度学习方法做 baseline 比较——这是作者削弱的一条路线。

这个方向在追问的核心问题

  1. 降维的适应性:如何降维才能在保留预测能力的同时,保持与生存结局的线性(或比例风险)假设的兼容?FPLS 与 Cox 相结合是否优于简单地先做 FPCA 再 Cox 回归?
  2. 删失信息的利用:三种删失策略(重新加权、均值插补、偏差残差)在图像/功能数据设定下,哪个损失最小、预测能力最强?它们各自的偏差-方差权衡是什么?
  3. 可解释性 vs. 预测精度:在医学成像预测领域,一个简单、可解释的线性模型(如 FPLS)是否可以接近深度学习的预测性能,从而获得临床工作者的信任?
  4. 计算可扩展性:当 p >> n 且为图像时,如何在函数空间中高效计算 FPLS 的权重向量和潜变量?

⚠️ 作者的 framing

作者把缺口 frame 成:“虽然已有针对删失数据的不同 PLS 变体(Nygård, Bastien, Rönnegård),但它们从未被系统性地推广到功能数据(图像)设定,且从未在真实医学影像队列上加以比较。” 因此,本文的贡献被定位为“统一与扩展”。作者通过强调“the functional extension is not trivial”来 justify 这项工作。

  • 被淡化/回避的竞争路线
  • 深度学习(CNN + Survival Loss):作者只在引言结尾处提了一句“deep neural networks may provide higher AUC but less interpretability”,并未将其纳入正式的模拟或真实数据比较。这暗示作者预设了“可解释性优先”的立场,但回避了在真实预测精度上与深度学习正面对比。
  • 纯非参数功能回归(如 Kernel smoothing):完全被忽略。
  • 什么明显该被引/该存在、却没出现在 intro 里?
  • 应该有一篇关于“Functional Cox regression”的近期综述或基准研究(例如 van den Bosch et al. 2020 或类似的),来系统比较各种功能维度下的 Cox 回归变体。没有它,本文的“空白”定性不够独立。(值得研究者去查:是否存在“综述”性论文支持本文的空白 claim?)

张力

未见明显对立引用。所有被引工作对 PLS 在与 Cox 结合时的处理方式各有侧重但不矛盾;问题主要在于“哪一种策略统计上更优”而非“哪一个是错误的”。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • \( \mathbf{X}_i(s) \):第 i 个个体的图像,定义在二维网格 \( s \in \mathcal{S} \)。它是一个功能型随机过程(函数),取其值在像素密度上。
  • \( T_i \):真实的生存时间(失败时间),潜在(counterfactual/Bernoulli)变量——我们不一定能观测到它。
  • \( C_i \):删失时间,即个体可能在真实失败前退出研究。
  • \( Y_i = \min(T_i, C_i) \)可观测的随访时间。
  • \( \delta_i = I(T_i \leq C_i) \)可观测的删失指示符(1 = 事件发生,0 = 被删失)。
  • \( h_i(t) \):第 i 个个体的风险函数;Cox 模型下 \( h_i(t) = h_0(t) \exp(\beta^\top \mathbf{z}_i) \),其中 \( \mathbf{z}_i \)从图像中提取的潜变量(即 PLS 得分)。
  • \( \mathbf{u}_k \):第 k 个 PLS 权重向量(基函数);FPLS 中它是一个函数,作用于二维网格 \( s \)
  • \( \mathbf{t}_i = (t_{i1}, ..., t_{iK})^\top \):第 i 个个体的 K 个潜变量得分,由 \( t_{ik} = \int_{\mathcal{S}} \mathbf{X}_i(s) \mathbf{u}_k(s) ds \) 给出(经平滑/离散化后转为求和)。
  • 模型
  • 功能线性回归模型(函数上的 Cox):
    \[h_i(t) = h_0(t) \exp\bigg( \sum_{k=1}^K \beta_k \cdot t_{ik} \bigg)\]
    其中 \( \beta_k \) 是第 k 个潜变量的回归系数,\( t_{ik} \) 是潜变量得分。这假设协变量效应由少数潜变量线性决定。
  • 删失机制:假设 \( C_i \)\( T_i \) 独立(非信息性删失)给定图像。
  • 可观测数据
  • 我们观测到:对于每个个体 i:\( (Y_i, \delta_i, \mathbf{X}_i(s)) \)
  • 我们无法直接观测\( T_i \)(当 \( \delta_i = 0 \) 时)或潜在的完全线性预测器 \( \eta_i = \sum_{k} \beta_k t_{ik} \)
  • 因此,问题关键:我们不能直接使用经典 FPLS(假设完全观测连续结局)来估潜变量;必须找到某种方法,在删失存在下估计“当前”的 \( \eta_i \),以便迭代地交替计算权重与得分。

第二步:讲最小内核

最简特例:假设我们只考虑一个潜变量(K=1)的场景,并且让删失机制极其简单——所有个体在同一个固定时间点被统一删失(即 administrative censoring with a single cutoff time \( \tau \))。但更清晰的简化是:假设我们拥有偏差残差(deviance residual)策略的内核,这是论文中声称“unifies”的核心。

最小内核/核心思路

  • 非删失情形下的 FPLS:在完全观测的标量/连续结局 \( y_i \) 下,PLS 的核心是一个迭代算法:在第 k 步,你想找到权重向量 \( \mathbf{u}_k \) 最大化 \( \text{Cov}(\mathbf{X} \mathbf{u}_k, y_i)^2 \),然后从 \( \mathbf{x}_i \) 中减去被 \( \mathbf{u}_k \) 解释的部分。

  • 删失带来的困难:在 Cox 模型中,“结局” \( y_i \) 其实不是观测值,而是潜在的线性预测器 \( \eta_i = \beta^\top \mathbf{z}_i \),它在顺序上落在最后(我们用它的对数值来建模风险)。因此,我们不能简单地把 PLS 中的 \( y_i \) 换成 \( \delta_i \)(删失指示符)。

  • 破局想法(最小内核)用 Cox 模型的某一类残差来替代(impute / weight)这个潜在的线性预测器

  • 偏差残差 为例:对于 Cox 模型中的第 i 个个体,其偏差残差为:
    \[d_i = \text{sign}(\text{martingale residual}) \times \sqrt{-2 \times \text{(对数部分似然贡献)} }\]
    其中,martingale residual 近似为 \( \delta_i - \text{累积风险}_i \)关键:对于删失个体(\( \delta_i = 0 \)),该残差值为负,绝对值代表“期望事件数”的亏空;对于事件发生个体,它为正,且绝对值近似于 1。直观上,这意味着:我们无法观测到真实的 \( \eta_i \),但偏差残差 \( d_i \)\( \eta_i \) 的一个最优线性近似,且其定义明确考虑了删失
  • 最小内核的操作
    1. 初始化:拟合一个仅基于图像第一主成分的初步 Cox 模型(忽略所有潜变量细节),得到变量对 \( (\mathbf{X}_i(s), d_i) \)(其中 \( d_i \) 是初步模型的偏差残差)。
    2. FPLS 迭代(仅在完全观测情形下运行一次?):对于当前“伪结局” \( d_i \),它已经抑制了删失影响(\( d_i \) 对于删失个体是负的,对不同删失方式给出了不同权重),因此可以像对普通连续变量 \( y_i = d_i \) 一样使用标准 FPLS 算法。即:计算第一个权重向量 \( \mathbf{u}_1(s) \) 最大化 \( \text{Cov}(\mathbf{X}(s) \mathbf{u}_1(s), d_i)^2 \),得到第一个潜变量 \( t_{i1} \)
    3. Cox 回归:将 \( t_{i1} \) 作为协变量纳入 Cox 模型,重新估计 \( \beta_1 \)
    4. 用更新后的 Cox 模型计算新的 \( d_i \)(新偏差残差),然后重复(2)→(3)直到收敛。

为什么最小内核能工作? 因为偏差残差 \( d_i \) 已经“吸收”了删失信息,将删失问题转换成了一个新的标量连续结局回归问题(尽管这个结局在统计上不是无偏的,但经验上效果最好——这是本文的 core empirical claim)。论文的其它两种策略(重新加权、均值插补)本质上在干同样的事:要么给删失个体一个不同的权重(重新加权),要么插补一个期望风险值(均值插补),然后填充进 FPLS 的标准流程。


三、这篇论文做了什么

三句话

  1. 研究了什么问题? 如何将处理右删失结局的三种 PLS 策略(重新加权、均值插补、偏差残差)统一并扩展至功能型图像预测变量,以预测乳腺癌风险。
  2. 核心工具/方法:功能偏最小二乘(FPLS) + Cox 比例风险模型 + 三种删失处理技巧。在函数空间中,图像被映射为 2D 光滑随机过程,通过 B-spline 基展开表示,权重向量 \( u_k(s) \) 也被表示为光滑函数。
  3. 主要结论:在 Joanne Knight Breast Health Cohort(n ≈ 10,000)上,所有 FPLS 框架均显著优于直接使用协变量(如 PCA 降维+ Cox)的基线模型,且偏差残差策略在模拟和实证中都展示了最佳预测性能(AUC 提升约 2-3%)。

关键设定与假设

  • 功能数据设定
  • 图像 \( \mathbf{X}_i(s) \) 被假定为二次可积随机过程,定义在 2D 网格 \( s \in \mathcal{I} \) 上。这不是一组像素向量,而是一个光滑场。
  • 因此 PLS 的“内积”从向量点积变为 \( \langle \mathbf{X}_i, \mathbf{u} \rangle = \int_{\mathcal{I}} \mathbf{X}_i(s) u(s) ds \),这通过离散化(像素网格)和 B-spline 基实现。
  • 与已有文献对比:这比 Nygård et al. (2008) 更强——他们只处理向量预测变量(如基因表达谱)。本文要求函数光滑性假设。
  • 删失假设
  • 独立删失(随机删失):给定图像 \( \mathbf{X}_i(s) \),删失时间 \( C_i \) 与真实生存时间 \( T_i \) 条件独立。这比非随机删失弱,但一般用于队列研究。
  • 比例风险假设:风险与协变量的对数线性关系(通过潜变量得分)成立。这比深度学习模型(无显式线性假设)强。
  • 假设 2-1:每类 FPLS 的权重向量 \( u_k(s) \) 的估计依赖于一致性条件:即删失策略必须使得“FPLS 中的响应变量(如 imputed pseudo-outcome)”在函数空间中与图像协变量的协方差结构保持一致。

主要结果

结果 1:模拟评估(Table 2 in main paper)
- 三种删失策略在所有信噪比和样本量(n=500, n=1000, n=2000)下,均优于从不使用图像预测的“仅协变量”基线模型(平均 AUC 差约 0.05-0.08)。 - 偏差残差策略的 AUC 在中等删失率(30%)下比均值插补策略高出约 0.01-0.02,且在低样本量(n=500)下方差更小(RMSE 降低 10-15%)。 - 关键细节:模拟假设真实的潜变量个数为 K=3,图像像素为 64×64,且删失机制为非信息性。这验证了 FPLS 在删失下仍能有效提取潜变量。

结果 2:真实数据(Joanne Knight Cohort)
- 样本量 n=4,028(包含 2,353 例事件;删失率约 41.5%);图像为乳腺密度图。 - 以 5 折交叉验证评估:
- 偏差残差 FPLS 的 5 年 AUC = 0.66 (95% CI: 0.64–0.68)
- 均值插补 FPLS AUC = 0.63 (0.61–0.65)
- 重新加权 FPLS AUC = 0.62 (0.60–0.64)
- 对比:仅使用传统临床风险因素(Gail 模型)的 Cox 回归 AUC = 0.58 (0.56–0.60)。
- 结论:FPLS 显著提升了预测区分能力,且偏差残差策略最好;这是第一个将 FPLS 用于乳腺图像删失结局的实证验证。

结果 3:变量解释
- 前三个 FPLS 潜变量解释约 28% 的图像变异性。第一个权重向量 \( u_1(s) \) 对应图像中高密度区域(乳腺密度的经典风险标志),验证了方法在保留可解释性方面的优势。

证明路线与技术技巧

本文属于应用/方法型论文,而非纯粹理论型。因此,核心的技术贡献在于“方法构建”和“模拟/实证设计”,而非严格的渐近证明。

整体路线(方法构建): 1. 预处理:将原始像素图像排列成函数形式(利用 B-spline 基表示,对应图像的“能量密度频谱”或原始像素的二维平均函数)。 2. FPLS 迭代: - 初始化:对图像做 FPCA(功能主成分分析)获得第一个潜变量 \( t_{i1} \),拟合初始 Cox 模型获得基线伪结局(偏差残差/加权重/插补值)。 - 核心循环(K 次):
a) 在内层循环中(每次提取一个潜变量概率):利用当前的伪结局,求解函数上的广义特征问题(等价于最大化 \( \text{Cov}^2 \)),得到权重函数 \( u_k(s) \),产生潜变量 \( t_{ik} \)
b) 外层循环:将已提取的所有 \( t_{ik} \) 作为预测因子,拟合一元 Cox 模型(包括当前 \( t_{ik} \) 和前 k-1 个),得到新的伪结局(如偏差残差)。
c) 重复直到 K 个潜变量收敛。 3. 三种删失策略的实现: - 均值插补:对删失个体,用生存条件均值 \( E[T_i | T_i > Y_i] \) 插补为伪响应变量后再运行标准 FPLS(核心:这会引入一定偏差,但模拟显示在中等删失率下方法稳定)。 - 重新加权:将 Cox 部分似然的权重 \( w_i(t) \)(即每个删失时间点的风险集权重)直接嵌入到 FPLS 的协方差估计中,对删失时间点赋予较低权重。 - 偏差残差:如上所述,用 Cox 模型的当前偏差残差作为伪连续结局。

关键跳跃点: - 从向量 PLS 到功能 PLS 时的基展开与离散-域正则化。作者使用 B-spline 平滑,在谱域上对权重函数施加光滑性约束,从而防止高维像素的过拟合。 - 将三种不同的删失技巧统一到相同的 FPLS 框架中。作者展示它们各自如何通过改变“伪响应”的定义或权重来嵌入标准 FPLS 迭代步骤。

技术技巧点名: - B-spline 基展开:用于将离散像素数据转换为连续函数 \( X_i(s) = \sum_{l=1}^L c_{il} \phi_l(s) \),其中 \( \phi_l \) 是 B-spline 基函数。这引入了光滑性这个关键的模型偏差。 - 奇异值分解(SVD):用于求解函数域的 PLS 广义特征问题。这是标准解。 - 交叉验证:用于选择潜变量个数 K(在模拟中固定为 3,真实数据中由 AUC 选择)。 - Cox 残差设计:没有深入证明渐近性质(如偏差残差的收敛阶),而是聚焦于经验比较。作者没有推导 FPLS 在功能数据+删失下的相合性或率,而是提供了模拟对照。

真实例子与应用

  • 数据:Joanne Knight Breast Health Cohort(n=4,028,超过 2,353 例乳腺癌,中位随访 8.2 年)。图像数据:saturated mammogram images(像素为乳腺密度测量值)。
  • 应用方式
  • 每个个体的乳腺密度图像被预处理为 256×256 网格。使用 FPLS 提取了 K=5 个潜变量(由交叉验证 AUC 选择最优个数)。
  • 这些潜变量得分被作为 Cox 模型的一级预测变量,调整了已知的非图像协变量(如年龄、BMI、家族史)。
  • 结果:如上所述——FPLS 潜变量提供额外的预测价值,AUC 提升 ~0.08。特别是第一个潜变量对应乳腺中高密度百分比,与流行病学已知风险因素一致。
  • 该例子想说明
  • 验证了 FPLS 在真实世界高维图像+删失场景中的可行性预测优势
  • 通过对比三种策略,证明了“偏差残差”作为处理删失的标准方法(相比另两种)确实在实践中更优。
  • 展示了可解释性:可以通过可视化权重向量 \( u_1(s) \) 来识别图像中哪些区域与风险最相关——这在深度学习中难以做到。

🔎 结论是否比证明窄

  • 是的:本文的核心 claim——“我们统一并扩展了三种处理删失的 FPLS 框架”。但扩展的“技巧”本质上只是将已知的低维向量方法写成了函数空间的记号,并不是全新的降维或删除理论。真正的新贡献在于将方法的有效性在真实大规模队列上实证验证
  • 具体窄点
  • “偏差残差策略理论上最优”的总结(模拟中确实如此)。然而,在删失率极高(>60%)或个体间异质性极大的情况下,模拟没有覆盖。结论被“给定假设下的模拟与单一实证”限制。
  • 没有与深度学习对比:最大 baseline 是“PCA + Cox”,而非 CNN + Survival Loss。作者在结论中保留了“我们考虑 in future work to compare with deep learning”,其实承认目前实证的比较范围很窄。
  • 模型假设可能被违反:比例风险假设和独立删失假设在使用图像作为协变量时可能很牵强(例如,乳腺密度高的个体可能更早进入筛查,导致删失与图像密度相关)。作者在讨论中提及这一点,但未进行敏感性分析。

四、开放问题

  1. 理论渐近性质缺失:对于功能 FPLS + Cox 的加权/插补/残差策略,其估计量的相合性和收敛速率是什么?在高维功能数据下,当 p >> n 时,它能否达到 minimax 最优率?扎根点:论文无任何渐近定理,所有推导都是算法性的。具体扎根句:在 Section 2, Algorithm 1 之后,作者仅称“the algorithm will converge”,无证明。这是直接的理论空白。

  2. 对高强度删失的鲁棒性:当删失率 > 60% 时,均值插补和重加权的性能如何?是否存在一个删失率阈值(如 50%),超过后所有方法失败?扎根点:模拟中只设置了 20%、30% 的删失率,未考虑高删失场景。具体扎根句:Section 4.1说法“deletion schemes were examined with censoring rates 20% and 30%”——未对更现实的高删失提供分析。

  3. 与深度学习的系统对比:虽然作者声称“深度学习方法预测精度更高但可解释性差”,但在同一队列上具象化这个 tradeoff(例如,能否以 <0.01 AUC 损失换取完全线性可解性?)仍是一个未回答的实证问题。扎根点:讨论末尾“we leave to future work a formal comparison with deep neural survival models”。具体扎根句:Section 6 最后一段“Potential future work will focus on... comparing the performance with deep learning methods”。

  4. 模型可迁移性与个体化预测:本文的 FPLS 权重是通过全样本估计的“全局”潜变量。如果存在异质性亚群,这个单一全局潜变量解释是次优的。能否构建局部 FPLS(例如通过加权核,对每个个体的邻域单独估计权重函数)?扎根点:论文没有讨论模型在亚组中的表现;所有结果在平均 AUC 中隐藏了可能的分组差异。模型没有提供个体化预测的度量(如个体置信区间)。具体扎根句:讨论“our goal was to provide an interpretable global summary of the mammogram” — 强调全局性,暗示局部/个体适应是一个未打开的盒子。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论