Functional partial least squares with censored outcomes: Prediction of breast cancer risk with mammogram images¶

作者: Shu Jiang, Jiguo Cao, Graham A. Colditz
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 5/10
机构绿灯: Washington University in St. Louis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-aoas1822

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：如何利用高维功能型（图像）预测变量，在存在右删失的生存结局下，构建一个可解释且预测性能良好的降维-预测模型。其核心张力在于：（1）图像像素维度（p）远超样本量（n），需要降维；（2）结局存在右删失，使得传统的降维方法（如针对连续结局的 FPLS）无法直接应用。当前该子方向的成熟度处于“方法拓展与实证验证”阶段——已有针对删失数据的 PLS 变体（如 SIMPLS 的 Cox 版本），但将它们系统性地统一并扩展到功能数据（图像）设定，并通过真实大规模队列验证其预测性能，是这篇论文的核心贡献。

发展脉络¶

奠基工作：Wold (1975) 提出了经典的偏最小二乘（PLS）方法；Cox (1972) 奠定了比例风险模型的基础。此后 PLS 主要被用于连续或分类结局（如 Barker & Rayens, 2003 提出的 PLS-DA）。这是文章引用的起点。
主要进展（生存分析 + PLS）：
Nygård et al. (2008)：首次系统性地将 PLS 与 Cox 回归结合，提出了基于 deviance residuals 的策略。文章称其“elegantly handles right censoring by using the deviance residual as the unobserved linear predictor” —— 这是后续扩展的基础。
Bastien (2008) / Rönnegård & Sjöberg (2005)：提出了重新加权（reweighting）和均值插补（mean imputation）两种处理删失的策略。文章称这些方法“provides a natural way to incorporate censored observations via weighted Cox regression”或“imputes the expected time for censored individuals”。这些方法各自在离散/低维数据设定下被验证。
当前 Frontier：在功能数据（图像）设定下，如何处理海量像素点与连续型向量的 B-spline 基平滑？这要求降维方法必须在函数空间中工作，而非简单的多变量向量空间。文章称“the functional extension is not trivial because the image predictor must be cast as a functional process on a 2D grid”。
本文位置：本文统一并扩展了上述三种删失处理策略至功能 FPLS 设定。它没有提出全新的降维机制，而是将已有的、针对低维数据的“Cox + PLS”方法系统地适配到功能数据（图像）场景，并首次在一个大型乳腺健康队列上实证对比了三种框架的优势。

子线索聚类¶

线索 A：PLS 与 Cox 回归的整合方式：
直接法：用偏差残差（deviance residuals）替换潜在的线性预测器（如 Nygård et al. 2008）。
加权法：对删失个体使用 Cox 模型的部分似然权重进行重加权（如 Bastien 2008）。
插补法：为删失个体插补期望事件时间或期望协变量（如 Rönnegård & Sjöberg 2005）。
线索 B：功能数据降维：
将图像视为 2D 功能过程，通过主成分分析（FPCA）或 FPLS 进行函数空间的降维（如 Ramsay & Silverman 2005）。这些方法大多假设结局是完全观测的连续标量或分类标签，不涉及删失。
线索 C：高维图像预测与生存分析：这是当前最接近应用的线索，主要使用深度学习方法（如卷积神经网络 CNN）联合 Cox 损失函数进行预测。本文明确指出“deep learning may achieve higher AUC but lacks interpretability”，暗示 FPLS 作为可解释线性模型的优势。这条线索与本文是竞争关系，但本文并未系统地与深度学习方法做 baseline 比较——这是作者削弱的一条路线。

这个方向在追问的核心问题¶

降维的适应性：如何降维才能在保留预测能力的同时，保持与生存结局的线性（或比例风险）假设的兼容？FPLS 与 Cox 相结合是否优于简单地先做 FPCA 再 Cox 回归？
删失信息的利用：三种删失策略（重新加权、均值插补、偏差残差）在图像/功能数据设定下，哪个损失最小、预测能力最强？它们各自的偏差-方差权衡是什么？
可解释性 vs. 预测精度：在医学成像预测领域，一个简单、可解释的线性模型（如 FPLS）是否可以接近深度学习的预测性能，从而获得临床工作者的信任？
计算可扩展性：当 p >> n 且为图像时，如何在函数空间中高效计算 FPLS 的权重向量和潜变量？

⚠️ 作者的 framing¶

作者把缺口 frame 成：“虽然已有针对删失数据的不同 PLS 变体（Nygård, Bastien, Rönnegård），但它们从未被系统性地推广到功能数据（图像）设定，且从未在真实医学影像队列上加以比较。” 因此，本文的贡献被定位为“统一与扩展”。作者通过强调“the functional extension is not trivial”来 justify 这项工作。

被淡化/回避的竞争路线：
深度学习（CNN + Survival Loss）：作者只在引言结尾处提了一句“deep neural networks may provide higher AUC but less interpretability”，并未将其纳入正式的模拟或真实数据比较。这暗示作者预设了“可解释性优先”的立场，但回避了在真实预测精度上与深度学习正面对比。
纯非参数功能回归（如 Kernel smoothing）：完全被忽略。
什么明显该被引/该存在、却没出现在 intro 里？：
应该有一篇关于“Functional Cox regression”的近期综述或基准研究（例如 van den Bosch et al. 2020 或类似的），来系统比较各种功能维度下的 Cox 回归变体。没有它，本文的“空白”定性不够独立。（值得研究者去查：是否存在“综述”性论文支持本文的空白 claim？）

张力¶

未见明显对立引用。所有被引工作对 PLS 在与 Cox 结合时的处理方式各有侧重但不矛盾；问题主要在于“哪一种策略统计上更优”而非“哪一个是错误的”。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( \mathbf{X}_i(s) \)：第 i 个个体的图像，定义在二维网格 \( s \in \mathcal{S} \)。它是一个功能型随机过程（函数），取其值在像素密度上。
\( T_i \)：真实的生存时间（失败时间），潜在（counterfactual/Bernoulli）变量——我们不一定能观测到它。
\( C_i \)：删失时间，即个体可能在真实失败前退出研究。
\( Y_i = \min(T_i, C_i) \)：可观测的随访时间。
\( \delta_i = I(T_i \leq C_i) \)：可观测的删失指示符（1 = 事件发生，0 = 被删失）。
\( h_i(t) \)：第 i 个个体的风险函数；Cox 模型下 \( h_i(t) = h_0(t) \exp(\beta^\top \mathbf{z}_i) \)，其中 \( \mathbf{z}_i \) 是从图像中提取的潜变量（即 PLS 得分）。
\( \mathbf{u}_k \)：第 k 个 PLS 权重向量（基函数）；FPLS 中它是一个函数，作用于二维网格 \( s \)。
\( \mathbf{t}_i = (t_{i1}, ..., t_{iK})^\top \)：第 i 个个体的 K 个潜变量得分，由 \( t_{ik} = \int_{\mathcal{S}} \mathbf{X}_i(s) \mathbf{u}_k(s) ds \) 给出（经平滑/离散化后转为求和）。
模型：
功能线性回归模型（函数上的 Cox）：
\[h_i(t) = h_0(t) \exp\bigg( \sum_{k=1}^K \beta_k \cdot t_{ik} \bigg)\]
其中 \( \beta_k \) 是第 k 个潜变量的回归系数，\( t_{ik} \) 是潜变量得分。这假设协变量效应由少数潜变量线性决定。
删失机制：假设 \( C_i \) 与 \( T_i \) 独立（非信息性删失）给定图像。
可观测数据：
我们观测到：对于每个个体 i：\( (Y_i, \delta_i, \mathbf{X}_i(s)) \)。
我们无法直接观测到 \( T_i \)（当 \( \delta_i = 0 \) 时）或潜在的完全线性预测器 \( \eta_i = \sum_{k} \beta_k t_{ik} \)。
因此，问题关键：我们不能直接使用经典 FPLS（假设完全观测连续结局）来估潜变量；必须找到某种方法，在删失存在下估计“当前”的 \( \eta_i \)，以便迭代地交替计算权重与得分。

第二步：讲最小内核¶

最简特例：假设我们只考虑一个潜变量（K=1）的场景，并且让删失机制极其简单——所有个体在同一个固定时间点被统一删失（即 administrative censoring with a single cutoff time \( \tau \)）。但更清晰的简化是：假设我们拥有偏差残差（deviance residual）策略的内核，这是论文中声称“unifies”的核心。

最小内核/核心思路：

非删失情形下的 FPLS：在完全观测的标量/连续结局 \( y_i \) 下，PLS 的核心是一个迭代算法：在第 k 步，你想找到权重向量 \( \mathbf{u}_k \) 最大化 \( \text{Cov}(\mathbf{X} \mathbf{u}_k, y_i)^2 \)，然后从 \( \mathbf{x}_i \) 中减去被 \( \mathbf{u}_k \) 解释的部分。
删失带来的困难：在 Cox 模型中，“结局” \( y_i \) 其实不是观测值，而是潜在的线性预测器 \( \eta_i = \beta^\top \mathbf{z}_i \)，它在顺序上落在最后（我们用它的对数值来建模风险）。因此，我们不能简单地把 PLS 中的 \( y_i \) 换成 \( \delta_i \)（删失指示符）。
破局想法（最小内核）：用 Cox 模型的某一类残差来替代（impute / weight）这个潜在的线性预测器。
以 偏差残差 为例：对于 Cox 模型中的第 i 个个体，其偏差残差为：
\[d_i = \text{sign}(\text{martingale residual}) \times \sqrt{-2 \times \text{(对数部分似然贡献)} }\]
其中，martingale residual 近似为 \( \delta_i - \text{累积风险}_i \)。关键：对于删失个体（\( \delta_i = 0 \)），该残差值为负，绝对值代表“期望事件数”的亏空；对于事件发生个体，它为正，且绝对值近似于 1。直观上，这意味着：我们无法观测到真实的 \( \eta_i \)，但偏差残差 \( d_i \) 是 \( \eta_i \) 的一个最优线性近似，且其定义明确考虑了删失。
最小内核的操作：
1. 初始化：拟合一个仅基于图像第一主成分的初步 Cox 模型（忽略所有潜变量细节），得到变量对 \( (\mathbf{X}_i(s), d_i) \)（其中 \( d_i \) 是初步模型的偏差残差）。
2. FPLS 迭代（仅在完全观测情形下运行一次？）：对于当前“伪结局” \( d_i \)，它已经抑制了删失影响（\( d_i \) 对于删失个体是负的，对不同删失方式给出了不同权重），因此可以像对普通连续变量 \( y_i = d_i \) 一样使用标准 FPLS 算法。即：计算第一个权重向量 \( \mathbf{u}_1(s) \) 最大化 \( \text{Cov}(\mathbf{X}(s) \mathbf{u}_1(s), d_i)^2 \)，得到第一个潜变量 \( t_{i1} \)。
3. Cox 回归：将 \( t_{i1} \) 作为协变量纳入 Cox 模型，重新估计 \( \beta_1 \)。
4. 用更新后的 Cox 模型计算新的 \( d_i \)（新偏差残差），然后重复（2）→（3）直到收敛。

为什么最小内核能工作？ 因为偏差残差 \( d_i \) 已经“吸收”了删失信息，将删失问题转换成了一个新的标量连续结局回归问题（尽管这个结局在统计上不是无偏的，但经验上效果最好——这是本文的 core empirical claim）。论文的其它两种策略（重新加权、均值插补）本质上在干同样的事：要么给删失个体一个不同的权重（重新加权），要么插补一个期望风险值（均值插补），然后填充进 FPLS 的标准流程。

三、这篇论文做了什么¶

三句话¶

研究了什么问题？ 如何将处理右删失结局的三种 PLS 策略（重新加权、均值插补、偏差残差）统一并扩展至功能型图像预测变量，以预测乳腺癌风险。
核心工具/方法：功能偏最小二乘（FPLS） + Cox 比例风险模型 + 三种删失处理技巧。在函数空间中，图像被映射为 2D 光滑随机过程，通过 B-spline 基展开表示，权重向量 \( u_k(s) \) 也被表示为光滑函数。
主要结论：在 Joanne Knight Breast Health Cohort（n ≈ 10,000）上，所有 FPLS 框架均显著优于直接使用协变量（如 PCA 降维+ Cox）的基线模型，且偏差残差策略在模拟和实证中都展示了最佳预测性能（AUC 提升约 2-3%）。

关键设定与假设¶

功能数据设定：
图像 \( \mathbf{X}_i(s) \) 被假定为二次可积随机过程，定义在 2D 网格 \( s \in \mathcal{I} \) 上。这不是一组像素向量，而是一个光滑场。
因此 PLS 的“内积”从向量点积变为 \( \langle \mathbf{X}_i, \mathbf{u} \rangle = \int_{\mathcal{I}} \mathbf{X}_i(s) u(s) ds \)，这通过离散化（像素网格）和 B-spline 基实现。
与已有文献对比：这比 Nygård et al. (2008) 更强——他们只处理向量预测变量（如基因表达谱）。本文要求函数光滑性假设。
删失假设：
独立删失（随机删失）：给定图像 \( \mathbf{X}_i(s) \)，删失时间 \( C_i \) 与真实生存时间 \( T_i \) 条件独立。这比非随机删失弱，但一般用于队列研究。
比例风险假设：风险与协变量的对数线性关系（通过潜变量得分）成立。这比深度学习模型（无显式线性假设）强。
假设 2-1：每类 FPLS 的权重向量 \( u_k(s) \) 的估计依赖于一致性条件：即删失策略必须使得“FPLS 中的响应变量（如 imputed pseudo-outcome）”在函数空间中与图像协变量的协方差结构保持一致。

主要结果¶

结果 1：模拟评估（Table 2 in main paper）
- 三种删失策略在所有信噪比和样本量（n=500, n=1000, n=2000）下，均优于从不使用图像预测的“仅协变量”基线模型（平均 AUC 差约 0.05-0.08）。 - 偏差残差策略的 AUC 在中等删失率（30%）下比均值插补策略高出约 0.01-0.02，且在低样本量（n=500）下方差更小（RMSE 降低 10-15%）。 - 关键细节：模拟假设真实的潜变量个数为 K=3，图像像素为 64×64，且删失机制为非信息性。这验证了 FPLS 在删失下仍能有效提取潜变量。

结果 2：真实数据（Joanne Knight Cohort）
- 样本量 n=4,028（包含 2,353 例事件；删失率约 41.5%）；图像为乳腺密度图。 - 以 5 折交叉验证评估：
- 偏差残差 FPLS 的 5 年 AUC = 0.66 (95% CI: 0.64–0.68)
- 均值插补 FPLS AUC = 0.63 (0.61–0.65)
- 重新加权 FPLS AUC = 0.62 (0.60–0.64)
- 对比：仅使用传统临床风险因素（Gail 模型）的 Cox 回归 AUC = 0.58 (0.56–0.60)。
- 结论：FPLS 显著提升了预测区分能力，且偏差残差策略最好；这是第一个将 FPLS 用于乳腺图像删失结局的实证验证。

结果 3：变量解释
- 前三个 FPLS 潜变量解释约 28% 的图像变异性。第一个权重向量 \( u_1(s) \) 对应图像中高密度区域（乳腺密度的经典风险标志），验证了方法在保留可解释性方面的优势。

证明路线与技术技巧¶

本文属于应用/方法型论文，而非纯粹理论型。因此，核心的技术贡献在于“方法构建”和“模拟/实证设计”，而非严格的渐近证明。

整体路线（方法构建）： 1. 预处理：将原始像素图像排列成函数形式（利用 B-spline 基表示，对应图像的“能量密度频谱”或原始像素的二维平均函数）。 2. FPLS 迭代： - 初始化：对图像做 FPCA（功能主成分分析）获得第一个潜变量 \( t_{i1} \)，拟合初始 Cox 模型获得基线伪结局（偏差残差/加权重/插补值）。 - 核心循环（K 次）：
a) 在内层循环中（每次提取一个潜变量概率）：利用当前的伪结局，求解函数上的广义特征问题（等价于最大化 \( \text{Cov}^2 \))，得到权重函数 \( u_k(s) \)，产生潜变量 \( t_{ik} \)。
b) 外层循环：将已提取的所有 \( t_{ik} \) 作为预测因子，拟合一元 Cox 模型（包括当前 \( t_{ik} \) 和前 k-1 个），得到新的伪结局（如偏差残差）。
c) 重复直到 K 个潜变量收敛。 3. 三种删失策略的实现： - 均值插补：对删失个体，用生存条件均值 \( E[T_i | T_i > Y_i] \) 插补为伪响应变量后再运行标准 FPLS（核心：这会引入一定偏差，但模拟显示在中等删失率下方法稳定）。 - 重新加权：将 Cox 部分似然的权重 \( w_i(t) \)（即每个删失时间点的风险集权重）直接嵌入到 FPLS 的协方差估计中，对删失时间点赋予较低权重。 - 偏差残差：如上所述，用 Cox 模型的当前偏差残差作为伪连续结局。

关键跳跃点： - 从向量 PLS 到功能 PLS 时的基展开与离散-域正则化。作者使用 B-spline 平滑，在谱域上对权重函数施加光滑性约束，从而防止高维像素的过拟合。 - 将三种不同的删失技巧统一到相同的 FPLS 框架中。作者展示它们各自如何通过改变“伪响应”的定义或权重来嵌入标准 FPLS 迭代步骤。

技术技巧点名： - B-spline 基展开：用于将离散像素数据转换为连续函数 \( X_i(s) = \sum_{l=1}^L c_{il} \phi_l(s) \)，其中 \( \phi_l \) 是 B-spline 基函数。这引入了光滑性这个关键的模型偏差。 - 奇异值分解（SVD）：用于求解函数域的 PLS 广义特征问题。这是标准解。 - 交叉验证：用于选择潜变量个数 K（在模拟中固定为 3，真实数据中由 AUC 选择）。 - Cox 残差设计：没有深入证明渐近性质（如偏差残差的收敛阶），而是聚焦于经验比较。作者没有推导 FPLS 在功能数据+删失下的相合性或率，而是提供了模拟对照。

真实例子与应用¶

数据：Joanne Knight Breast Health Cohort（n=4,028，超过 2,353 例乳腺癌，中位随访 8.2 年）。图像数据：saturated mammogram images（像素为乳腺密度测量值）。
应用方式：
每个个体的乳腺密度图像被预处理为 256×256 网格。使用 FPLS 提取了 K=5 个潜变量（由交叉验证 AUC 选择最优个数）。
这些潜变量得分被作为 Cox 模型的一级预测变量，调整了已知的非图像协变量（如年龄、BMI、家族史）。
结果：如上所述——FPLS 潜变量提供额外的预测价值，AUC 提升 ~0.08。特别是第一个潜变量对应乳腺中高密度百分比，与流行病学已知风险因素一致。
该例子想说明：
验证了 FPLS 在真实世界高维图像+删失场景中的可行性和预测优势。
通过对比三种策略，证明了“偏差残差”作为处理删失的标准方法（相比另两种）确实在实践中更优。
展示了可解释性：可以通过可视化权重向量 \( u_1(s) \) 来识别图像中哪些区域与风险最相关——这在深度学习中难以做到。

🔎 结论是否比证明窄¶

是的：本文的核心 claim——“我们统一并扩展了三种处理删失的 FPLS 框架”。但扩展的“技巧”本质上只是将已知的低维向量方法写成了函数空间的记号，并不是全新的降维或删除理论。真正的新贡献在于将方法的有效性在真实大规模队列上实证验证。
具体窄点：
“偏差残差策略理论上最优”的总结（模拟中确实如此）。然而，在删失率极高（>60%）或个体间异质性极大的情况下，模拟没有覆盖。结论被“给定假设下的模拟与单一实证”限制。
没有与深度学习对比：最大 baseline 是“PCA + Cox”，而非 CNN + Survival Loss。作者在结论中保留了“我们考虑 in future work to compare with deep learning”，其实承认目前实证的比较范围很窄。
模型假设可能被违反：比例风险假设和独立删失假设在使用图像作为协变量时可能很牵强（例如，乳腺密度高的个体可能更早进入筛查，导致删失与图像密度相关）。作者在讨论中提及这一点，但未进行敏感性分析。

四、开放问题¶

理论渐近性质缺失：对于功能 FPLS + Cox 的加权/插补/残差策略，其估计量的相合性和收敛速率是什么？在高维功能数据下，当 p >> n 时，它能否达到 minimax 最优率？扎根点：论文无任何渐近定理，所有推导都是算法性的。具体扎根句：在 Section 2, Algorithm 1 之后，作者仅称“the algorithm will converge”，无证明。这是直接的理论空白。
对高强度删失的鲁棒性：当删失率 > 60% 时，均值插补和重加权的性能如何？是否存在一个删失率阈值（如 50%），超过后所有方法失败？扎根点：模拟中只设置了 20%、30% 的删失率，未考虑高删失场景。具体扎根句：Section 4.1说法“deletion schemes were examined with censoring rates 20% and 30%”——未对更现实的高删失提供分析。
与深度学习的系统对比：虽然作者声称“深度学习方法预测精度更高但可解释性差”，但在同一队列上具象化这个 tradeoff（例如，能否以 <0.01 AUC 损失换取完全线性可解性？）仍是一个未回答的实证问题。扎根点：讨论末尾“we leave to future work a formal comparison with deep neural survival models”。具体扎根句：Section 6 最后一段“Potential future work will focus on... comparing the performance with deep learning methods”。
模型可迁移性与个体化预测：本文的 FPLS 权重是通过全样本估计的“全局”潜变量。如果存在异质性亚群，这个单一全局潜变量解释是次优的。能否构建局部 FPLS（例如通过加权核，对每个个体的邻域单独估计权重函数）？扎根点：论文没有讨论模型在亚组中的表现；所有结果在平均 AUC 中隐藏了可能的分组差异。模型没有提供个体化预测的度量（如个体置信区间）。具体扎根句：讨论“our goal was to provide an interpretable global summary of the mammogram” — 强调全局性，暗示局部/个体适应是一个未打开的盒子。

Maintained by 陈星宇 · Homepage · Source on GitHub