Understanding Inequalities in Cancer Survival Using Bayesian Machine Learning¶

作者: Piyali Basak, Camille Maringe, F. Javier Rubio, Antonio R. Linero
来源: Journal of the American Statistical Association
主题: 流行病学
相关性: 5/10
机构绿灯: University College London（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2547968

一、领域脉络与小综述¶

这个方向是什么¶

癌症生存不平等研究关注不同人口学、社会经济及临床亚组之间癌症净生存（net survival）的差异。在人群研究中，通常采用相对生存框架：将每个患者的总风险分解为“已知的人群期望背景风险”（从全民生命表查得）和“归因于癌症的超额风险”（excess hazard）。目标 estimand 如净生存（net survival）是标准工具，用来评估政策干预或跨地区比较。当前成熟度：流行病学与官方统计机构（如英国国家统计局）已将相对生存纳入常规报告，但模型几乎全部是参数/半参数比例风险模型（如 Pohar-Perme 估计量、Dickman 等），对复杂交互和异质性的刻画有限。

发展脉络（基于已有文献构建，引用语句来自摘要）¶

奠基工作：相对生存框架可追溯到 Ederer et al. (1961) 和 Hakulinen (1982)。它们定义了净生存的概念，但早期方法严重依赖分层或参数假设。
主要进展：Pohar-Perme et al. (2012) 提出了非参数无偏估计量，被纳入官方统计标准；Dickman et al. (2004) 推广了比例超额风险模型（proportional excess hazard model），允许使用 Poisson 回归估计超额危险比。这些方法仍是半参数线性/加法形式。
当前 frontier：机器学习方法进入生存分析——BART（Bayesian additive regression trees）已被 Sparapani et al. (2016) 用于标准 (全因) 生存模型，能自动捕捉非线性与交互，但尚未在相对生存框架下建模 excess hazard。作者在摘要中明确说明：“We develop a proportional hazards version of BART for the relative survival context and extend it to accommodate nonproportional hazards.” 这就是本文的直接位置。
本文的位置：将 BART 从标准生存拓展到 excess hazard 建模，使灵活性更高，同时给出变量重要性工具以便识别脆弱亚群。

子线索聚类¶

相对生存方法与估计：涵盖 Pohar-Perme 非参数估计量、Dickman Poisson 回归、灵活参数模型 (如 Royston-Parmar 样条)。核心是处理“人群背景风险已知”这一特殊性。
生存分析的灵活机器学习：Cox 比例风险模型、随机生存森林、DeepSurv、Cox-BART (Sparapani et al.)。重点在于非比例风险处理。
流行病学中脆弱亚群识别：变量重要性、亚组分析、交互检测。本文通过 BART 后验总结和变量重要度量化来提供这一工具。

这个方向在追问的核心问题¶

在 excess hazard 框架下，如何非参数地估计协变量对超额风险的非线性/交互效应，而不强加比例风险假设？
如何量化各因素对癌症生存不平等的相对贡献（变量重要性），并识别高超额风险的脆弱亚群？
当存在多个合并症和社会经济变量时，如何自动检测它们的复杂交互模式？

当前主流方法（如 Pohar-Perme 估计量）虽然非参数，但只能给出总体净生存，不能直接纳入协变量进行个体风险预测。Dickman 等半参数模型虽能纳入协变量，但假定线性对数风险或比例风险。本文用 BART 直接对 excess hazard 函数建模，允许任意交互，是非比例风险的一种自然解法。

⚠️ 作者的 framing¶

这是作者的说法：“While much research has focused on how comorbidities affect overall survival, national and international institutions typically prefer the relative survival framework for population-based studies.” 论文的贡献定位是：把 BART 这一灵活工具引入相对生存语境，填补“灵活方法在 excess hazard 中缺失”的缺口。

被淡化/回避的竞争路线：谱系更宽的 penalized spline 方法（如 MISA，penalized hazard model）未被提及；非参数贝叶斯的另一支——Dirichlet process mixture 用于生存模型——未被讨论。作者选择 BART 而非其他，可能是因为 BART 的后验 summarization 和变量重要性有现成工具。
明显该存在却未出现的引文：Janvin et al. (2020) 的 flexible parametric relative survival models with restricted cubic splines，以及 Inacio et al. (2022) 的 Bayesian nonparametric relative survival via DPM，未见引用（基于常见文献推断）。读者可核实。

张力¶

未见明显对立引用。相对生存框架本身在流行病学界已基本形成共识（偏好 net survival 而非 overall survival），没有实质性争议。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\(T_i\)：第 \(i\) 个患者的时间至死亡（随机变量）。
\(C_i\)：独立右删失时间。
\(Y_i = \min(T_i, C_i)\)：观测的死亡/删失时间。
\(\delta_i = 1\{T_i \le C_i\}\)：是否观测到死亡。
\(\mathbf{x}_i \in \mathbb{R}^p\)：协变量向量（年龄分组、性别、合并症指数等）。
\(h_{\text{pop}}(t; a_i, s_i, c_i)\)：已知的人群期望 hazard 率，从国家生命表获得，根据年龄 \(a_i\)、性别 \(s_i\)、日历年份 \(c_i\) 查得。
\(h_{\text{excess}}(t|\mathbf{x}_i)\)：归因于癌症的超额 hazard，是 目标量。
总 hazard：\(h(t|\mathbf{x}_i) = h_{\text{pop}}(t; a_i, s_i, c_i) + h_{\text{excess}}(t|\mathbf{x}_i)\)。
似然贡献（忽略删失时为 \(f(t|\mathbf{x}_i) = h(t|\mathbf{x}_i) S(t|\mathbf{x}_i)\)）。
模型：本文假设一个 BART 模型用于 excess hazard。在比例风险版本中：
\[h_{\text{excess}}(t|\mathbf{x}_i) = h_0(t) \cdot \exp\big(\mu(\mathbf{x}_i)\big),\]
其中 \(h_0(t)\) 是基线 excess hazard（常数或分段常数），\(\mu(\mathbf{x}_i)\) 由 BART 的 sum-of-trees 表示：
\[\mu(\mathbf{x}_i) = \sum_{j=1}^m g(\mathbf{x}_i; T_j, M_j),\]
每棵树 \(g\) 将协变量映射到叶节点均值（常数）。BART 设有先验正则化（避免过拟合）。非比例风险版本允许基线 \(h_0(t)\) 被分解为分段常数，且各段可被协变量调节。
可观测数据：每个患者 i 可观测到 \((Y_i, \delta_i, \mathbf{x}_i, a_i, s_i, c_i)\)。删失时间独立假定。人群 hazard \(h_{\text{pop}}\) 是可查得的已知函数（非随机，被视为已知）。需要估计的只是 \(h_{\text{excess}}\)。这不同于标准生存分析（整体 hazard 全未知）。

第二步：讲最小内核¶

最简特例：假设只有两个二值协变量 \(\mathbf{x} = (x_1, x_2)\)，没有删失（所有患者死亡时间被完整观测），并且假定比例风险成立且基线 excess hazard 为常数 \(h_0(t) = \lambda_0\)（不随时间变化）。那么模型简化为

\[h_{\text{excess}}(t|x_1, x_2) = \lambda_0 \cdot \exp\big(\mu(x_1, x_2)\big),\]

\(\mu\) 是一个四元函数（四种配置）。BART 使用两棵树（\(m=2\)），每棵树是深度为 1 的决策树（每个分裂将 \(x_1\) 或 \(x_2\) 分成两组）。两棵树的叶节点均值之和给出四种可能的 \(\mu\) 值。MCMC 后验抽样给出 \(\lambda_0\) 和所有叶均值的后验分布。

核心思路：在比例假设下，超额 hazard 与基线 hazard 分离，BART 只对乘法因子建模。给定数据，似然为

\[L = \prod_{i=1}^n \Big( h_{\text{pop}}(t_i) + \lambda_0 e^{\mu(\mathbf{x}_i)} \Big) \cdot \exp\Big( - \int_0^{t_i} [h_{\text{pop}}(s) + \lambda_0 e^{\mu(\mathbf{x}_i)}] ds \Big).\]

这是非标准似然，因为第一项是和的乘积而不是纯粹的指数形式。但通过背景 hazard 已知，可以简化计算（基线 \(\lambda_0\) 和 \(\mu\) 通过前向数据增强或 Metropolis-Hastings 更新）。最小内核抓住了本质：在 excess hazard 框架中，BART 需要处理呈现在总 hazard 中的加法分解，而函数形式恰好兼容 BART 的灵活性。

这个特例去掉了一般性中的非比例风险、多元连续协变量、MCMC 细节，保留了核心数学问题——如何用 BART 对乘法因子建模，并利用已知背景 hazard 进行 MCMC 推断。

三、这篇论文做了什么¶

三句话¶

本文在相对生存框架下开发了比例风险 BART 模型和非比例风险 BART 模型，用于对癌症超额 hazard 进行灵活的非参数估计，同时量化变量重要性并识别高超额风险的脆弱亚群。
核心工具是 BART（Bayesian additive regression trees），配合 MCMC 后验抽样，对 excess hazard 中的乘法因子（比例版本）或基线 hazard 与乘法因子的乘积（非比例版本）进行建模，利用人群背景 hazard 已知这一事实简化计算。
主要结论：在英格兰结肠癌大样本（约 15 万患者）上应用后，模型揭示了合并症与社会经济剥夺的强交互效应，尤其是 2+ 种合并症的患者在贫困地区生存劣势极为突出，非比例风险模型比比例模型拟合更好。

关键设定与假设¶

可观测数据：如上节符号。附加的质量：通过数据链接获得住院记录（合并症指数 Charlson）、社会剥夺指数（IMD 五分位）、年龄、性别、诊断阶段等。
关键假设：
独立删失（和独立于协变量条件）：更严格版本是删失独立于失效时间，给定协变量。
背景 hazard 已知且准确：来自英国国家生命表，按年龄-性别-年份分层。假设该表在癌症人群中可适用（即无偏）。
正确模型规范：超额 hazard 结构由 BART 近似，先验正则化防止过拟合。非比例版本进一步假设基线 hazard 分段常数，段数由先验控制。
SUTVA-like：患者之间独立。
相比已有文献的放宽：传统 Dickman 模型假定比例风险且对数线性协变量效应，本文通过 BART 放松了线性/加法结构。非比例版本允许风险比随时间变化。

主要结果¶

由于本文是应用型，核心结果是数据应用中的发现，而非定理。主要量化结论：

变量重要性：对 11 个协变量（年龄、性别、剥夺水平、Charlson 合并症指数、诊断阶段、区域等），通过后验分裂次数和叶后验变化计算重要性。发现诊断阶段（早期 vs 晚期）和Charlson 合并症指数（0,1,2+）是最重要的两个因子。
脆弱亚组识别：非比例风险模型拟合显著优于比例模型（DIC 比较 + 后验预测 check）。识别出高超额风险的亚组：Charlson ≥ 2 且诊断阶段晚的患者，超额 hazard 比同阶段无合并症者高出 3~5 倍。与剥夺的交互进一步放大差距。
模型对比：与传统 Pohar-Perme 法比较，BART 提供了个体水平的风险预测（不再是总体净生存），且可在调整协变量后给出条件净生存曲线。

真实例子与应用¶

数据：英格兰国家癌症登记数据 (1995-2014)，约 150,000 个结肠癌确诊患者，随访至 2015 年底。通过与住院患者管理数据库（HES）和社会经济数据链接，获得合并症信息和剥夺指数。
如何应用：使用比例风险与非比例风险 BART 模型拟合超额 hazard。后验抽样通过 MCMC 进行（具体细节见附录）。模型解释通过综合变量重要性（后验分裂频率加权）和部分依赖图。
结果：1 年净生存曲线：晚诊断 + 2+ 合并症的剥夺最高组净生存仅 25%，而早诊断 + 无合并症的富裕组达 90%。非比例模型在晚期阶段（>3 年）有较大差异。
例子想说明：BART 能自动发现无法被线性模型捕捉的交互（如合并症与贫穷的协同效应），同时提供可解释的工具（变量重要性、部分依赖）来支持卫生政策建议。

🔎 结论是否比证明窄¶

没有严格证明的数学定理。本文是贝叶斯计算的应用论文，没有渐近理论或最坏-case 分析。结论“非比例模型拟合更好”仅基于特定数据集和 DIC/后验预测准则，未给出通用条件；变量重要性度量是基于后验分裂计数，其统计特性（一致性、分布）未讨论。作者在文本中可能声称“确定了驱动不平等的因素”，但严格上只是模型后验的体现，未做因果推断（无控制混杂）。读者应谨慎：这是一种描述性建模，而非因果分解。

四、开放问题¶

因果推断版本：本文的变量重要性是预测关联而非因果效应。一个开放问题是：在相对生存框架下，如何对 excess hazard 进行因果推断（例如估计将合并症指数从 2+ 降为 0 对净生存的因果影响）？需要引入因果结构（如逆概率加权、工具变量）。扎根点：论文摘要中“identify drivers”是关联语义，未明确因果。
模型理论性质：BART 在 excess hazard 模型中的后验收缩性质（如一致性、收敛速度）未建立。已知对于标准 Cox BART 有部分结果（Rockova et al. 2020），但对加法分解 h_pop + h_excess 的特殊结构，需要新理论。扎根点：论文没有提供理论性质，属于纯应用。
变量重要度的统计可靠性：文章使用的变量重要性（基于分裂频率）是启发式且依赖于先验选择（树数量 m）。一个问题：是否存在一种基于 efficient influence function 的变量重要性估计量，用于 excess hazard 模型，使得可以构造置信区间并进行假设检验？扎根点：论文中变量重要性仅给出排序，无不确定性度量。
时间依赖的合并症：本文假定合并症在诊断时固定，但实际合并症随时间发展，影响后期 hazard。开放问题：如何将时变合并症纳入相对生存 BART 模型？扎根点：论文使用基线 Charlson 指数（诊断前一年内），未处理时间变化。这需要动态模型（如 joint model 或 BART with time-varying covariates）。

Maintained by 陈星宇 · Homepage · Source on GitHub