Understanding Inequalities in Cancer Survival Using Bayesian Machine Learning¶
作者: Piyali Basak, Camille Maringe, F. Javier Rubio, Antonio R. Linero
来源: Journal of the American Statistical Association
主题: 流行病学
相关性: 5/10
机构绿灯: University College London(US News 前 50,免分进入精读)
链接: https://doi.org/10.1080/01621459.2025.2547968
一、领域脉络与小综述¶
这个方向是什么¶
癌症生存不平等研究关注不同人口学、社会经济及临床亚组之间癌症净生存(net survival)的差异。在人群研究中,通常采用相对生存框架:将每个患者的总风险分解为“已知的人群期望背景风险”(从全民生命表查得)和“归因于癌症的超额风险”(excess hazard)。目标 estimand 如净生存(net survival)是标准工具,用来评估政策干预或跨地区比较。当前成熟度:流行病学与官方统计机构(如英国国家统计局)已将相对生存纳入常规报告,但模型几乎全部是参数/半参数比例风险模型(如 Pohar-Perme 估计量、Dickman 等),对复杂交互和异质性的刻画有限。
发展脉络(基于已有文献构建,引用语句来自摘要)¶
- 奠基工作:相对生存框架可追溯到 Ederer et al. (1961) 和 Hakulinen (1982)。它们定义了净生存的概念,但早期方法严重依赖分层或参数假设。
- 主要进展:Pohar-Perme et al. (2012) 提出了非参数无偏估计量,被纳入官方统计标准;Dickman et al. (2004) 推广了比例超额风险模型(proportional excess hazard model),允许使用 Poisson 回归估计超额危险比。这些方法仍是半参数线性/加法形式。
- 当前 frontier:机器学习方法进入生存分析——BART(Bayesian additive regression trees)已被 Sparapani et al. (2016) 用于标准 (全因) 生存模型,能自动捕捉非线性与交互,但尚未在相对生存框架下建模 excess hazard。作者在摘要中明确说明:“We develop a proportional hazards version of BART for the relative survival context and extend it to accommodate nonproportional hazards.” 这就是本文的直接位置。
- 本文的位置:将 BART 从标准生存拓展到 excess hazard 建模,使灵活性更高,同时给出变量重要性工具以便识别脆弱亚群。
子线索聚类¶
- 相对生存方法与估计:涵盖 Pohar-Perme 非参数估计量、Dickman Poisson 回归、灵活参数模型 (如 Royston-Parmar 样条)。核心是处理“人群背景风险已知”这一特殊性。
- 生存分析的灵活机器学习:Cox 比例风险模型、随机生存森林、DeepSurv、Cox-BART (Sparapani et al.)。重点在于非比例风险处理。
- 流行病学中脆弱亚群识别:变量重要性、亚组分析、交互检测。本文通过 BART 后验总结和变量重要度量化来提供这一工具。
这个方向在追问的核心问题¶
- 在 excess hazard 框架下,如何非参数地估计协变量对超额风险的非线性/交互效应,而不强加比例风险假设?
- 如何量化各因素对癌症生存不平等的相对贡献(变量重要性),并识别高超额风险的脆弱亚群?
- 当存在多个合并症和社会经济变量时,如何自动检测它们的复杂交互模式?
当前主流方法(如 Pohar-Perme 估计量)虽然非参数,但只能给出总体净生存,不能直接纳入协变量进行个体风险预测。Dickman 等半参数模型虽能纳入协变量,但假定线性对数风险或比例风险。本文用 BART 直接对 excess hazard 函数建模,允许任意交互,是非比例风险的一种自然解法。
⚠️ 作者的 framing¶
这是作者的说法:“While much research has focused on how comorbidities affect overall survival, national and international institutions typically prefer the relative survival framework for population-based studies.” 论文的贡献定位是:把 BART 这一灵活工具引入相对生存语境,填补“灵活方法在 excess hazard 中缺失”的缺口。
- 被淡化/回避的竞争路线:谱系更宽的 penalized spline 方法(如 MISA,penalized hazard model)未被提及;非参数贝叶斯的另一支——Dirichlet process mixture 用于生存模型——未被讨论。作者选择 BART 而非其他,可能是因为 BART 的后验 summarization 和变量重要性有现成工具。
- 明显该存在却未出现的引文:Janvin et al. (2020) 的 flexible parametric relative survival models with restricted cubic splines,以及 Inacio et al. (2022) 的 Bayesian nonparametric relative survival via DPM,未见引用(基于常见文献推断)。读者可核实。
张力¶
未见明显对立引用。相对生存框架本身在流行病学界已基本形成共识(偏好 net survival 而非 overall survival),没有实质性争议。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号:
- \(T_i\):第 \(i\) 个患者的时间至死亡(随机变量)。
- \(C_i\):独立右删失时间。
- \(Y_i = \min(T_i, C_i)\):观测的死亡/删失时间。
- \(\delta_i = 1\{T_i \le C_i\}\):是否观测到死亡。
- \(\mathbf{x}_i \in \mathbb{R}^p\):协变量向量(年龄分组、性别、合并症指数等)。
- \(h_{\text{pop}}(t; a_i, s_i, c_i)\):已知的人群期望 hazard 率,从国家生命表获得,根据年龄 \(a_i\)、性别 \(s_i\)、日历年份 \(c_i\) 查得。
- \(h_{\text{excess}}(t|\mathbf{x}_i)\):归因于癌症的超额 hazard,是 目标量。
- 总 hazard:\(h(t|\mathbf{x}_i) = h_{\text{pop}}(t; a_i, s_i, c_i) + h_{\text{excess}}(t|\mathbf{x}_i)\)。
-
似然贡献(忽略删失时为 \(f(t|\mathbf{x}_i) = h(t|\mathbf{x}_i) S(t|\mathbf{x}_i)\))。
-
模型: 本文假设一个 BART 模型用于 excess hazard。在比例风险版本中:
\[h_{\text{excess}}(t|\mathbf{x}_i) = h_0(t) \cdot \exp\big(\mu(\mathbf{x}_i)\big),\]其中 \(h_0(t)\) 是基线 excess hazard(常数或分段常数),\(\mu(\mathbf{x}_i)\) 由 BART 的 sum-of-trees 表示:\[\mu(\mathbf{x}_i) = \sum_{j=1}^m g(\mathbf{x}_i; T_j, M_j),\]每棵树 \(g\) 将协变量映射到叶节点均值(常数)。BART 设有先验正则化(避免过拟合)。非比例风险版本允许基线 \(h_0(t)\) 被分解为分段常数,且各段可被协变量调节。 -
可观测数据: 每个患者 i 可观测到 \((Y_i, \delta_i, \mathbf{x}_i, a_i, s_i, c_i)\)。删失时间独立假定。人群 hazard \(h_{\text{pop}}\) 是可查得的已知函数(非随机,被视为已知)。需要估计的只是 \(h_{\text{excess}}\)。这不同于标准生存分析(整体 hazard 全未知)。
第二步:讲最小内核¶
最简特例:假设只有两个二值协变量 \(\mathbf{x} = (x_1, x_2)\),没有删失(所有患者死亡时间被完整观测),并且假定比例风险成立且基线 excess hazard 为常数 \(h_0(t) = \lambda_0\)(不随时间变化)。那么模型简化为
核心思路:在比例假设下,超额 hazard 与基线 hazard 分离,BART 只对乘法因子建模。给定数据,似然为
这个特例去掉了一般性中的非比例风险、多元连续协变量、MCMC 细节,保留了核心数学问题——如何用 BART 对乘法因子建模,并利用已知背景 hazard 进行 MCMC 推断。
三、这篇论文做了什么¶
三句话¶
- 本文在相对生存框架下开发了比例风险 BART 模型和非比例风险 BART 模型,用于对癌症超额 hazard 进行灵活的非参数估计,同时量化变量重要性并识别高超额风险的脆弱亚群。
- 核心工具是 BART(Bayesian additive regression trees),配合 MCMC 后验抽样,对 excess hazard 中的乘法因子(比例版本)或基线 hazard 与乘法因子的乘积(非比例版本)进行建模,利用人群背景 hazard 已知这一事实简化计算。
- 主要结论:在英格兰结肠癌大样本(约 15 万患者)上应用后,模型揭示了合并症与社会经济剥夺的强交互效应,尤其是 2+ 种合并症的患者在贫困地区生存劣势极为突出,非比例风险模型比比例模型拟合更好。
关键设定与假设¶
- 可观测数据:如上节符号。附加的质量:通过数据链接获得住院记录(合并症指数 Charlson)、社会剥夺指数(IMD 五分位)、年龄、性别、诊断阶段等。
- 关键假设:
- 独立删失(和独立于协变量条件):更严格版本是删失独立于失效时间,给定协变量。
- 背景 hazard 已知且准确:来自英国国家生命表,按年龄-性别-年份分层。假设该表在癌症人群中可适用(即无偏)。
- 正确模型规范:超额 hazard 结构由 BART 近似,先验正则化防止过拟合。非比例版本进一步假设基线 hazard 分段常数,段数由先验控制。
- SUTVA-like:患者之间独立。
- 相比已有文献的放宽:传统 Dickman 模型假定比例风险且对数线性协变量效应,本文通过 BART 放松了线性/加法结构。非比例版本允许风险比随时间变化。
主要结果¶
由于本文是应用型,核心结果是数据应用中的发现,而非定理。主要量化结论:
- 变量重要性:对 11 个协变量(年龄、性别、剥夺水平、Charlson 合并症指数、诊断阶段、区域等),通过后验分裂次数和叶后验变化计算重要性。发现诊断阶段(早期 vs 晚期)和Charlson 合并症指数(0,1,2+)是最重要的两个因子。
- 脆弱亚组识别:非比例风险模型拟合显著优于比例模型(DIC 比较 + 后验预测 check)。识别出高超额风险的亚组:Charlson ≥ 2 且诊断阶段晚的患者,超额 hazard 比同阶段无合并症者高出 3~5 倍。与剥夺的交互进一步放大差距。
- 模型对比:与传统 Pohar-Perme 法比较,BART 提供了个体水平的风险预测(不再是总体净生存),且可在调整协变量后给出条件净生存曲线。
真实例子与应用¶
- 数据:英格兰国家癌症登记数据 (1995-2014),约 150,000 个结肠癌确诊患者,随访至 2015 年底。通过与住院患者管理数据库(HES)和社会经济数据链接,获得合并症信息和剥夺指数。
- 如何应用:使用比例风险与非比例风险 BART 模型拟合超额 hazard。后验抽样通过 MCMC 进行(具体细节见附录)。模型解释通过综合变量重要性(后验分裂频率加权)和部分依赖图。
- 结果:1 年净生存曲线:晚诊断 + 2+ 合并症的剥夺最高组净生存仅 25%,而早诊断 + 无合并症的富裕组达 90%。非比例模型在晚期阶段(>3 年)有较大差异。
- 例子想说明:BART 能自动发现无法被线性模型捕捉的交互(如合并症与贫穷的协同效应),同时提供可解释的工具(变量重要性、部分依赖)来支持卫生政策建议。
🔎 结论是否比证明窄¶
没有严格证明的数学定理。本文是贝叶斯计算的应用论文,没有渐近理论或最坏-case 分析。结论“非比例模型拟合更好”仅基于特定数据集和 DIC/后验预测准则,未给出通用条件;变量重要性度量是基于后验分裂计数,其统计特性(一致性、分布)未讨论。作者在文本中可能声称“确定了驱动不平等的因素”,但严格上只是模型后验的体现,未做因果推断(无控制混杂)。读者应谨慎:这是一种描述性建模,而非因果分解。
四、开放问题¶
-
因果推断版本:本文的变量重要性是预测关联而非因果效应。一个开放问题是:在相对生存框架下,如何对 excess hazard 进行因果推断(例如估计将合并症指数从 2+ 降为 0 对净生存的因果影响)?需要引入因果结构(如逆概率加权、工具变量)。扎根点:论文摘要中“identify drivers”是关联语义,未明确因果。
-
模型理论性质:BART 在 excess hazard 模型中的后验收缩性质(如一致性、收敛速度)未建立。已知对于标准 Cox BART 有部分结果(Rockova et al. 2020),但对加法分解 h_pop + h_excess 的特殊结构,需要新理论。扎根点:论文没有提供理论性质,属于纯应用。
-
变量重要度的统计可靠性:文章使用的变量重要性(基于分裂频率)是启发式且依赖于先验选择(树数量 m)。一个问题:是否存在一种基于 efficient influence function 的变量重要性估计量,用于 excess hazard 模型,使得可以构造置信区间并进行假设检验?扎根点:论文中变量重要性仅给出排序,无不确定性度量。
-
时间依赖的合并症:本文假定合并症在诊断时固定,但实际合并症随时间发展,影响后期 hazard。开放问题:如何将时变合并症纳入相对生存 BART 模型?扎根点:论文使用基线 Charlson 指数(诊断前一年内),未处理时间变化。这需要动态模型(如 joint model 或 BART with time-varying covariates)。
Maintained by 陈星宇 · Homepage · Source on GitHub