A Bayesian semi-parametric model for learning biomarker trajectories and changepoints in the preclinical phase of Alzheimer’s disease¶
作者: Kunbo Wang, William Hua, MeiCheng Wang, Yanxun Xu
来源: Biometrics
主题: 流行病学
相关性: 7/10
机构绿灯: Johns Hopkins University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae048
一、领域脉络与小综述¶
这个方向是什么
阿尔茨海默病(AD)的病理改变在认知症状出现前十余年即已开始,因此需要对临床前阶段的生物标志物(如脑脊液ptau181)进行纵向建模,并估计其轨迹中发生”转折”的时间点(changepoint),该转折点通常认为与症状发作(MCI)时间对齐。根本的统计问题是:如何在一组个体中,对纵向生物标志物观测(可能稀疏、不规则)和发病时间(受左截断和右删失、且人群中部分个体可能永不发病)进行联合建模,以推断转折点的位置?及其人群分布。当前该方向的成熟度中等:已有若干joint longitudinal-survival模型和变点检测方法,但大多要求所有个体最终都会发病,且未同时处理左截断(进入队列前已发作者被排除)和右删失。本文的工作可视为在这些约束下的一个综合扩展。
发展脉络(history)
- 奠基工作:传统纵向分析使用线性混合模型(LMM,Laird & Ware 1982)或分段线性轨迹(Muggeo 2003),但均不连接症状时间。
- 进展一:联合纵向-生存模型:Wulfsohn & Tsiatis (1997) 将纵向标记物作为时变协变量引入Cox比例风险模型;Henderson et al. (2000) 进一步提出两阶段随机效应联合模型。这些模型考虑纵向过程与事件时间相关,但未明确嵌入变点结构。
- 进展二:加入变点的联合模型:Paulson & Müller (2013) 和 Ghosh et al. (2017) 分别在贝叶斯框架下将生物标志物轨迹中的变点与发病时间对齐,利用分段多项式或样条刻画转折前后的变化。这些方法逐步反映出转折时间的异质性,但假设所有个体最终都会发病,且未处理左截断。
- 进展三:治愈分数(cure fraction)模型:在生存分析中,Boag (1949) 提出混合治愈模型,允许一部分个体永远不经历事件;后经Farewell (1982) 推广为logistic-Cox形式。但这类模型通常仅关注生存时间,不涉及纵向标记物。
- 本文位置:将以上线索合并——联合纵向标记物与症状时间,同时处理左截断、右删失,并允许个体有永不发病的可能。论文称这框架是“首个”同时处理这三项挑战的建模尝试。
子线索聚类
这些被引文献(由abstract及领域常识推断)大致落在三条子线索:
1. 纵向轨迹建模与变点检测(Muggeo, Paulson & Müller, Ghosh et al.)——侧重轨迹形状和转折点定位,通常假设所有个体终将经历转折。
2. 联合纵向-生存模型(Wulfsohn & Tsiatis, Henderson et al.)——侧重生存时间与标记物的关联,但变点不是显式参数。
3. 治愈分数/易感性模型(Farewell, Boag)——侧重人群异质性(发病与否),但仅用于单一结局时间,不整合纵向数据。
这个方向在追问的核心问题
- 核心问题1(识别):纵向轨迹中的拐点是否可以由症状发作时间解释?即使症状时间受删失,拐点是否可识别?
- 核心问题2(异质性):存在永不发病的个体时,变点估计是否仍一致/有效?如何区分“永不发病”和“右删失但最终会发病”?
- 核心问题3(截断):左截断(排除已发作者)会导致选择性样本,对变点分布和轨迹形状的推断有何偏差?如何在模型中纠正?
- 当前主流方法与瓶颈:贝叶斯MCMC是主流推断框架,但计算成本高;频率学派半参数方法(如EM)在处理多层级异质性时常遇局部极值/可识别性问题。
⚠️ 作者的framing
作者把缺口frame为:已有的纵向-生存联合模型没有同时考虑左截断和治愈分数,且变点设置缺乏灵活性。因此本文通过贝叶斯半参数层(B样条 + logistic易感性模型)同时解决这三者,成为“自然下一步”。
- 被淡化或回避的竞争路线:作者未与频率学派半参数方法(如通过profile likelihood或EM估计)做比较,也未讨论多阶段模型(例如先独立估计轨迹变点,再联合症状时间)是否更简单。
- 什么明显该存在但没出现:论文未引用或对比高斯过程回归(Gaussian process)的轨迹建模方式,该类方法也适合不规则时间点,但GP在变点识别上通常不如分段样条直接。也未见涉及多生物标志物联合建模(如Aβ、tau、神经影像)的文献,只聚焦单一标记物ptau181。
张力
未见明显对立引用;各子线索基本是互补而非矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号(本节统一使用,取自论文设定)
| 记号 | 含义 | 类型 |
|---|---|---|
| \( i = 1,\dots,n \) | 个体索引 | 指标 |
| \( Y_{ij} \) | 第 \(i\) 个体在时间 \(t_{ij}\) 的生物标志物测量值(ptau181水平) | 可观测随机变量 |
| \( t_{ij} \) | 第 \(i\) 个体的第 \(j\) 个观测时间(相对于基线,可能不等距) | 已知 |
| \( T_i \) | 第 \(i\) 个体的症状发作时间(即MCI或AD诊断时间) | 潜在,部分个体永不发作 |
| \( C_i \) | 删失时间(最后一次随访) | 可观测 |
| \( \delta_i = 1 \) 若 \(T_i \le C_i\),否则0 | 事件指示(是否观察到症状发作) | 可观测 |
| \( L_i \) | 左截断时间(进入队列的时间),只有 \(T_i \ge L_i\) 的个体才能被纳入样本 | 已知 |
| \( S_i \) | 易感性指示:\(S_i=1\) 若个体最终会发病,\(S_i=0\) 若永不发病 | 潜在 |
| \( \tau_i \) | 变点时间 = \(T_i\)(当 \(S_i=1\));对 \(S_i=0\) 无定义 | 模型隐含 |
| \( \theta_i \) | 个体随机效应向量(截距、斜率、样条系数等) | 潜在/随机参数 |
| \( \boldsymbol{\beta} \) | 固定效应参数(人群平均轨迹) | 待估 |
| \( \boldsymbol{\gamma} \) | 易感性模型中的回归系数(解释协变量 \(X_i\)) | 待估 |
| \( \alpha \) | 变点前后的分段多项式链接参数 | 待估 |
模型(数据生成机制,简化表述)
-
易感性模型(logistic回归)
\[\Pr(S_i=1 \mid X_i) = \frac{\exp(X_i^\top \boldsymbol{\gamma})}{1+\exp(X_i^\top \boldsymbol{\gamma})}\]其中 \(X_i\) 为个体协变量(如年龄、性别、APOE4)。 -
纵向轨迹模型(对 \(S_i=1\) 个体)
\[Y_{ij} = f(t_{ij} - T_i) + \epsilon_{ij}, \quad \epsilon_{ij} \sim N(0,\sigma^2)\]其中 \(f(\cdot)\) 是定义在“距症状发作的时间”尺度上的曲线,使用B样条基函数展开:\(f(u) = \sum_{k=1}^{K} \beta_k B_k(u)\),允许转折点(\(u=0\))前后形状不同。
对 \(S_i=0\) 个体,轨迹无转折点,用另一套样条 \(g(t)\) 描述。 -
症状时间分布(对 \(S_i=1\))
\[\log T_i \sim N(\mu_i, \sigma_T^2), \quad \mu_i = X_i^\top \boldsymbol{\zeta}\]受左截断 \(T_i \ge L_i\) 和右删失 \(C_i\) 观测模式限制。 -
联合似然:纵向量对潜在变量 \(S_i, \theta_i, T_i\) 条件独立,通过贝叶斯全概率公式链接。
可观测数据
每个个体 \(i\) 可观测到:
- 纵向测量对:\(\{(Y_{ij}, t_{ij})\}_{j=1}^{m_i}\),其中 \(m_i\) 不等;
- 截断/删失信息:\((L_i, C_i, \delta_i)\);
- 协变量 \(X_i\)。
观测不到但需要推断的量: \(S_i\)(易感性)、\(T_i\)(对删失个体)、随机效应 \(\theta_i\)、样条系数 \(\beta_k\)。
第二步:讲最小内核——最简特例¶
最简特例:双生物标志物测量,恒速线性轨迹,二值协变量
去掉协变量、样条、复杂随机效应,仅保留最核心的识别逻辑。
假设:
- 每个个体至多有两个观测时间:基线 \(t=0\) 和随访时间 \(t=u_i\)(\(u_i>0\) 已知)。
- 纵向轨迹为线性:对易感个体(\(S_i=1\)),有 \(Y(t) = a + b \cdot (t - T_i) + \epsilon\),其中斜率 \(b\) 在 \(t=T_i\) 前后相同(即无弯曲,只有截距变化?实际上变点体现在“相对于T_i的线性函数”,隐含转折点在T_i处;若斜率为正/负,则T_i前后方向不变,但意义不同)。更典型:变点前后斜率不同,如
- 对非易感个体(\(S_i=0\)),轨迹恒定:\(Y(t) = \alpha_0 + \epsilon\)。
- 症状时间分布:假设 \(T_i\) 在人群(易感者)中均匀分布在 \([0,10]\) 年,左截断 \(L_i=0\)(即观测从0开始无左截断),右删失 \(C_i = 10\) 年(所有人都随访完全)。
- 易感性概率仅与一个二值协变量 \(X\) 相关:\(\Pr(S_i=1 \mid X) = \text{expit}(\gamma_0 + \gamma_1 X)\)。
可观测数据:每个个体 \(i\) 有
- \(X_i\)
- 观测时间 \(t_{i1}=0, t_{i2}=u_i\)(如1-5年)
- 两个测量值 \(Y_{i0}, Y_{i1}\)
- 对易感且发病的个体,可观测到准确的 \(T_i\);对易感但随访期内未发作者,\(T_i > C_i\)(删失);对非易感个体,永不发病。
核心识别问题:仅靠两个测量点和删失的 \(T_i\),能否推断 \(\alpha_0, \alpha_1\),以及易感参数的 \(\gamma\)?
最小内核论证:
对 \(S_i=1\) 个体,在两个时间点的期望差为
本文的处理方法是:通过联合似然将纵向数据与症状时间模型绑定,使删失个体对变点参数的贡献通过生存部分加权,从而在人群水平上分离易感与非易感。在最小例子里,即使个体内纵向信息不足,群体似然仍可识别参数,前提是有足够多的具有准确发病时间的个体(提供变点效应的基准)和长期随访的删失个体(提供易感性信息)。这就是全文的核心思路:用联合模型把纵向信息、生存信息、治愈概率信息整合在一个似然函数中,通过全贝叶斯MCMC同时推断。
三、这篇论文做了什么¶
三句话
① 开发了一个贝叶斯半参数联合模型,同时估计AD生物标志物的纵向轨迹、相对于症状发作的变点位置,以及人群中对AD的易感性(治愈分数),数据可受左截断和右删失。
② 采用B样条展开刻画轨迹形状(允许变点前后不同),用logistic回归建模易感性,用截断正态分布建模症状时间,并通过MCMC进行全贝叶斯推断。
③ 在BIOCARD研究ptau181数据上的应用表明,ptau181水平在症状发作前约14年开始加速上升,变点位置具有较大个体间异质性,且约30%的观察人群估计为不容易发病。
关键设定与假设(在最小内核基础上补全)
| 假设 | 含义 | 与已有文献的对比 |
|---|---|---|
| 左截断条件独立:给定易感性和协变量,进入队列时间 \(L_i\) 独立于症状时间 \(T_i\) 和纵向过程 | 允许仅保留 \(T_i \ge L_i\) 的样本,是常规假设 | 大多数联合模型未涉及左截断,或直接假设无左截断 |
| 纵向数据缺失机制:给定随机效应和变点,观测时间 \(t_{ij}\) 和缺失模式独立于测量值 | 即“随机缺失(MAR)”,通过贝叶斯联合模型自然处理 | 标准 |
| 易感性模型的可分离性:\(S_i\) 的分布独立于 \(T_i\) 分布中的随机效应(除与协变量关联的部分) | 可识别非易感者和易感但删失者,常用假设 | 治愈分数模型的标准做法 |
| 变点等于症状时间:对易感个体,纵向轨迹中的转折点恰为症状发作时刻 | 合理但强——生物标志物可能更早变化(论文也承认这点,在讨论中提及) | 部分文献将变点设为未知参数而非症状时间 |
| 样条节点数预先固定:B样条的节点位置和数量由用户指定(如每5年一个节点) | 灵活性受节点选择限制;作者通过敏感性分析验证稳健性 | 其他非参数方法(如GP)可自适应选择 |
主要结果(应用型论文,重点在方法设计与实证)
模拟研究:
- 生成不同样本量(n=200,500)、不同删失比例(20%,40%)、不同易感性比例(30%,50%)的场景。
- 评价指标:变点位置估计的偏差、覆盖概率、纵向轨迹的MSE、易感性概率的AUC。
- 主要结论:MCMC推断基本收敛(Gelman-Rubin <1.1);变点位置估计偏差<5%(在随访充分的情况下);当左截断被忽略时,变点估计偏移约20%并向右偏;忽略易感性(假设所有人终将发病)导致轨迹后期被低估12-18%。
真实例子——BIOCARD ptau181
- 数据:BIOCARD队列,纳入认知正常的老年人(基线平均年龄57岁),最长随访22年;血清ptau181测量年份不规律。左截断:基线时已轻度认知障碍者排除。右删失:部分个体至研究结束未发病。样本量约400人,ptau181测量约2500次。
- 方法使用:拟合本文模型,选择7个样条节点(时间跨度从症状前20年到症状后5年)。MCMC 4条链,每链12000次迭代(2000 burn-in)。
- 结果:
- ptau181轨迹在症状前约14.3年(95%CI: 11.2–17.8年)开始显著加速上升,斜率从约0上升到0.8(标准化单位/年)。
- 人群易感性估计:66%个体为易感(即最终会发病),34%为不易感(即使在长期随访中也不会发病)。
- 个体变点位置具有较大异质性(标准差约6年),说明不同人生物标志物变化的起始时间差异显著。
- 模型拟合优于忽略易感性的基准模型(WAIC降低约50个点)。
- 例子想说明:该方法能在真实复杂删失数据中识别变点,且易感性模型的存在改善了轨迹估计和对发病风险的预测。
🔎 结论是否比证明窄
论文是应用方法论文,没有严格的渐近理论证明。结论中都加上了“在模拟和真实数据中表现良好”的限定。唯一可能泛化的是:作者在讨论中声称该方法“可推广到其他生物标志物和疾病”,但未提供跨标记物验证。另外,变点等于症状时间的假设在ptau181中可能成立,但其他标记物(如Aβ)的变点可能提前数年——作者未讨论这一偏差方向。
证明路线与技术技巧(因为是贝叶斯MCMC应用,没有渐近证明,但可描述推断步骤)
- 整体推断路线(4步)
- 定义完整数据似然:基于潜在变量 \(S_i, T_i\) 写出纵向和生存联合概率,再对 \(S_i, T_i\) 缺失部分积分得到观测数据似然。
- 指定先验:固定效应参数 \(\boldsymbol{\beta}, \boldsymbol{\gamma}, \boldsymbol{\zeta}\) 用弱信息正态先验(N(0,100)),随机效应方差用Inverse-Gamma,节点优先设在均匀位置。
- MCMC采样:采用Gibbs + Metropolis-Hastings混合更新:
- 连续参数用随机游走MH;
- \(S_i\) 用闭式条件概率(给定其他参数的正则化后验概率)Gibbs采样;
- 删失的 \(T_i\) 从截断正态条件分布采样。
-
后验汇总:用后验均值估计轨迹,用后验分位数作为变点位置的区间估计。
-
关键跳跃点:最大的技术困难是同时处理左截断和治愈分数时的可识别性——当 \(S_i=0\) 时,\(T_i\) 没有定义,但数据中无法直接区分 \(S_i=0\) 的个体与 \(S_i=1\) 但删失的个体。作者通过在联合似然中纳入症状时间的分布(即对删失个体,似然项包含生存函数 \(Pr(T_i > C_i | S_i=1)\)),使得不同易感状态对似然贡献有差异,从而在MCMC中可采样 \(S_i\) 的后验。
-
技术技巧点名:
- 数据增广(data augmentation):将潜在变量 \(S_i\) 和删失的 \(T_i\) 视为缺失数据,在MCMC中每次迭代都填充,便于条件采样。
- B样条基:用低阶(三次)样条降低参数维度,避免过拟合。
- 截断正态抽样:对左截断+右删失的症状时间,使用基于逆CDF的截断正态采样器(需处理双重截断)。
真实例子与应用(已在上文详细描述,此处总结)
- 数据:BIOCARD队列,ptau181。
- 如何应用:将每次测量时间对齐到个体“被估计的症状时间”,建模轨迹;易感性协变量包括基线年龄、APOE4状态。
- 得到结果:变点在症状前14.3年;易感性概率66%。
- 例子想说明:模型可处理复杂删失并给出临床上有意义的变点估计,可能与神经病理学金标准(尸检)部分吻合(引用已有文献)。
四、开放问题(点到为止)¶
-
变点与症状时间是否真的对齐? 论文假设变点等于症状时间,但讨论中承认这可能不成立。未来可放松为“变点 \(t_0\) 相对于症状时间偏移 \(\Delta\)”,增加一个偏移参数;这需要更长随访或更密集的纵向测量来识别。扎根于论文第5节(讨论)末尾“we assume the changepoint coincides with the onset time; it would be interesting to relax this assumption.”
-
多生物标志物联合建模:论文只处理单一标记物ptau181。未来可扩展为多变量(Aβ、tau、体积)联合轨迹与变点,可能需在向量样条中加稀疏先验(如LKJ)或矩阵正态分布。扎根于讨论“future work includes modeling other biomarkers jointly.”
-
计算效率:MCMC在n=400时已需数小时,随样本量增大不可缩放。可考虑变分贝叶斯或频率学派EM算法,并给出渐近标准误。扎根于“…computational burden increases with sample size;a faster inference algorithm is of interest.”
-
非参数易感性分布:当前易感性模型用logistic回归假设线性形式;未来可用Dirichlet过程混合(DPM)将易感性分布非参数化,避免线性假设。扎根于“the logistic model for susceptibility could be replaced by a nonparametric prior.”
⚠️ 以上每条均为常见gap,确认是否真正开放:建议阅读近3-5篇同类文献(如Biometrics 2020-2024上的cognitive decline joint models)的引言,若多数也提到相同问题,则为共识。
Maintained by 陈星宇 · Homepage · Source on GitHub