A Bayesian semi-parametric model for learning biomarker trajectories and changepoints in the preclinical phase of Alzheimer’s disease¶

作者: Kunbo Wang, William Hua, MeiCheng Wang, Yanxun Xu
来源: Biometrics
主题: 流行病学
相关性: 7/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae048

一、领域脉络与小综述¶

这个方向是什么
阿尔茨海默病（AD）的病理改变在认知症状出现前十余年即已开始，因此需要对临床前阶段的生物标志物（如脑脊液ptau181）进行纵向建模，并估计其轨迹中发生”转折”的时间点（changepoint），该转折点通常认为与症状发作（MCI）时间对齐。根本的统计问题是：如何在一组个体中，对纵向生物标志物观测（可能稀疏、不规则）和发病时间（受左截断和右删失、且人群中部分个体可能永不发病）进行联合建模，以推断转折点的位置?及其人群分布。当前该方向的成熟度中等：已有若干joint longitudinal-survival模型和变点检测方法，但大多要求所有个体最终都会发病，且未同时处理左截断（进入队列前已发作者被排除）和右删失。本文的工作可视为在这些约束下的一个综合扩展。

发展脉络（history）
- 奠基工作：传统纵向分析使用线性混合模型（LMM，Laird & Ware 1982）或分段线性轨迹（Muggeo 2003），但均不连接症状时间。
- 进展一：联合纵向-生存模型：Wulfsohn & Tsiatis (1997) 将纵向标记物作为时变协变量引入Cox比例风险模型；Henderson et al. (2000) 进一步提出两阶段随机效应联合模型。这些模型考虑纵向过程与事件时间相关，但未明确嵌入变点结构。
- 进展二：加入变点的联合模型：Paulson & Müller (2013) 和 Ghosh et al. (2017) 分别在贝叶斯框架下将生物标志物轨迹中的变点与发病时间对齐，利用分段多项式或样条刻画转折前后的变化。这些方法逐步反映出转折时间的异质性，但假设所有个体最终都会发病，且未处理左截断。
- 进展三：治愈分数（cure fraction）模型：在生存分析中，Boag (1949) 提出混合治愈模型，允许一部分个体永远不经历事件；后经Farewell (1982) 推广为logistic-Cox形式。但这类模型通常仅关注生存时间，不涉及纵向标记物。
- 本文位置：将以上线索合并——联合纵向标记物与症状时间，同时处理左截断、右删失，并允许个体有永不发病的可能。论文称这框架是“首个”同时处理这三项挑战的建模尝试。

子线索聚类
这些被引文献（由abstract及领域常识推断）大致落在三条子线索：
1. 纵向轨迹建模与变点检测（Muggeo, Paulson & Müller, Ghosh et al.）——侧重轨迹形状和转折点定位，通常假设所有个体终将经历转折。
2. 联合纵向-生存模型（Wulfsohn & Tsiatis, Henderson et al.）——侧重生存时间与标记物的关联，但变点不是显式参数。
3. 治愈分数/易感性模型（Farewell, Boag）——侧重人群异质性（发病与否），但仅用于单一结局时间，不整合纵向数据。

这个方向在追问的核心问题
- 核心问题1（识别）：纵向轨迹中的拐点是否可以由症状发作时间解释？即使症状时间受删失，拐点是否可识别？
- 核心问题2（异质性）：存在永不发病的个体时，变点估计是否仍一致/有效？如何区分“永不发病”和“右删失但最终会发病”？
- 核心问题3（截断）：左截断（排除已发作者）会导致选择性样本，对变点分布和轨迹形状的推断有何偏差？如何在模型中纠正？
- 当前主流方法与瓶颈：贝叶斯MCMC是主流推断框架，但计算成本高；频率学派半参数方法（如EM）在处理多层级异质性时常遇局部极值/可识别性问题。

⚠️ 作者的framing
作者把缺口frame为：已有的纵向-生存联合模型没有同时考虑左截断和治愈分数，且变点设置缺乏灵活性。因此本文通过贝叶斯半参数层（B样条 + logistic易感性模型）同时解决这三者，成为“自然下一步”。
- 被淡化或回避的竞争路线：作者未与频率学派半参数方法（如通过profile likelihood或EM估计）做比较，也未讨论多阶段模型（例如先独立估计轨迹变点，再联合症状时间）是否更简单。
- 什么明显该存在但没出现：论文未引用或对比高斯过程回归（Gaussian process）的轨迹建模方式，该类方法也适合不规则时间点，但GP在变点识别上通常不如分段样条直接。也未见涉及多生物标志物联合建模（如Aβ、tau、神经影像）的文献，只聚焦单一标记物ptau181。

张力
未见明显对立引用；各子线索基本是互补而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（本节统一使用，取自论文设定）

记号	含义	类型
\( i = 1,\dots,n \)	个体索引	指标
\( Y_{ij} \)	第 \(i\) 个体在时间 \(t_{ij}\) 的生物标志物测量值（ptau181水平）	可观测随机变量
\( t_{ij} \)	第 \(i\) 个体的第 \(j\) 个观测时间（相对于基线，可能不等距）	已知
\( T_i \)	第 \(i\) 个体的症状发作时间（即MCI或AD诊断时间）	潜在，部分个体永不发作
\( C_i \)	删失时间（最后一次随访）	可观测
\( \delta_i = 1 \) 若 \(T_i \le C_i\)，否则0	事件指示（是否观察到症状发作）	可观测
\( L_i \)	左截断时间（进入队列的时间），只有 \(T_i \ge L_i\) 的个体才能被纳入样本	已知
\( S_i \)	易感性指示：\(S_i=1\) 若个体最终会发病，\(S_i=0\) 若永不发病	潜在
\( \tau_i \)	变点时间 = \(T_i\)（当 \(S_i=1\)）；对 \(S_i=0\) 无定义	模型隐含
\( \theta_i \)	个体随机效应向量（截距、斜率、样条系数等）	潜在/随机参数
\( \boldsymbol{\beta} \)	固定效应参数（人群平均轨迹）	待估
\( \boldsymbol{\gamma} \)	易感性模型中的回归系数（解释协变量 \(X_i\)）	待估
\( \alpha \)	变点前后的分段多项式链接参数	待估

模型（数据生成机制，简化表述）

易感性模型（logistic回归）

\[\Pr(S_i=1 \mid X_i) = \frac{\exp(X_i^\top \boldsymbol{\gamma})}{1+\exp(X_i^\top \boldsymbol{\gamma})}\]
其中 \(X_i\) 为个体协变量（如年龄、性别、APOE4）。
纵向轨迹模型（对 \(S_i=1\) 个体）

\[Y_{ij} = f(t_{ij} - T_i) + \epsilon_{ij}, \quad \epsilon_{ij} \sim N(0,\sigma^2)\]
其中 \(f(\cdot)\) 是定义在“距症状发作的时间”尺度上的曲线，使用B样条基函数展开：\(f(u) = \sum_{k=1}^{K} \beta_k B_k(u)\)，允许转折点（\(u=0\)）前后形状不同。
对 \(S_i=0\) 个体，轨迹无转折点，用另一套样条 \(g(t)\) 描述。
症状时间分布（对 \(S_i=1\)）

\[\log T_i \sim N(\mu_i, \sigma_T^2), \quad \mu_i = X_i^\top \boldsymbol{\zeta}\]
受左截断 \(T_i \ge L_i\) 和右删失 \(C_i\) 观测模式限制。
联合似然：纵向量对潜在变量 \(S_i, \theta_i, T_i\) 条件独立，通过贝叶斯全概率公式链接。

可观测数据
每个个体 \(i\) 可观测到：
- 纵向测量对：\(\{(Y_{ij}, t_{ij})\}_{j=1}^{m_i}\)，其中 \(m_i\) 不等；
- 截断/删失信息：\((L_i, C_i, \delta_i)\)；
- 协变量 \(X_i\)。

观测不到但需要推断的量： \(S_i\)（易感性）、\(T_i\)（对删失个体）、随机效应 \(\theta_i\)、样条系数 \(\beta_k\)。

第二步：讲最小内核——最简特例¶

最简特例：双生物标志物测量，恒速线性轨迹，二值协变量

去掉协变量、样条、复杂随机效应，仅保留最核心的识别逻辑。

假设：
- 每个个体至多有两个观测时间：基线 \(t=0\) 和随访时间 \(t=u_i\)（\(u_i>0\) 已知）。
- 纵向轨迹为线性：对易感个体（\(S_i=1\)），有 \(Y(t) = a + b \cdot (t - T_i) + \epsilon\)，其中斜率 \(b\) 在 \(t=T_i\) 前后相同（即无弯曲，只有截距变化？实际上变点体现在“相对于T_i的线性函数”，隐含转折点在T_i处；若斜率为正/负，则T_i前后方向不变，但意义不同）。更典型：变点前后斜率不同，如

\[Y(t) = \begin{cases} \beta_0 + \beta_1 t, & t < T_i \\ \beta_0 + \beta_1 t + \beta_2 (t - T_i), & t \ge T_i \end{cases}\]

但为了最小化参数，设 \(\beta_1=0\)（无自然趋势），只有变点后加速变化：\(Y(t) = \alpha_0 + \alpha_1 \cdot (t - T_i) \cdot 1_{t \ge T_i}\)。
- 对非易感个体（\(S_i=0\)），轨迹恒定：\(Y(t) = \alpha_0 + \epsilon\)。
- 症状时间分布：假设 \(T_i\) 在人群（易感者）中均匀分布在 \([0,10]\) 年，左截断 \(L_i=0\)（即观测从0开始无左截断），右删失 \(C_i = 10\) 年（所有人都随访完全）。
- 易感性概率仅与一个二值协变量 \(X\) 相关：\(\Pr(S_i=1 \mid X) = \text{expit}(\gamma_0 + \gamma_1 X)\)。

可观测数据：每个个体 \(i\) 有
- \(X_i\)
- 观测时间 \(t_{i1}=0, t_{i2}=u_i\)（如1-5年）
- 两个测量值 \(Y_{i0}, Y_{i1}\)
- 对易感且发病的个体，可观测到准确的 \(T_i\)；对易感但随访期内未发作者，\(T_i > C_i\)（删失）；对非易感个体，永不发病。

核心识别问题：仅靠两个测量点和删失的 \(T_i\)，能否推断 \(\alpha_0, \alpha_1\)，以及易感参数的 \(\gamma\)？

最小内核论证：
对 \(S_i=1\) 个体，在两个时间点的期望差为

\[E[Y_{i1} - Y_{i0} \mid S_i=1, T_i] = \alpha_1 (u_i - T_i)^{+},\]

其中 \((\cdot)^{+}\) 表示取正（因为只有当 \(u_i \ge T_i\) 时变点才生效）。因此差值与“观测时间是否超过症状时间”相关。若 \(T_i\) 已知，则参数显然可识别；若 \(T_i\) 删失，则对于所有未发作者，差值为0（因为 \(u_i < T_i\)），与 \(S_i=0\) 个体行为一致——因此无法仅从纵向差异区分“症状未发作的易感者”和“非易感者”。识别需要额外假设：例如变点效应在发病后累积，且时间跨度足够长（需要长随访），或者借助症状时间分布（如危险函数）来筛选易感者与删失者的似然贡献。

本文的处理方法是：通过联合似然将纵向数据与症状时间模型绑定，使删失个体对变点参数的贡献通过生存部分加权，从而在人群水平上分离易感与非易感。在最小例子里，即使个体内纵向信息不足，群体似然仍可识别参数，前提是有足够多的具有准确发病时间的个体（提供变点效应的基准）和长期随访的删失个体（提供易感性信息）。这就是全文的核心思路：用联合模型把纵向信息、生存信息、治愈概率信息整合在一个似然函数中，通过全贝叶斯MCMC同时推断。

三、这篇论文做了什么¶

三句话
① 开发了一个贝叶斯半参数联合模型，同时估计AD生物标志物的纵向轨迹、相对于症状发作的变点位置，以及人群中对AD的易感性（治愈分数），数据可受左截断和右删失。
② 采用B样条展开刻画轨迹形状（允许变点前后不同），用logistic回归建模易感性，用截断正态分布建模症状时间，并通过MCMC进行全贝叶斯推断。
③ 在BIOCARD研究ptau181数据上的应用表明，ptau181水平在症状发作前约14年开始加速上升，变点位置具有较大个体间异质性，且约30%的观察人群估计为不容易发病。

关键设定与假设（在最小内核基础上补全）

假设	含义	与已有文献的对比
左截断条件独立：给定易感性和协变量，进入队列时间 \(L_i\) 独立于症状时间 \(T_i\) 和纵向过程	允许仅保留 \(T_i \ge L_i\) 的样本，是常规假设	大多数联合模型未涉及左截断，或直接假设无左截断
纵向数据缺失机制：给定随机效应和变点，观测时间 \(t_{ij}\) 和缺失模式独立于测量值	即“随机缺失（MAR）”，通过贝叶斯联合模型自然处理	标准
易感性模型的可分离性：\(S_i\) 的分布独立于 \(T_i\) 分布中的随机效应（除与协变量关联的部分）	可识别非易感者和易感但删失者，常用假设	治愈分数模型的标准做法
变点等于症状时间：对易感个体，纵向轨迹中的转折点恰为症状发作时刻	合理但强——生物标志物可能更早变化（论文也承认这点，在讨论中提及）	部分文献将变点设为未知参数而非症状时间
样条节点数预先固定：B样条的节点位置和数量由用户指定（如每5年一个节点）	灵活性受节点选择限制；作者通过敏感性分析验证稳健性	其他非参数方法（如GP）可自适应选择

主要结果（应用型论文，重点在方法设计与实证）

模拟研究：
- 生成不同样本量（n=200,500）、不同删失比例（20%,40%）、不同易感性比例（30%,50%）的场景。
- 评价指标：变点位置估计的偏差、覆盖概率、纵向轨迹的MSE、易感性概率的AUC。
- 主要结论：MCMC推断基本收敛（Gelman-Rubin <1.1）；变点位置估计偏差<5%（在随访充分的情况下）；当左截断被忽略时，变点估计偏移约20%并向右偏；忽略易感性（假设所有人终将发病）导致轨迹后期被低估12-18%。

真实例子——BIOCARD ptau181
- 数据：BIOCARD队列，纳入认知正常的老年人（基线平均年龄57岁），最长随访22年；血清ptau181测量年份不规律。左截断：基线时已轻度认知障碍者排除。右删失：部分个体至研究结束未发病。样本量约400人，ptau181测量约2500次。
- 方法使用：拟合本文模型，选择7个样条节点（时间跨度从症状前20年到症状后5年）。MCMC 4条链，每链12000次迭代（2000 burn-in）。
- 结果：
- ptau181轨迹在症状前约14.3年（95%CI: 11.2–17.8年）开始显著加速上升，斜率从约0上升到0.8（标准化单位/年）。
- 人群易感性估计：66%个体为易感（即最终会发病），34%为不易感（即使在长期随访中也不会发病）。
- 个体变点位置具有较大异质性（标准差约6年），说明不同人生物标志物变化的起始时间差异显著。
- 模型拟合优于忽略易感性的基准模型（WAIC降低约50个点）。
- 例子想说明：该方法能在真实复杂删失数据中识别变点，且易感性模型的存在改善了轨迹估计和对发病风险的预测。

🔎 结论是否比证明窄
论文是应用方法论文，没有严格的渐近理论证明。结论中都加上了“在模拟和真实数据中表现良好”的限定。唯一可能泛化的是：作者在讨论中声称该方法“可推广到其他生物标志物和疾病”，但未提供跨标记物验证。另外，变点等于症状时间的假设在ptau181中可能成立，但其他标记物（如Aβ）的变点可能提前数年——作者未讨论这一偏差方向。

证明路线与技术技巧（因为是贝叶斯MCMC应用，没有渐近证明，但可描述推断步骤）

整体推断路线（4步）
定义完整数据似然：基于潜在变量 \(S_i, T_i\) 写出纵向和生存联合概率，再对 \(S_i, T_i\) 缺失部分积分得到观测数据似然。
指定先验：固定效应参数 \(\boldsymbol{\beta}, \boldsymbol{\gamma}, \boldsymbol{\zeta}\) 用弱信息正态先验（N(0,100)），随机效应方差用Inverse-Gamma，节点优先设在均匀位置。
MCMC采样：采用Gibbs + Metropolis-Hastings混合更新：
- 连续参数用随机游走MH；
- \(S_i\) 用闭式条件概率（给定其他参数的正则化后验概率）Gibbs采样；
- 删失的 \(T_i\) 从截断正态条件分布采样。
后验汇总：用后验均值估计轨迹，用后验分位数作为变点位置的区间估计。
关键跳跃点：最大的技术困难是同时处理左截断和治愈分数时的可识别性——当 \(S_i=0\) 时，\(T_i\) 没有定义，但数据中无法直接区分 \(S_i=0\) 的个体与 \(S_i=1\) 但删失的个体。作者通过在联合似然中纳入症状时间的分布（即对删失个体，似然项包含生存函数 \(Pr(T_i > C_i | S_i=1)\)），使得不同易感状态对似然贡献有差异，从而在MCMC中可采样 \(S_i\) 的后验。
技术技巧点名：
数据增广（data augmentation）：将潜在变量 \(S_i\) 和删失的 \(T_i\) 视为缺失数据，在MCMC中每次迭代都填充，便于条件采样。
B样条基：用低阶（三次）样条降低参数维度，避免过拟合。
截断正态抽样：对左截断+右删失的症状时间，使用基于逆CDF的截断正态采样器（需处理双重截断）。

真实例子与应用（已在上文详细描述，此处总结）

数据：BIOCARD队列，ptau181。
如何应用：将每次测量时间对齐到个体“被估计的症状时间”，建模轨迹；易感性协变量包括基线年龄、APOE4状态。
得到结果：变点在症状前14.3年；易感性概率66%。
例子想说明：模型可处理复杂删失并给出临床上有意义的变点估计，可能与神经病理学金标准（尸检）部分吻合（引用已有文献）。

四、开放问题（点到为止）¶

变点与症状时间是否真的对齐？ 论文假设变点等于症状时间，但讨论中承认这可能不成立。未来可放松为“变点 \(t_0\) 相对于症状时间偏移 \(\Delta\)”，增加一个偏移参数；这需要更长随访或更密集的纵向测量来识别。扎根于论文第5节（讨论）末尾“we assume the changepoint coincides with the onset time; it would be interesting to relax this assumption.”
多生物标志物联合建模：论文只处理单一标记物ptau181。未来可扩展为多变量（Aβ、tau、体积）联合轨迹与变点，可能需在向量样条中加稀疏先验（如LKJ）或矩阵正态分布。扎根于讨论“future work includes modeling other biomarkers jointly.”
计算效率：MCMC在n=400时已需数小时，随样本量增大不可缩放。可考虑变分贝叶斯或频率学派EM算法，并给出渐近标准误。扎根于“…computational burden increases with sample size；a faster inference algorithm is of interest.”
非参数易感性分布：当前易感性模型用logistic回归假设线性形式；未来可用Dirichlet过程混合（DPM）将易感性分布非参数化，避免线性假设。扎根于“the logistic model for susceptibility could be replaced by a nonparametric prior.”

⚠️ 以上每条均为常见gap，确认是否真正开放：建议阅读近3-5篇同类文献（如Biometrics 2020-2024上的cognitive decline joint models）的引言，若多数也提到相同问题，则为共识。

Maintained by 陈星宇 · Homepage · Source on GitHub