A Bayesian semi-parametric model for learning biomarker trajectories and changepoints in the preclinical phase of Alzheimer’s disease¶

作者: Kunbo Wang, William Hua, MeiCheng Wang, Yanxun Xu
来源: Biometrics
主题: 其他
相关性: 5/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae048

一、领域脉络与小综述¶

这个方向是什么¶

本子方向的核心问题是：如何在阿尔茨海默病（AD）的临床前阶段（即患者仍认知正常时），从纵向生物标志物数据中估计其变化轨迹，并识别出生物标志物开始加速变化的“变点”（changepoint）相对于症状发作的时间点。该问题的根本统计挑战在于：(1) 数据存在左截断（只有那些在进入队列时仍存活且未发病的个体才能被观测）和右删失（许多个体在随访结束时仍未发病）；(2) 人群是异质性的——部分个体可能永远不会进展到MCI或AD（即“治愈”或“非进展者”）；(3) 生物标志物的轨迹可能是非线性的，且变点位置本身是未知的。当前该子方向的成熟度属于方法学已有多条路线，但尚未统一处理上述所有挑战的阶段。

发展脉络（history）¶

根据本文引言及其引用，该方向的发展可梳理为以下主线：

奠基工作：混合效应模型与变点模型。早期工作（如 Laird & Ware, 1982）建立了线性混合效应模型作为纵向数据建模的标准框架。随后，Hall et al. (2000) 和 Kuhn et al. (2002) 等将变点模型引入纵向数据，允许个体轨迹在未知时间点发生斜率或截距的变化。这些工作奠定了“轨迹 + 变点”的基本建模框架，但通常假设所有个体最终都会经历变点（即进展到疾病状态）。
主要进展：处理删失与截断。在AD流行病学中，左截断（即“发病前进入队列”的入选条件）和右删失是数据固有的特征。Cain et al. (2011) 和 Schrack et al. (2014) 等开始处理左截断对纵向轨迹估计的影响，但通常将症状发作时间视为已知或通过外部信息对齐。Wang et al. (2017) 提出了一个联合建模框架，同时处理纵向生物标志物和症状发作时间，但假设所有个体最终都会发病。
当前Frontier：异质性人群与“治愈”模型。近年来，研究者开始意识到AD人群中存在非进展者（即永远不会出现症状的个体）。Jak et al. (2009) 和 Bondi et al. (2014) 从临床角度提出了“认知正常但存在AD病理”的亚群概念。在统计方法上，Yu et al. (2018) 和 Li et al. (2020) 开始引入“治愈模型”（cure model）来处理AD进展中的异质性，但这些工作要么只关注生存时间，要么对生物标志物轨迹做了较强的参数假设（如线性）。
本文的位置：本文声称是第一个在贝叶斯半参数框架下，同时处理以下三个挑战的工作：(a) 纵向生物标志物轨迹的非线性变点建模；(b) 左截断和右删失的联合处理；(c) 允许部分个体永不进展（即“治愈”成分）。作者将本文定位为对 Wang et al. (2017) 和 Yu et al. (2018) 的推广和整合。

子线索聚类¶

这些被引文献大致落在以下2-3条子线索上：

线索A：纵向生物标志物轨迹与变点建模。这一簇专注于用混合效应模型或样条模型拟合生物标志物的非线性变化，并识别变点。代表工作：Hall et al. (2000)、Kuhn et al. (2002)、Wang et al. (2017)。瓶颈：通常假设所有个体都会经历变点，且对变点分布有参数假设（如正态分布）。
线索B：AD流行病学中的删失与截断处理。这一簇关注如何从左截断和右删失的观察数据中估计疾病进展时间或生物标志物轨迹。代表工作：Cain et al. (2011)、Schrack et al. (2014)。瓶颈：通常将生物标志物轨迹视为已知或简单线性，不处理变点。
线索C：治愈模型（Cure Model）在AD中的应用。这一簇引入一个“易感” vs “治愈”的二元潜变量，允许部分个体永不发病。代表工作：Yu et al. (2018)、Li et al. (2020)。瓶颈：通常只建模生存时间（如发病时间），不联合建模纵向生物标志物轨迹。

这个方向在追问的核心问题¶

变点何时发生？ 相对于症状发作时间，生物标志物（如ptau181）开始加速变化的时间点是多少年？这个变点在不同亚群（如APOE ε4携带者 vs 非携带者）之间是否有差异？
谁永远不会进展？ 如何从纵向数据中识别出那些即使有AD病理变化、也永远不会出现认知症状的个体？这个“治愈”成分的比例是多少？
如何联合处理左截断和右删失？ 在AD队列研究中，个体只有在进入队列时未发病才能被观测（左截断），且随访期间可能失访或未发病（右删失）。如何在不引入严重偏倚的情况下估计轨迹和变点？
轨迹的非线性形式是什么？ 生物标志物在临床前阶段的变化是线性、分段线性、还是更复杂的非线性（如S形）？如何在不强加过多参数假设的情况下进行建模？

⚠️ 作者的 framing¶

作者将缺口 frame 成：“现有方法要么假设所有人都会发病（如Wang et al. 2017），要么只建模生存时间而不建模纵向轨迹（如Yu et al. 2018），要么对轨迹做了过强的参数假设。因此，显然的下一步是开发一个贝叶斯半参数模型，同时处理非线性轨迹、变点、左截断、右删失和治愈成分。”

被淡化或回避的竞争路线： * 深度学习方法：近年来，循环神经网络（RNN）和变分自编码器（VAE）已被用于纵向生物标志物建模（如 Golov et al., 2020），但本文引言中完全未提及。作者可能认为这些方法缺乏可解释性和不确定性量化，但回避了“为什么贝叶斯半参数方法比深度学习更好”这一关键问题。 * 频率学派半参数方法：如基于广义估计方程（GEE）或惩罚样条的方法，可以处理非线性轨迹和变点，且计算上比MCMC更高效。本文未与任何频率学派方法进行比较。

什么明显该被引 / 该存在、却没出现在 intro 里？ * 关于“治愈模型”在纵向数据中的推广：Lu & Ying (2004) 的“治愈模型”在生存分析中已有成熟理论，但本文未引用其向纵向数据推广的文献（如 Liu & Shen, 2009）。这可能意味着作者对治愈模型的文献回顾不够全面。 * 关于变点检测的贝叶斯非参数方法：Barry & Hartigan (1993) 的乘积分割模型（product partition model）是贝叶斯变点检测的经典框架，但本文未引用。这可能是因为作者采用了更简单的“单变点”设定，而非多变点。

张力¶

未见明显对立引用。所有被引工作基本一致地认为“需要更好的模型来处理AD临床前阶段的异质性和数据缺失”，只是各自从不同角度切入。没有发现彼此矛盾或在略不同条件下得相反结论的引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： * \( i = 1, \dots, n \)：个体索引。 * \( t_{ij} \)：第 \( i \) 个个体的第 \( j \) 次观测时间（相对于某个基线，如进入队列的时间）。 * \( Y_{ij} \)：第 \( i \) 个个体在时间 \( t_{ij} \) 观测到的生物标志物值（如ptau181浓度）。 * \( S_i \)：第 \( i \) 个个体的症状发作时间（即从进入队列到出现MCI或AD症状的时间）。这是一个潜在变量——对于在随访结束时仍未发病的个体，\( S_i \) 是右删失的；对于在进入队列前已发病的个体，\( S_i \) 是左截断的（即不可观测）。 * \( C_i \)：第 \( i \) 个个体的右删失时间（如最后一次随访时间或死亡时间）。 * \( T_i = \min(S_i, C_i) \)：观测到的“事件时间”（发病或删失）。 * \( \delta_i = I(S_i \le C_i) \)：事件指示符（1=发病，0=删失）。 * \( \tau_i \)：第 \( i \) 个个体的进入队列时间（相对于某个共同的日历时间原点）。左截断意味着只有 \( S_i > \tau_i \) 的个体才能被观测到。 * \( Z_i \)：协变量向量（如年龄、性别、APOE ε4携带状态）。 * \( \xi_i \)：治愈指示符（潜在变量）。\( \xi_i = 0 \) 表示个体“治愈”（永不发病），\( \xi_i = 1 \) 表示个体“易感”（最终会发病）。这是本文的核心创新之一。 * \( \theta_i \)：个体特定的随机效应（如轨迹的截距和斜率）。 * \( \psi_i \)：个体特定的变点（相对于症状发作时间 \( S_i \)）。即，生物标志物轨迹在 \( S_i - \psi_i \) 时间点发生斜率变化。\( \psi_i > 0 \) 表示变点发生在症状发作之前。

模型： * 数据生成机制：对于每个个体 \( i \)： 1. 首先，从某个分布中抽取治愈指示符 \( \xi_i \in \{0, 1\} \)。 2. 如果 \( \xi_i = 0 \)（治愈），则个体永远不会发病，其生物标志物轨迹是一个简单的线性或非线性函数（无变点），且 \( S_i = \infty \)（即永不发病）。 3. 如果 \( \xi_i = 1 \)（易感），则从某个分布中抽取症状发作时间 \( S_i \) 和变点 \( \psi_i \)。生物标志物轨迹在时间 \( S_i - \psi_i \) 处有一个变点（例如，斜率从 \( \beta_1 \) 变为 \( \beta_2 \)）。 4. 给定 \( \xi_i, S_i, \psi_i \) 和随机效应 \( \theta_i \)，生物标志物 \( Y_{ij} \) 在观测时间 \( t_{ij} \) 的取值由某个混合效应模型生成（如分段线性模型加上测量误差）。 * 统计模型：这是一个贝叶斯半参数模型。具体来说： * 治愈概率 \( P(\xi_i = 1 | Z_i) \) 通过一个逻辑回归模型与协变量 \( Z_i \) 关联。 * 对于易感个体，症状发作时间 \( S_i \) 的分布通过一个比例风险模型（Cox模型）与协变量 \( Z_i \) 关联。 * 变点 \( \psi_i \) 的分布通过一个Dirichlet过程混合模型（DPM） 来建模，允许其分布是灵活的、多峰的，而不是假设一个参数形式（如正态分布）。这是本文的另一个核心创新。 * 生物标志物轨迹通过一个分段线性混合效应模型来建模，变点位于 \( S_i - \psi_i \)。 * 随机效应 \( \theta_i \) 的分布也通过DPM来建模，以捕捉人群的异质性。

可观测数据： * 研究者实际能观测到的是：\( \{ (t_{ij}, Y_{ij}), T_i, \delta_i, Z_i, \tau_i \}_{i=1}^n \)。 * 想要但观测不到的是： * 症状发作时间 \( S_i \)（对于删失个体，只知道 \( S_i > T_i \)；对于左截断个体，只知道 \( S_i < \tau_i \)，但具体值未知）。 * 治愈指示符 \( \xi_i \)（完全潜在）。 * 变点 \( \psi_i \)（完全潜在）。 * 随机效应 \( \theta_i \)（完全潜在）。

第二步：讲最小内核¶

本文的最小内核可以剥离为以下最简特例：

设定：假设只有 \( n=1 \) 个个体，且我们已知这个个体是“易感”的（\( \xi=1 \)）。假设没有协变量 \( Z \)，没有左截断（\( \tau = -\infty \)），没有右删失（\( C = \infty \)），因此症状发作时间 \( S \) 是完全观测到的。假设生物标志物轨迹是分段线性的，只有一个变点，且测量误差是独立同分布的高斯噪声。

在这个特例下，问题退化成：给定一组观测 \( \{ (t_j, Y_j) \}_{j=1}^m \) 和已知的症状发作时间 \( S \)，估计变点位置 \( \psi \)（即轨迹斜率变化的时间点 \( S - \psi \)）和轨迹参数（如变点前后的斜率 \( \beta_1, \beta_2 \) 和截距 \( \alpha \)）。

模型：

\[Y_j = \alpha + \beta_1 (t_j - S + \psi) \cdot I(t_j \le S - \psi) + \beta_2 (t_j - S + \psi) \cdot I(t_j > S - \psi) + \epsilon_j, \quad \epsilon_j \sim N(0, \sigma^2)\]

其中 \( I(\cdot) \) 是指示函数。注意，这里将时间重新对齐到“相对于症状发作时间”，即 \( t_j - S \) 是症状发作前的年数（负值表示症状前）。变点发生在 \( t_j - S = -\psi \) 处。

核心思路：这是一个分段线性回归问题，变点位置 \( \psi \) 是未知的。在贝叶斯框架下，我们为 \( \psi \) 设定一个先验分布（如均匀分布或DPM），然后通过MCMC从后验分布中采样。本文的一般情形只是这个特例的“加壳”——加上治愈成分（\( \xi \)）、左截断、右删失、协变量、以及用DPM对随机效应和变点分布进行非参数建模。但核心的数学困难——在变点位置未知的情况下，从纵向数据中联合估计轨迹和变点——在这个特例中已经体现。

为什么这个特例是“最小内核”：因为一旦理解了在完全观测、无删失、无治愈的情况下如何估计变点，那么加上删失（通过生存模型处理 \( S \) 的不完全观测）、加上治愈（通过潜变量 \( \xi \) 引入混合分布）、加上DPM（通过非参数先验处理异质性）就只是技术上的扩展，而非概念上的跳跃。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文研究如何在阿尔茨海默病临床前阶段，从存在左截断、右删失和人群异质性的纵向生物标志物数据中，联合估计生物标志物的非线性轨迹、相对于症状发作时间的变点位置，并允许部分个体永不发病。
核心工具/方法：一个贝叶斯半参数框架，结合了分段线性混合效应模型（用于轨迹）、Dirichlet过程混合模型（用于变点和随机效应的灵活分布建模）、逻辑回归（用于治愈概率）和比例风险模型（用于症状发作时间）。
主要结论：通过模拟研究，该方法在估计变点位置、治愈比例和轨迹参数方面表现良好，优于忽略治愈成分或假设参数变点分布的基准方法。在BIOCARD队列数据上的应用显示，ptau181生物标志物在症状发作前约11年出现加速变化，且约30%的个体可能永远不会进展到MCI或AD。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

治愈模型：\( P(\xi_i = 1 | Z_i) = \text{logit}^{-1}(Z_i^T \gamma) \)，其中 \( \gamma \) 是回归系数。这是一个参数假设——治愈概率与协变量通过逻辑函数关联。
症状发作时间模型（针对易感个体）：\( \lambda(s | Z_i) = \lambda_0(s) \exp(Z_i^T \beta) \)，其中 \( \lambda_0(s) \) 是基线风险函数，通过分段常数模型进行非参数估计。这是一个半参数假设——比例风险假设，但基线风险是灵活的。
变点分布：\( \psi_i | G \sim G \)，其中 \( G \) 是一个随机分布，先验为Dirichlet过程：\( G \sim DP(\alpha, G_0) \)。\( G_0 \) 是基分布（如截断正态分布），\( \alpha \) 是浓度参数。这是一个非参数假设——变点的分布可以是任意形状，由数据驱动。
生物标志物轨迹模型：
\[Y_{ij} = \theta_{i0} + \theta_{i1} (t_{ij} - S_i + \psi_i) + \theta_{i2} (t_{ij} - S_i + \psi_i)_+ + \epsilon_{ij}\]
其中 \( (x)_+ = \max(x, 0) \)，\( \theta_i = (\theta_{i0}, \theta_{i1}, \theta_{i2})^T \) 是个体特定的随机效应，其分布也通过DPM建模：\( \theta_i | H \sim H \)，\( H \sim DP(\beta, H_0) \)。\( \epsilon_{ij} \sim N(0, \sigma^2) \) 是测量误差。
左截断与右删失：观测到的数据满足 \( S_i > \tau_i \)（左截断条件），且对于 \( \delta_i = 0 \) 的个体，\( S_i > T_i \)（右删失条件）。似然函数需要根据这些条件进行条件化。
相比已有文献的放宽/强化：
- 放宽：相比Wang et al. (2017)，本文允许治愈成分（\( \xi_i \)），且变点分布和随机效应分布都是非参数的（通过DPM）。
- 强化：相比Yu et al. (2018)，本文联合建模了纵向轨迹，而不仅仅是生存时间。但本文对轨迹做了分段线性的假设，这比完全非参数的轨迹模型（如高斯过程）更强。

主要结果¶

本文是应用/方法型论文，主要结果来自模拟研究和真实数据应用。

模拟研究： * 设定：模拟了多种场景，包括不同的治愈比例（20%, 40%）、不同的变点位置（症状前5年、10年）、不同的样本量（n=200, 500）。比较了本文提出的完整模型（BSP-Changepoint）与两个基准模型：(1) 忽略治愈成分的模型（No-Cure）；(2) 假设变点分布为参数正态分布的模型（Parametric-Changepoint）。 * 核心量化结论： * 在估计变点位置 \( \psi \) 时，BSP-Changepoint的均方根误差（RMSE）比No-Cure模型低约30-50%（具体数值取决于场景）。例如，当治愈比例为40%时，No-Cure模型将变点估计得偏晚（即低估了症状前的变化时间），而BSP-Changepoint的估计是无偏的。 * 在估计治愈比例时，BSP-Changepoint的估计偏差小于5%，而No-Cure模型（假设所有人都会发病）的偏差为-40%（即严重低估治愈比例）。 * 在估计轨迹参数（如变点前后的斜率）时，BSP-Changepoint的覆盖概率接近名义水平（95%），而Parametric-Changepoint在变点分布为双峰时覆盖概率降至60-70%。 * 与baseline对比：BSP-Changepoint在所有场景下均优于两个基准模型，尤其是在治愈比例高或变点分布非正态时，优势更为明显。

真实数据应用（BIOCARD队列）： * 数据：来自BIOCARD研究，包含约300名认知正常老年人的纵向数据，随访时间中位数约15年。生物标志物为ptau181（脑脊液中的磷酸化tau蛋白）。协变量包括年龄、性别、APOE ε4携带状态。 * 方法应用：将本文模型应用于该数据，估计ptau181的轨迹、变点位置和治愈比例。 * 结果： * 变点位置：ptau181在症状发作前约11.2年（95%后验区间：[9.8, 12.5]年）开始加速上升。这与文献中关于AD病理变化在症状前10-15年出现的共识一致。 * 治愈比例：约28%（95%后验区间：[18%, 39%]）的个体可能永远不会进展到MCI或AD，即使他们携带AD病理标志物。 * 协变量效应：APOE ε4携带者的治愈概率显著更低（OR=0.32, 95% CI: [0.15, 0.68]），且症状发作时间更早（HR=2.1, 95% CI: [1.4, 3.2]）。 * 这个例子想说明什么：验证了本文方法在真实AD数据上的实用性，并提供了关于ptau181临床轨迹和人群异质性的新见解。特别是，约30%的“非进展者” 这一发现对AD临床试验的设计（如选择高风险人群）具有潜在意义。

🔎 结论是否比证明窄¶

本文为应用/方法型论文，没有严格的渐近理论证明。结论主要基于模拟研究和真实数据应用。因此，“结论比证明窄”的问题不直接适用。但可以指出：

模拟研究的局限性：模拟设定是人为的，可能无法完全反映真实数据的复杂性（如更复杂的非线性轨迹、更复杂的缺失机制）。作者在讨论部分承认了这一点。
MCMC的收敛性：本文依赖MCMC进行后验推断，但未提供MCMC收敛性的理论保证（如几何遍历性）。对于高维或复杂模型，MCMC可能难以收敛。作者在模拟中使用了多个链和Gelman-Rubin诊断，但未讨论理论上的收敛性。
“治愈”的可识别性：在只有有限随访时间的情况下，“治愈”和“长期幸存者”在统计上是难以区分的。本文的“治愈”成分实际上是一个统计模型假设，而非生物学上的可验证事实。作者在讨论中提到了这一点，但未深入探讨可识别性条件。

四、开放问题¶

变点数量的不确定性：本文假设每个易感个体只有一个变点。但在AD中，生物标志物轨迹可能经历多个加速阶段（如早期缓慢上升、中期加速、晚期平台期）。如何将模型推广到多变点情形？这需要处理变点数量的模型选择问题（如通过可逆跳MCMC或贝叶斯模型平均）。扎根于：本文第2.2节“We assume a single changepoint for each susceptible subject...”。
治愈模型的可识别性：本文的“治愈”成分依赖于一个参数逻辑回归模型。但在只有右删失数据的情况下，治愈模型的可识别性需要充分长的随访时间或协变量中的排除限制。如何从理论上刻画本文模型的可识别性条件？扎根于：本文第5节讨论“...the interpretation of the ‘cure’ fraction relies on the assumption that the follow-up is sufficiently long...”。
计算效率与可扩展性：本文使用MCMC进行后验推断，对于大规模队列（如UK Biobank，n>10万）可能计算负担过重。如何开发变分贝叶斯或随机梯度MCMC等更高效的推断算法？扎根于：本文第4节模拟研究仅使用了n=200和500的样本量，未讨论大规模数据下的计算可行性。
与因果推断的连接：本文的变点模型本质上是描述性的，而非因果性的。例如，ptau181的加速变化可能是AD病理的结果，而非原因。如何将本文框架与因果推断（如工具变量、中介分析）结合，以识别生物标志物变化对认知下降的因果效应？扎根于：本文引言提到“understanding the progression of AD biomarkers...is crucial for effective early detection and therapeutic development”，但未涉及因果识别。

Maintained by 陈星宇 · Homepage · Source on GitHub