Likelihood ratio test for the disease progression model to measure saved time in Alzheimer’s disease¶

作者: Guogen Shan, Yahui Zhang, Zhixin Tang, Aidong Adam Ding
来源: Statistical Methods in Medical Research
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: University of Florida（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261424515

一、领域脉络与小综述¶

这个方向是什么？¶

这个子方向解决的根本问题是：在无法获取患者个体水平数据的条件下，如何利用已发表文献中的汇总统计量（如均值、方差、样本量）来检验一种新型治疗是否能够显著延缓阿尔茨海默病的疾病进展。其成熟度中等——该方向的核心概念“节省时间”（saved time）在阿尔茨海默病临床试验领域已被部分研究者使用，但标准推断方法要么依赖个体数据（可及性差），要么使用效率较低的 Wald 型检验。本文试图引入似然比检验来填补这个缺口。

发展脉络¶

根据论文的引用与作者 framing，可以将相关工作的历史梳理如下：

奠基工作：提出“节省时间”概念与投影估计方法。
- Romero et al. (2017)：提出了“节省时间”作为阿尔茨海默病临床试验中的治疗效应度量。其核心想法是，如果治疗延缓了疾病进展，那么与安慰剂相比，治疗组患者达到某一疾病严重程度的时间会更晚。他们提出用投影方法（projection approach）来估计节省时间：将治疗组的最后一个观测值投影到安慰剂组的疾病进展曲线上，从而得到一个“时间差”。这个方法直接、直观，但需要个体水平数据来拟合完整的疾病进展模型。
主要进展：疾病进展模型的参数化与个体数据推断。
- Chen et al. (2019) 和 Li et al. (2021)：开发了专门用于评估阿尔茨海默病治疗效果（尤其是疾病修饰疗法）的疾病进展模型（Disease Progression Models, DPMs）。这些模型通常假设疾病进展是一个参数化（如线性、S形）的随机过程，处理效应体现为加速或延缓这个进程。它们能够进行更精细的分析（如处理个体异质性），但依然依赖于患者水平的纵向数据，这在实际中（例如，当研究者只能访问已发表文献的总结表时）往往难以获得。
当前 frontier：利用汇总统计量进行推断。
- 在未能识别的过渡阶段，存在一种“投影方法”的变体，它不依赖完整的个体数据，而是只使用治疗组最后一个时间点的均值和安慰剂组的整条均值曲线来估算一个点估计。然而，这种点估计缺乏相应的假设检验工具，无法给出统计显著性。
- Wang et al. (2023) (标题中未直接出现，但从行文推断)：是本文的直接前驱，提出了一个基于 Wald 检验的方法。该方法专门设计用于汇总统计数据，它通过对节省时间的点估计构造一个 Wald 统计量（点估计/标准误）来检验零假设。这是第一个将假设检验框架引入汇总统计场景的工作，但它存在明显的局限性：它依赖于点估计的大样本正态性，且 Wald 统计量在有限样本下（特别是信号较弱时）功效低下。
本文的位置：
- Shan et al. (2024) (本文)：在 Wang et al. (2023) 的 Wald 检验基础上，提出了一个基于似然比（LR）框架的替代检验方法。它放弃了“先估计节省时间，再检验”的路径，而是直接对治疗组和安慰剂组的汇总统计量构建一个参数似然，然后检验“治疗是否有效”（即疾病进展曲线是否发生时间平移）。作者声称，当安慰剂组后期进展较慢时，提出的 LR 检验在统计功效上显著优于 Wald 检验。

子线索聚类¶

基于完整个体数据的方法：使用投影方法（Romero 2017）或疾病进展模型（Chen 2019, Li 2021）。优点是信息丰富，可以进行精确估计和复杂假设检验；缺点是数据可获得性差，限制了其被后续研究者大规模复现和应用的潜力。
基于汇总统计量的方法：包括 Wang (2023) 的 Wald 检验和本文的 LR 检验。优点是利用公开可得的汇总数据进行二次分析，可及性高；缺点是信息损失导致功效可能低于个体数据方法，且检验的有效性依赖于回归模型设定（如抽取汇总统计的模型是否与作者假设的一致）。
（可疑的缺失线索）非参数/半参数方法：对于“节省时间”这个估计量，现有的所有方法（包括个体的和汇总的）都依赖于一个强假设——疾病进展曲线是完全已知的参数形式（线性、Logistic、特定指数衰减等）。该领域完全没有探讨是否能在更少假设下识别和检验这个效应，这可能是研究者自己的兴趣点。

核心问题与瓶颈¶

核心问题1（识别与建模）：“节省时间”的统计模型是什么？即，我们如何在给定汇总统计数据（如各时间点的均值和方差）的条件下，将“疾病进展曲线在时间轴上平行平移”这个因果想法形式化为一个可检验的统计假设？
核心问题2（检验效率）：相对于个体数据方法，使用汇总统计量需要支付多少信息损失？这种损失如何量化为检验功效的下降？有没有比 Wald 和 LR 更好的检验（例如，通过对构造性统计量的有效组合）？
核心问题3（模型依赖）：这些方法对疾病进展模型（线性、非线性、方差结构）的错误设定有多敏感？这种敏感性在不同方法（Wald vs. LR）上是否一致？
当前瓶颈：所有基于汇总统计量的方法都隐含地假设提取汇总统计的原假设模型与作者用于构建似然的模型一致。当安慰剂组进展函数是高度非线性时（如出现平台期、加速期），构造的 LR 检验可能严重误导。本文的模拟承认了这一点（只在“安慰剂后期进展较慢”时好），但它没有提供诊断或稳健版。

⚠️ 作者的 framing¶

这是作者的说法：作者 frame 的核心缺口是“从汇总统计量进行推断的方法缺失”。他们宣称，个体数据方法 (Chen 2019, Li 2021) 虽好，但实际中由于各种原因难以获得个体数据，因此必须开发一种仅依靠已发表汇总数据的方法。他们将自己的工作定位为一个“显然的下一步”：既然 Wang (2023) 提出了第一个汇总统计的 Wald 检验，那么提出一个更好（更 powerful）的 LR 检验自然是该领域的进化方向。
被淡化的路线：作者几乎完全回避了“如何放松疾病进展曲线参数形式假设”的问题。在它们的模拟中，模型是精确的（真实模型嵌入在所有设定内）。他们完全没有讨论模型错误设定的后果，也没有对非参数或半参数方法进行任何提及。
明显该被引或该存在却没有出现在介绍中的：这是一个偏传统的应用统计学方向，没有内在的张力。但有一个在统计理论上非常明显的缺失是：作者没有把他们的工作放入假设检验（特别是 Wald 检验 vs. LR 检验）的经典有限样本最优性理论中去讨论。Wald 和 LR 检验在常规的条件下是等价的（一阶等价），但它们在小样本下的差异（如 Bartlett 校正）以及哪个更优，完全取决于具体的模型和数据生成过程。作者在此只是做了简单的模拟比较，没有在理论上说明为什么在“安慰剂后期进展慢”时 LR 更好。

张力¶

未见明显对立引用：所有被引工作都指向一个共同的目标——评估阿尔茨海默病临床试验中的治疗效应，且彼此之间没有呈现矛盾和相反结论。

二、最核心、最简单的例子 / 数学问题¶

本章我们先交代所有记号，然后给出最小特例，把 LR 检验的核心思想讲清楚。

第一步：符号、模型与可观测数据¶

符号：

\( T \)：时间点索引（通常为临床试验的访问次数），例如 \( t = 0, 1, \dots, K \)。\( t=0 \) 是基线（基线）。
\( Y_{it} \)：患者 \( i \) 在时间点 \( t \) 的疾病严重程度测量值（例如，CDR-SB 评分）。这是一个可观测的随机变量。
\( \bar{Y}_{gt} \)：治疗组 \( g \)（\( g=0 \) 表示安慰剂；\( g=1 \) 表示治疗组）在时间点 \( t \) 的观测到的均值。这是一个可观测的汇总统计量。
\( s^2_{gt} \)：治疗组 \( g \) 在时间点 \( t \) 的观测到的样本方差。这是一个可观测的汇总统计量。
\( n_g \)：治疗组 \( g \) 的样本量。这是已知的。
\( \mu_g(t) \)：治疗组 \( g \) 在时间点 \( t \) 的真实均值。这是要估计的参数（目标）。
\( \sigma^2_g(t) \)：治疗组 \( g \) 在时间点 \( t \) 的真实方差。这是一个未知的尺度参数。
\( \Delta \)：“节省时间”参数。这是治疗效应的核心度量。在本文的模型中，它代表治疗相对于安慰剂延缓疾病进展的时间量（例如，治疗组患者疾病进程比安慰剂组晚 \( \Delta \) 年发生）。这是要检验的 estimand。

模型（最简版本——线性进展）：

疾病进展模型：假设安慰剂组的疾病进展是时间 \( t \) 的线性函数：
\[\mu_0(t) = \alpha + \beta t\]
其中 \( \alpha \) 是基线均值，\( \beta \) 是进展速率（可正可负，取决于测量指标，这里假设正向恶化，所以 \( \beta > 0 \)）。
治疗效应模型：假设治疗延缓了疾病进展，这意味着治疗组的患者在时间 \( t \) 的真实均值，等于安慰剂组患者在那个疾病严重程度所对应的“真实时间”的均值。用数学表达为：
\[\mu_1(t) = \mu_0(t - \Delta) = \alpha + \beta (t - \Delta) = (\alpha - \beta\Delta) + \beta t\]
即，治疗组在时间 \( t \) 的真实均值，等于安慰剂组在时间 \( t-\Delta \) 的真实均值。
观测模型：在每个时间点 \( t \)，\( n_g \) 个患者（独立同分布于一个总体）的观测值 \( Y_{it} \) 的均值，即 \( \bar{Y}_{gt} \)，被认为近似服从正态分布：
\[\bar{Y}_{gt} \stackrel{\text{approx}}{\sim} \mathcal{N}(\mu_g(t), \frac{\sigma^2_g(t)}{n_g})\]
【这是核心假设：论文假定我们知道如何从汇总数据中提取样本均值的分布，或者我们可以使用大样本近似。】并且，作者进一步简化，假设各时间点的方差已知且常数（或从汇总统计中估算），并且独立于时间点（即 \( \sigma^2_g(t) = \sigma^2_g \)）。

可观测数据：

研究者实际能看到的就是： * 安慰剂组：每个时间点 \( t \) 的均值 \( \bar{Y}_{0t} \) 和方差 \( s^2_{0t} \)，以及样本量 \( n_0 \)。 * 治疗组：仅最后一个时间点 \( t=K \) 的均值 \( \bar{Y}_{1K} \) 和方差 \( s^2_{1K} \)，样本量 \( n_1 \)。

潜在的/不可观测的： * 个体患者数据 \( Y_{it} \)。 * 治疗组在每个中间时间点（\( t < K \)）的真实均值 \( \mu_1(t) \) 和方差 \( \sigma^2_1(t) \)。

第二步：最小内核——一个单个时间点的 LR 检验¶

设想一个最简单的场景：患者随机分配到安慰剂组（0）或治疗组（1）。我们只有两个观测测量点：基线 \( t=0 \) 和最后一次访问 \( t=K \)。我们想检验治疗是否延缓了疾病进展。

假设： 基线均值为0，且两组基线均值相等（由于随机化，没问题）。疾病进展是线性的，速率 \( \beta \) 未知。治疗使得进展时间向后平移了 \( \Delta \)（即，治疗组的患者疾病程度相当于安慰剂组 \( \Delta \) 时间前的患者）。

等价于： * 安慰剂组：\( \bar{Y}_{0K} \sim \mathcal{N}(\beta K, \sigma^2 / n_0) \) * 治疗组：\( \bar{Y}_{1K} \sim \mathcal{N}(\beta (K - \Delta), \sigma^2 / n_1) \)

【注意】：在这个简化中，我们唯一能用来估计 \( \beta \) 的是安慰剂组的均值。我们唯一能用来检验 \( \Delta=0 \) 的是治疗组的均值与安慰剂组均值的偏离。

零假设 \( H_0: \Delta = 0 \) 下： * 治疗组均值与安慰剂组均值之差的期望是 \( \beta K - \beta K = 0 \)。 * 组均值之差：\( \bar{Y}_{1K} - \bar{Y}_{0K} \sim \mathcal{N}(0, \sigma^2(1/n_0 + 1/n_1)) \)。

备择假设 \( H_1: \Delta > 0 \) 下： * 治疗组均值与安慰剂组均值之差的期望是 \( \beta (K - \Delta) - \beta K = -\beta\Delta \)。

现在，构建似然比。由于只有两个汇总统计量 \( (\bar{Y}_{0K}, \bar{Y}_{1K}) \)，且他们独立（不同患者）。

原始似然：

\[L(\beta, \sigma^2) = \prod_{g=0,1} \frac{1}{\sqrt{2\pi \sigma^2 / n_g}} \exp\left( -\frac{n_g}{2\sigma^2} (\bar{Y}_{gK} - \mu_g)^2 \right)\]

其中，在 \( H_0 \) 下，\( \mu_0 = \beta K, \mu_1 = \beta K \)；在 \( H_1 \) 下，\( \mu_0 = \beta K, \mu_1 = \beta (K-\Delta) \)。

在零假设下压缩参数： 当 \( H_0 \) 为真时，模型简化成：\( \bar{Y}_{0K} \sim \mathcal{N}(\theta, \sigma^2/n_0) \)，\( \bar{Y}_{1K} \sim \mathcal{N}(\theta, \sigma^2/n_1) \)，其中 \( \theta = \beta K \)。

在备择假设下（无约束）： \( \bar{Y}_{0K} \sim \mathcal{N}(\theta_1, \sigma^2/n_0) \)，\( \bar{Y}_{1K} \sim \mathcal{N}(\theta_2, \sigma^2/n_1) \)，其中 \( \theta_1 \) 和 \( \theta_2 \) 可不同。检验 “\( H_0: \theta_1 = \theta_2 \)”。

LR 检验统计量： 在已知方差 \( \sigma^2 \) 的情况下，似然比统计量是：

\[\Lambda = \frac{L(H_0)}{L(H_1)}\]

在两组方差异常和样本量固定的情况下，这实质上等价于两样本 z 检验的平方：\( z^2 \)。实际上，对于线性模型和固定的方差，LR 检验退化为我们可以通过最小二乘法直接检验的 *t 检验（或 z 检验）。

核心思想很简单： 1. 作者将“疾病进展的时间平移”这个因果假设，转化成了一个在治疗组和安慰剂组最后时间点上均值差异的观察性统计假设。 2. 如果他们能够观测到所有时间点的治疗组数据，他们可以用完整的似然（包含多条曲线）来提高检验功效。 3. 当只有最后时间点时，LR 检验（在这里退化为经典的 z 检验）与 Wald 检验是完全等价的。但为什么在更一般的模型中（有多个中间时间点），两者会不同？ * 本文的贡献在于： 他们考虑了更复杂的、非线性的疾病进展模型，并且利用治疗组的多个时间点（但仍是汇总统计） 来计算自由度更丰富的似然。在非线性的模型下（比如 Logistic 或指数衰减），Wald 和 LR 检验在有限样本下的表现会截然不同——这正是本文模拟后的发现。在非线性模型中，点估计（Wald）的分布可能非常歪斜，而 LR 检验的卡方近似可能更好。但最小内核进一步说明：他们核心的创新是构造了一个统计模型，使 LR 检验变得可行。

三、这篇论文做了什么（现状把握）¶

三句话¶

研究问题：针对阿尔茨海默病临床试验，开发一种仅需使用已发表的汇总统计量（组均值、方差、样本量）就能检验治疗是否延缓疾病进展的假设检验方法。
核心方法：在“疾病进展曲线在时间轴上平行平移”的模型假设下，利用汇总统计量构建一个参数似然函数，然后使用似然比（LR）统计量来检验零假设 “\( \Delta = 0 \)”。
主要结论：模拟研究表明，在安慰剂组后期进展速率较慢（疾病进展曲线在后期是平台期形态）的设定下，所提 LR 检验的统计功效显著高于现有的 Wald 检验（Wang et al. 2023）。在 data 实例（donanemab 试验）中，该检验可复现并定量化利好信号的统计显著性。

关键设定与假设¶

模型设定：首先，作者假设疾病进展曲线是已知的参数形式。例如，他们考虑线性 \( \mu(t) = \alpha + \beta t \) 和 Logistic 进展 \( \mu(t) = \frac{L}{1 + \exp(-\gamma(t-t_0))} \) 两种。治疗效应仅通过时间平移 \( \Delta \) 体现：治疗组的实际曲线就是安慰剂组曲线向右平移 \( \Delta \)。治疗在每个时间点的影响是等比例的（相同的时间延迟）。这个假设很关键：它排除了“治疗改变了进展的斜率”这种模式。
汇总统计量的可用性：这是最重要的设定。他们假定可以从已发表的结果中获得每个治疗组、每个时间点的均值和方差（\( s^2_{gt} \)）。同时，也要求知道每个时间点的样本量 \( n_{gt} \)。特别地，对于治疗组，他们仅使用最后一个时间点的数据（即 \( t = K \)），而不使用所有中间时间点的均值方差。这是一个强有力的简化：他们认为治疗组的最后访问数据是最重要且最容易获得的。
正态性假设：他们假定在时间点 \( t \)，患者测量值的均值（即汇总统计量 \( \bar{Y}_{gt} \)）服从正态分布。这是他们构建似然函数的基础。这意味着他们认为抽样误差足够大，可以应用中心极限定理。
方差已知：实际上他们用样本方差 \( s^2_{gt} \) 来代替真实方差 \( \sigma^2 \)，从而将问题简化为“方差已知”的正态分布模型。这是构建简单 LR 检验的常规技巧。
相对现有文献的变化：与个体层级的疾病进展模型（Chen 2019）相比，本工作放弃了“可以利用所有个体轨迹来建模异质性和方差结构”的灵活性。与 Wald 检验（Wang 2023）相比，它没有直接对点估计（节省时间）构造 Wald 统计量，而是构建了似然比——这是它们在检验效率上产生差异的根本原因。

主要结果（理论型分析，但论文本身是应用型，重点在模拟）¶

结果 1：LR 检验的构建（渐近分布）
- 陈述：在零假设 \( H_0: \Delta = 0 \) 下，并且当参数模型正确设定时，似然比统计量 \( -2 \log \Lambda \) 收敛于 \( \chi^2_1 \) 分布（一个自由度）。
- 直觉：这是似然比检验的大样本性质。这里的“自由度”源于我们在 \( H_0 \) 下约束了一个参数（\( \Delta \)）。
- 必要条件：样本量足够大；且汇总统计量的正态近似是合理的。模型一定是正确的。
结果 2：模拟研究——功效比较
- 陈述：在一系列模拟场景下，本文提出的 LR 检验的统计功效高于 Wang (2023) 的 Wald 检验。
- 核心发现：这种优势并非普遍成立，而是在安慰剂组后期进展速率较慢（即疾病进展曲线在后期呈现一个“平台期”）时尤为显著。
- 技术难点：为什么在“平台期”设定下，LR 检验表现更好？作者的解释是（从论文的行文推断）：在平台期，Wald 检验基于点估计（节省时间）的分布是高度非对称的（因为当进展曲线接近于平缓时，点估计的方差会变得异常大，或者点估计本身有偏向），这导致 Wald 统计量无法有效地近似卡方分布，因而功效下降。相反，LR 检验利用了整个似然函数，直接计算概率密度之比，对这类非线性带来的小样本分布歪斜问题更稳健。他们没有在理论上证明这一点，而是通过模拟展示了它。

真实例子¶

数据：作者使用了donanemab 的 III 期临床试验（TRAILBLAZER-ALZ 2）的已发表汇总数据。该试验是一个在早期症状性阿尔茨海默病患者中评估 donanemab（一种抗淀粉样蛋白 β 的抗体）疗效的随机、双盲、安慰剂对照研究。
方法应用：他们从这篇发表论文的表格中提取了安慰剂组和 donanemab 组在各个时间点（如 6 个月、12 个月、18 个月、24 个月）的CDR-SB（临床痴呆评定量表-总和盒子）评分的均值和方差，以及样本量。他们没有触及个体数据。接着，他们拟合了一个事先选定的疾病进展模型（比如线性模型），并利用最后时间点（如24个月）的治疗组和安慰剂组的均值和方差，来实施他们的 LR 检验。
结果：他们的 LR 检验在 donanemab 组与安慰剂组之间检测到了一个具有统计显著性（\( p < 0.05 \)）的“时间节省”。检验的结果与原始试验的主要分析（基于个体数据，多重比较校正）方向一致，但原文并未给出点估计的“节省时间”数值，只是给出了检验的 p 值。这说明他们提出的方法成功地从汇总数据中复现了关键结论。
例子想说明什么：这个例子展示了该方法的实用性——它使研究者能够二次分析公开可得的试验总结，无需访问昂贵、受限的个体数据。它同时验证了方法的统计显著性结果，表明该方法有潜力作为一个有效、可行的二次分析工具。

🔎 结论是否比证明窄¶

是一个比证明窄的泛化：作者的设定是治疗组只使用最后一个时间点的数据。这个假设是出于实用性的考虑（早期中期数据公开得更少）。但是，在结论里，他们却说“提出的检验可用于从公开出版的汇总数据中判断治疗是否有延缓疾病进展的效果”。
- 具体语句：“We propose to develop a likelihood ratio (LR) test to assess whether a new treatment can delay disease progression in time ... by using the summary statistics from the published results instead of patient level data.”
- 问题：如果一个已发表的论文不仅提供了最后时间点，还提供了每一个时间点（比如基线和所有中期访问）的可供读取的平均值和方差，那么本文的方法是否仍然是最优的？作者完全没有讨论这一点，而是将它视为“更复杂的数据可用性”问题而不予考虑。在他们的模拟中，他们事实上只用了最后一个时间点的数据。如果一个人获得了所有时间点的数据，也许一个更复杂的 LR 检验（例如，拟合多变量正态似然，或用非参数方法建模整条曲线）会更好。所以，作者在这个更窄的设定下证明的结论（当只有最后一个时间点可用时，LR 好于 Wald）被他们没有验证地泛化到一个更广泛的可用数据场景中。

四、开放问题¶

完全的稳健性检验：本文提出的 LR 检验严重依赖疾病进展曲线（模型）的已知假设。当选择的模型（线性或 Logistic）与真实数据生成机制不符时（例如，真实曲线是既有平台期又有加速下跌的复杂形态），其检验功效和 type I error 率会如何变化？这与“总结数据 + 唯一的一个时间点”这种高度压缩方案固有的适应性问题直接相关。（扎根于文中对模拟设定的选择——仅在线性和一种特定非线性下做了比较）。
回到完整的汇总（多维度、多时间点）：本文为了获取简单易用的似然而未使用治疗组的所有时间点的汇总统计（而不是只用了最后一个）。如果把所有时间点的均值方差序列视为一个多变量正态向量，并基于真实的[协方差结构（例如，来自个体数据的 GEE 或线性混合模型），构造一个更完整、信息更丰富的 LR 检验，是否可能获得更高的功效？（扎根于论文对“只有最后一次访问”这个强假设的依赖）。
超越“时间平移”的效应形式：疾病进展的延缓可能不仅表现为整个曲线在时间轴上的平移，还可能表现为进展速率的改变（如斜率变缓）。本文的模型不能区分这两种效应。能否对汇总统计量构建一个嵌套模型的 LR 检验（例如，检验 \( H_0: \) 纯粹是时间平移 vs. \( H_A: \) 至少还包括了斜率变化）？（扎根于模型：作者选择固定斜率但平移时间；分析结果的单一维度——时间节省）。
与其他汇总数据检验的更深层对比：本文只与 Wald 检验进行了比较。但有没有其他基于汇总统计的检验能做得更好？例如，在安慰剂组只有一个时间点，治疗组也只有一个时间点的情况下，能不能构造一个简单的 t 检验来检验组间均值差异？这在逻辑上等价于他们的 LR 检验。作者没有在理论上讨论为什么在回归框架下构造的 LR 检验比更普通的组间均值检验更好（在什么情况下 p-value 更小？）。所以一个开放问题是：本文构造的似然是否真的优于一个最直接的、不依赖于任何模型的两个均值的比较？（扎根于文章缺乏与最简单的组间均值 t 检验的对比）。

Maintained by 陈星宇 · Homepage · Source on GitHub