跳转至

Vaccine efficacy estimands and power considerations

作者: Andrea Callegaro, Nathan W. Bean
来源: Statistical Methods in Medical Research
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1177/09622802251412833


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计/科学问题是:在生存分析/临床试验(特别是疫苗效力试验)中,当比例风险假设失效时,如何定义、估计并比较具有临床可解释性的处理效应度量,并在给定度量下进行有效的试验设计(特别是样本量与功效计算)。当前该方向在应用端(临床试验设计与监管申报)已相当成熟,ICH E9(R1) 的落地推动了实务界对 estimand 的规范化;但在理论端(非 PH 设定下各种 estimand 的 semiparametric 效率界、minimax rate、以及功效排序的严格数学刻画)仍处于半参数/非参数理论介入的早期,多数结论基于模拟或特定参数族的渐近近似。

发展脉络(history): - 奠基工作:ICH E9(R1) (2019/2020) 引入了 estimand 框架,强制要求临床试验在设计阶段明确定义处理效应的目标量及应对中间事件的策略。这是整个方向的制度性起点。 - 主要进展(非 PH 下的替代 estimand): - AHR(Average Hazard Ratio):Kalbfleisch & Prentice (1981) 最早在非 PH 下提出平均风险比作为可解释的量;后续 Schemper (1992) 等对其估计进行了探讨。 - CIR(Cumulative Incidence Ratio):在竞争风险或非 PH 下,累积发病率比作为另一种直观量度被广泛讨论,如 Fine & Gray (1999) 对 subdistribution hazard 的建模间接关联了 CIR 的估计。 - RMTL ratio(Restricted Mean Time Lost ratio):Royston & Parmar (2011, 2013) 推动了受限平均生存时间(RMST)作为非 PH 下的稳健替代指标;RMTL 是其在发病/死亡语境下的对偶量。 - 当前 frontier 与功效比较:最近几年,多篇文献开始在非 PH 设定下比较不同 estimand 的检验功效。例如,Huang (2021) 等探讨了 RMST 与 log-rank 检验的功效差异;Log-rank 检验在 PH 下最优,但在非 PH 下可能严重失功。作者在 intro 中引用这些工作,指出"在非 PH 下,选择哪种 estimand 不仅要看临床解释性,还要看功效表现"。 - 本文的位置:本文将 AHR、CIR、RMTL ratio 这三种主流非 PH estimand 统一放在 ICH E9(R1) 框架下,在预防性疫苗试验的经典设定(低基线风险、高疫苗效力)中,比较它们的检验功效,并声称发现 AHR 与 CIR 功效相近、RMTL ratio 功效偏低的规律。

子线索聚类: 1. Estimand 框架与监管合规线:以 ICH E9(R1) 为核心,关注临床试验设计中的主估计量定义、中间事件处理策略(如 treatment policy / composite strategy)。被引文献如 ICH 指导原则本身、及一些解读性文章(如 Mitro et al., 2022)。 2. 非 PH 下的替代度量线:聚焦 AHR、CIR、RMTL/RMST 的数学定义、估计方法与临床解释。被引文献包括 Kalbfleisch & Prentice (1981), Royston & Parmar (2011) 等。 3. 非 PH 下的功效/样本量计算线:探讨在特定非 PH 模型(如 delayed effect, crossing hazards)下,不同检验(log-rank, RMST test, weighted log-rank 等)的功效表现与样本量折算。被引文献如 Huang (2021) 等。

这个方向在追问的核心问题: 1. 非 PH 下,哪种 estimand 兼具临床可解释性与统计功效最优性?(当前主流方法是针对特定非 PH 形状做模拟比较,缺乏一般性的效率界理论。) 2. 在预防性疫苗试验(基线风险极低、效力极高)的特殊设定下,非 PH 度量的渐近分布与功效公式能否给出闭式表达?(当前瓶颈:多数功效公式依赖数值积分或模拟。) 3. ICH E9(R1) 框架要求的"临床解释性"与"统计效率"之间是否存在不可调和的张力?(即:最直观的量度可能不是最易检测的量度。)

⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将问题 frame 为"在 ICH E9(R1) 下,临床解释性已由框架保证,因此选择 estimand 的关键剩余判据就是功效",从而让本文的"三种 estimand 功效比较"成为"显然的下一步"。 - 哪些竞争路线被他淡化或回避了:作者回避了加权 log-rank 检验(如 Fleming-Harrington \(G^\rho\) 类权重)这条在非 PH 功效比较文献中极为活跃的路线。这类检验虽然 estimand 不够直观,但在特定非 PH 形状下功效极高。作者未将其纳入比较,可能是因为它们不符合 ICH E9(R1) 对"临床可解释 estimand"的硬要求,但这恰恰掩盖了"解释性 vs 功效"之间的真实张力。 - 什么明显该被引 / 该存在、却没出现在 intro 里半参数效率理论的文献。如果要在理论上严格排序三种 estimand 的功效,最自然的工具是计算各自的 semiparametric efficiency bound(如 Begun et al., 1983; Bickel et al., 1993; Robins & Rotnitzky, 1995),然后比较效率界的倒数。Intro 中完全没有提及效率界,说明本文的功效比较可能停留在局部渐近正态近似或模拟层面,未触及效率理论的最优性判据。

张力: 未见明显对立引用。AHR、CIR、RMTL ratio 的支持者各自声称自己的量度在非 PH 下更稳健,但未见有文献证明在相同非 PH 设定下某量度严格优于另一量度(在效率界意义上)。本文声称 AHR 与 CIR 功效相近、RMTL 偏低,但这可能仅在"预防性疫苗(低基线风险、高效力)"这一极特殊设定下成立,一般非 PH 设定下的排序仍未知。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(T\):潜在发病时间,为连续随机变量。
  • \(Z\):处理分配,\(Z \in \{0, 1\}\)\(Z=1\) 表示接种疫苗,\(Z=0\) 表示对照。假设随机化,即 \(Z \perp T\)
  • \(C\):删失时间,连续随机变量,假设独立删失 \(C \perp (T, Z)\)
  • \(X\):可观测时间,\(X = \min(T, C)\)
  • \(\Delta\):发病指示变量,\(\Delta = I(T \leq C)\)\(\Delta=1\) 表示观察到发病,\(\Delta=0\) 表示删失。
  • 可观测数据:对每个受试者 \(i\),观测到独立同分布三元组 \((X_i, \Delta_i, Z_i)\)。潜在发病时间 \(T\)\(\Delta=0\) 时不可观测,只能靠独立删失假设进行识别。
  • \(S_z(t)\):处理组 \(z\) 的潜在生存函数,\(S_z(t) = P(T > t | Z=z)\)
  • \(F_z(t)\):处理组 \(z\) 的累积发病率(CDF),\(F_z(t) = 1 - S_z(t)\)
  • \(h_z(t)\):处理组 \(z\) 的风险函数,\(h_z(t) = -d/dt \log S_z(t)\)
  • \(L\):限制时间,临床试验关注的时间窗上界(如随访期终点)。

模型: 数据生成机制为非参数生存模型,仅假设 \(Z\) 随机化与 \(C\) 独立删失。不假设比例风险(PH),即 \(h_1(t) / h_0(t)\) 可随时间 \(t\) 变化。要估的对象是以下三种 estimand(均为在 \([0, L]\) 上的总体量度):

  1. AHR (Average Hazard Ratio)\(AHR = \frac{\int_0^L S_1(t) h_1(t) dt}{\int_0^L S_0(t) h_0(t) dt} = \frac{1 - S_1(L)}{1 - S_0(L)}\)(注:此为 Kalbfleisch-Prentice 定义,分子分母按存活概率加权)。
  2. CIR (Cumulative Incidence Ratio)\(CIR = \frac{F_1(L)}{F_0(L)} = \frac{1 - S_1(L)}{1 - S_0(L)}\)
  3. RMTL ratio (Restricted Mean Time Lost ratio)\(RMTL\_ratio = \frac{\int_0^L F_1(t) dt}{\int_0^L F_0(t) dt} = \frac{\int_0^L (1 - S_1(t)) dt}{\int_0^L (1 - S_0(t)) dt}\)

第二步:最小内核

剥掉所有一般性讨论,支撑整篇论文结论的最小内核是一个极简特例:预防性疫苗的高效力设定

在这个特例下,假设: - 基线风险极低:\(F_0(L) = 1 - S_0(L) \ll 1\)(即对照组在随访期内发病率很低)。 - 疫苗效力极高:\(VE \approx 1\),即 \(S_1(L) \approx 1\)\(F_1(L) \approx 0\)

在这个特例下,我们要证的命题退化成:为什么 AHR 与 CIR 功效相近,而 RMTL ratio 功效偏低?

直觉推导如下: 1. 当 \(F_0(L) \ll 1\)\(F_1(L) \approx 0\) 时,\(AHR = \frac{F_1(L)}{F_0(L)}\)\(CIR = \frac{F_1(L)}{F_0(L)}\)在低基线风险极限下,AHR 与 CIR 在数值上完全相等(因为 Kalbfleisch-Prentice 加权退化为 CDF 之比)。因此,它们的检验统计量的渐近方差也近似相等,功效必然相近。 2. RMTL ratio 的分子为 \(\int_0^L F_1(t) dt\),分母为 \(\int_0^L F_0(t) dt\)。当 \(F_0(L) \ll 1\) 时,\(\int_0^L F_0(t) dt \approx L \cdot F_0(L)\)(因为 \(F_0(t)\) 在大部分 \(t \in [0, L]\) 上都很小,近似常数)。同理 \(\int_0^L F_1(t) dt \approx L \cdot F_1(L)\)。所以 \(RMTL\_ratio \approx \frac{L \cdot F_1(L)}{L \cdot F_0(L)} = CIR\)数值上 RMTL ratio 也近似等于 CIR。 3. 功效差异的关键在于估计量的方差。RMTL 的估计涉及对 \(\int_0^L \hat{F}_z(t) dt\) 的积分,而 \(\hat{F}_z(t)\) 是 Kaplan-Meier 型估计量。在低基线风险下,KM 估计在早期 \(t\) 较小时的方差极大(因为事件数极少),积分操作将这种早期高方差累积到整个 \([0, L]\) 区间。相比之下,CIR 只依赖终点 \(\hat{F}_z(L)\) 的方差,AHR 的加权也主要依赖终点附近的权重。因此,RMTL 估计量的渐近方差在低基线风险下被早期高方差膨胀,导致其检验功效低于 CIR/AHR

这就是整篇论文在数学上干的事:在预防性疫苗特例下,利用低基线风险近似,证明 AHR=CIR,并解释 RMTL 方差膨胀的机制。一般情形的讨论只是这个特例的"加壳"。


三、这篇论文做了什么

三句话: ①研究了在 ICH E9(R1) 框架下、非 PH 设定中,疫苗效力试验的三种临床可解释 estimand(AHR, CIR, RMTL ratio)的检验功效比较问题。 ②核心工具是局部渐近正态理论,推导了三种 estimand 估计量的渐近方差公式,并在预防性疫苗试验的低基线风险/高效力设定下进行近似与比较。 ③主要结论是:在预防性疫苗试验的经典设定下,AHR 与 CIR 的功效表现相近,而 RMTL ratio 因估计量方差膨胀导致预期功效较低。

关键设定与假设: - 随机化假设\(Z \perp T\),保证 \(S_z(t)\) 的非参数识别。 - 独立删失假设\(C \perp (T, Z)\),保证 KM 估计的一致性与渐近正态性。这是生存分析的标准假设,但在疫苗试验中可能因退出与副作用相关而违反而被本文回避。 - 非 PH 设定:不假设 \(h_1(t)/h_0(t)\) 为常数,这是本文存在的理由。 - 预防性疫苗设定(核心假设):基线风险低(\(F_0(L) \ll 1\))、效力高(\(VE \approx 1\))。这是推导 AHR=CIR 及 RMTL 功效偏低的关键前提,相比已有文献(如 Royston & Parmar 讨论的肿瘤试验,基线风险高),本文强化了这一设定。

主要结果: 1. 定理/公式:三种 estimand 的渐近方差表达。论文给出了 \(\hat{AHR}\), \(\hat{CIR}\), \(\hat{RMTL\_ratio}\) 的渐近方差公式(基于 Greenwood 公式与 delta method)。直觉:方差均依赖于 KM 估计在关键时间点的方差;AHR 的方差依赖加权积分,CIR 依赖终点 \(L\),RMTL 依赖全区间积分。 2. 核心结论:功效排序。在低基线风险/高效力设定下,通过近似化简渐近方差公式,得出 \(Var(\hat{AHR}) \approx Var(\hat{CIR}) < Var(\hat{RMTL\_ratio})\),因此 AHR 与 CIR 所需样本量相近,RMTL 所需样本量更大。必要条件是 \(F_0(L) \ll 1\) 且随访期内事件数稀少。 3. 解决的技术难点:在非 PH 下给出 AHR 估计量的渐近分布。Kalbfleisch-Prentice AHR 的估计涉及对 \(S_z(t)\) 的加权积分,其渐近方差在非 PH 下没有闭式表达,本文通过 KM 估计的泛函渐近正态性+delta method 给出了可计算的近似公式。

证明路线与技术技巧: - 整体路线: 1. 基于 \((X, \Delta, Z)\) 的非参数模型,写出三种 estimand 的泛函表达(依赖 \(S_z(t)\)\(F_z(t)\))。 2. 用 Kaplan-Meier 估计 \(\hat{S}_z(t)\) 代入泛函,得到估计量 \(\hat{AHR}, \hat{CIR}, \hat{RMTL\_ratio}\)。 3. 利用 KM 估计的渐近正态性(Gill, 1980 的泛函渐近正态定理)与 delta method,推导三种估计量的渐近方差。 4. 在低基线风险/高效力设定下,对渐近方差公式做 Taylor 展开/近似化简,得出方差排序。 5. 基于渐近方差计算所需样本量与功效,进行数值验证与模拟。 - 关键跳跃点:从 KM 泛函的渐近方差到低基线风险下的方差排序近似。难点在于 AHR 与 RMTL 的方差均涉及积分,直接比较积分表达式无法得出排序。作者利用 \(F_0(L) \ll 1\)\(S_0(t) \approx 1\) 的近似,将 AHR 的加权积分退化为终点 \(L\) 处的值,从而与 CIR 方差对齐;同时指出 RMTL 的积分无法退化(因早期方差被累积),从而得出排序。 - 技术技巧点名: - Delta method / Functional delta method:用于从 KM 估计的渐近方差推导泛函(AHR, RMTL)的渐近方差。这是生存分析中推导复杂统计量分布的标准工具。 - Greenwood formula:用于计算 KM 估计在特定时间点 \(t\) 的方差估计,是渐近方差公式的基石。 - Gill's asymptotic theory for survival processes:引用 Gill (1980) 的泛函渐近正态定理,保证 delta method 在积分泛函上的合法性。 - Low-incidence approximation:利用 \(F_0(L) \ll 1\) 做近似化简,这是本文得出具体排序结论的核心技巧,也是结论适用范围受限的根源。

真实例子与应用: - 用的什么数据:HPV(人乳头瘤病毒)三期预防性疫苗试验数据。这是典型的预防性疫苗场景:基线发病率极低(年轻女性在短期随访内感染 HPV 的概率很小),疫苗效力极高(接近 100%)。 - 怎么把本文方法用上去:在 HPV 数据上,计算 \(\hat{AHR}, \hat{CIR}, \hat{RMTL\_ratio}\) 及其置信区间与检验 p 值,并基于本文推导的渐近方差公式计算所需样本量与功效,与实际试验的样本量进行对照。 - 得到什么结果:在 HPV 数据上,AHR 与 CIR 的置信区间宽度与 p 值几乎一致,RMTL ratio 的置信区间更宽、p 值更大(功效更低),与理论预测一致。 - 这个例子想说明什么:验证理论结论在真实预防性疫苗设定下的适用性,展示 AHR/CIR 在此类试验中的功效优势,为试验设计者选择 estimand 提供实证依据。

🔎 结论是否比证明窄: - 本文的核心结论"AHR 与 CIR 功效相近、RMTL 功效偏低"是在低基线风险/高效力设定下通过近似严格推导的。但在 intro 与 abstract 中,这一结论被泛泛 claim 为"In classical settings of prophylactic vaccine efficacy trials",未明确强调"低基线风险"这一必要条件的数学边界(如 \(F_0(L)\) 需小于多少才使近似误差可忽略)。研究者若要引用此结论,需自行核验其试验的基线风险是否落入近似成立的区间。 - 作者回避了加权 log-rank 检验这条竞争路线,但未在文中明确声明"本文仅比较临床可解释 estimand,不涉及最优但不直观的检验",这使得结论的"功效最优性"容易被误读为全局最优,而实际上仅在"可解释 estimand"子类中成立。


四、开放问题(点到为止,扎根具体语句)

  1. 非 PH 下三种 estimand 的 semiparametric efficiency bound 推导与比较:本文的功效比较基于特定估计量(KM+delta method)的渐近方差,未触及效率界。要证:在非 PH 非参数模型下,AHR, CIR, RMTL ratio 的 semiparametric efficiency bound 分别是多少?它们的界之比是否与本文基于 KM 估计的方差排序一致?(扎根点:本文未引用任何 semiparametric efficiency 文献,且结论依赖特定估计量的方差,而非模型内在的统计难度界限。)
  2. 基线风险非极低时(如肿瘤试验)的功效排序反转条件:本文结论在 \(F_0(L) \ll 1\) 下成立。要估:当 \(F_0(L)\) 增大至何种阈值时,RMTL ratio 的功效可能反超 AHR 或 CIR?(扎根点:intro 中引用 Royston & Parmar (2011) 在肿瘤高基线风险下推荐 RMST/RMTL,与本文低基线风险下的结论相反,暗示存在反转阈值。)
  3. 独立删失假设违背后的稳健性:疫苗试验中退出可能与副作用(从而与潜在发病时间)相关。要估:在 dependent censoring 下,三种 estimand 的识别条件与估计量偏差方向。(扎根点:ICH E9(R1) 框架要求处理 intercurrent events,但本文假设独立删失,回避了这一框架核心难题。)

提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向效率界或高基线风险设定 = 共识(真 gap);互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论