Design and Analysis of Randomized Clinical Trials With Average Hazard: Practical Guidance and Tools for Implementation¶

作者: Miki Horiguchi, Lu Tian, Satoshi Hattori, Hajime Uno
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 4/10
机构绿灯: Stanford University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70624

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：在随机化临床试验（RCT）的时间-事件（time-to-event）结局分析中，当比例风险假设（PH assumption）可能不成立时，如何定义、估计并检验一个具有明确临床解释性且不依赖模型具体参数形式的因果/干预效应度量。当前该方向的成熟度处于"理论推断已完备、但工程化与监管落地刚起步"的阶段：非参数估计与影响函数的理论已经闭合，但如何将其作为 RCT 的主分析（primary analysis）进行前瞻性试验设计（样本量计算、分析时点确定）仍缺乏标准化工具。

发展脉络（history）： - 奠基工作（Cox 模型与 HR 的统治地位）：几十年来，log-rank 检验配合 Cox 比例风险模型下的 hazard ratio (HR) 估计，是 RCT 时间-事件分析的标准框架。作者在 intro 中指出，该框架的优势在于"简单且在 PH 假设下有高效率"，但留下了一个巨大的口子：当 PH 假设不成立时，HR 失去明确的临床解释，且基于 HR 的检验可能偏离目标 estimand。 - 主要进展（AH 的提出与理论建立）：为应对 PH 不成立的问题，Kalbfleisch-Prentice (1981) 提出了 average hazard (AH) 的概念；随后，Hattori-Horiguchi (2023, Biometrics) 建立了 AH 的非参数推断理论，证明了基于影响函数的 \(n^{-1/2}\)-CAN 估计量及其渐近正态性。作者引用该工作时明确其贡献："established theoretical properties and nonparametric inference procedures"，但留下的口子是："practical guidance for its use in the primary analysis of RCTs remains limited"。 - 当前 frontier（从理论走向 RCT 实践）：如何将一个已有半参数/非参数理论支撑的 estimand，转化为监管机构可接受的 RCT 主分析方案（包含前瞻性的样本量与检验效能计算）。本文即填补此口子。

子线索聚类： 1. PH 假设失效下的替代 estimand 线索：包括 restricted mean survival time (RMST)、average hazard (AH) 等。这一簇在做的是：寻找只依赖生存函数泛函（不依赖风险函数具体参数结构）的效应度量，以保证在非比例风险下的解释性与可识别性。 2. 生存函数泛函的非参数/半参数推断线索：基于 influence function 构造 \(n^{-1/2}\)-CAN 估计量，推导渐近分布。这一簇在做的是：为上述 estimand 提供不依赖生存分布具体参数形式的严格推断理论。 3. RCT 设计与样本量计算线索：传统基于 log-rank / Cox HR 的样本量公式（如 Schoenfeld 公式）。这一簇在做的是：在给定效应量与事件数预期下，前瞻性计算所需样本量与检验效能；本文将此线索从 HR 拓展至 AH。

这个方向在追问的核心问题： 1. 当 PH 假设不成立时，什么 estimand 既能在全时间窗上捕捉干预效应，又具有无歧义的临床解释？（当前主流：RMST 差与 AH 比；瓶颈：AH 的"平均发生率"解释对临床仍偏生疏，需推广）。 2. 对生存函数泛函（如 AH），如何构造达到半参数效率界的非参数估计量？（当前主流：基于影响函数的一步估计；瓶颈：本文未触及是否达到 semiparametric efficiency bound，仅止步于 CAN）。 3. 如何为非参数 estimand 建立前瞻性 RCT 设计框架（样本量/效能）？（当前主流：HR 下有 Schoenfeld 公式；瓶颈：AH 下尚无对应解析/数值工具，本文用数值积分填补）。

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为"AH 的理论已建立，但 RCT 主分析的实践指南与工具缺失"，从而使本文"提供设计框架与 R 包"成为显然的下一步。 - 被淡化或回避的竞争路线：intro 中对 RMST（restricted mean survival time）这一最直接的竞争 estimand 仅一笔带过，未对比 AH 相对 RMST 在设计或解释上的优劣；同时，完全回避了"AH 估计量是否达到半参数效率界"这一理论层面的追问，仅满足于 CAN（一致渐近正态）。 - 明显该被引却未出现的：关于半参数效率界的经典文献（如 Bickel et al. 1993, Efficient and Adaptive Estimation for Semiparametric Models，或 Robins et al. 对生存函数泛函的效率理论工作）未在 intro 出现。这值得研究者去查：是作者刻意回避效率界追问，还是该领域习惯性只关注 CAN 而不关注 efficiency？

张力：未见明显对立引用。各被引工作在"PH 假设失效需替代 estimand"这一前提上一致，分歧仅在选 RMST 还是 AH，而作者未展开此张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(T\)：潜在事件时间（potential event time），不可直接完全观测。
\(C\)：潜在删失时间（potential censoring time），不可直接完全观测。
\(X = \min(T, C)\)：可观测时间。
\(\delta = I(T \leq C)\)：事件指示器（1=事件发生，0=删失），可观测。
\(Z\)：处理分配（\(Z=1\) 为处理组，\(Z=0\) 为对照组），可观测（RCT 中随机分配）。
\(S(t|Z=z) = P(T > t | Z=z)\)：给定处理组的生存函数，是本文推断的基石泛函。
\(\tau\)：预先指定的时间窗上界（如临床试验的随访截止时间），是设计参数。
\(\text{AH}(\tau|Z=z)\)：平均风险（average hazard），定义为 \(\text{AH}(\tau|Z=z) = -\frac{\log S(\tau|Z=z)}{\tau}\)，是本文的核心 estimand。
\(\text{AHR}(\tau)\)：平均风险比（average hazard ratio），定义为 \(\text{AHR}(\tau) = \frac{\text{AH}(\tau|Z=1)}{\text{AH}(\tau|Z=0)}\)，即处理组与对照组 AH 的比值，是最终要估计与检验的因果/干预效应度量。
\(n_1, n_0\)：处理组与对照组的样本量；\(n = n_1 + n_0\)。
\(\hat{S}(t|Z=z)\)：基于 Kaplan-Meier 估计的非参数生存函数估计量。
模型：数据生成机制为：在 RCT 中，\(Z\) 独立随机分配；\(T\) 的分布依赖 \(Z\)（即 \(S(t|Z=z)\) 随 \(z\) 不同）；\(C\) 的分布可能依赖 \(Z\)（允许不同组有不同删失机制）；关键假设是 \(T\) 与 \(C\) 在给定 \(Z\) 下条件独立（即独立删失假设）。没有任何比例风险（PH）或参数分布假设。要估的对象是生存函数泛函 \(\text{AHR}(\tau)\)。
可观测数据：研究者实际能观测到的是 \(n\) 个独立三元组 \(\{(X_i, \delta_i, Z_i)\}_{i=1}^n\)。想要但观测不到的是潜在事件时间 \(T_i\)（被 \(C_i\) 删失的部分）。只能靠独立删失假设与 Kaplan-Meier 估计从 \(\{(X_i, \delta_i)\}\) 中非参数地识别 \(S(t|Z=z)\)，进而识别 \(\text{AHR}(\tau)\)。

第二步：讲最小内核

剥掉所有为一般性服务的技术假设（如具体删失分布、有限支撑条件等），支撑整篇论文的最小内核是：在独立删失下，如何用 Kaplan-Meier 估计量构造 \(\text{AHR}(\tau)\) 的 CAN 估计量，并基于其渐近方差推导样本量公式。

最简特例（无删失情形，\(C = \infty\)）：此时 \(X_i = T_i\), \(\delta_i = 1\)，可完全观测 \(T_i\)。生存函数的 KM 估计退化为经验生存函数 \(\hat{S}(t|Z=z) = \frac{1}{n_z}\sum_{Z_i=z} I(T_i > t)\)。此时 \(\text{AH}(\tau|Z=z) = -\frac{\log S(\tau|Z=z)}{\tau}\) 的估计量为 \(\hat{\text{AH}}(\tau|Z=z) = -\frac{\log \hat{S}(\tau|Z=z)}{\tau}\)。要证的核心命题退化为：\(\log \hat{S}(\tau|Z=z)\) 是 \(\log S(\tau|Z=z)\) 的 CAN 估计量，其渐近方差可通过 Delta method 与经验过程理论精确表达。证明怎么走： 1. 由经验过程理论，\(\hat{S}(\tau|Z=z)\) 在 \(\tau\) 处有渐近正态性，渐近方差为 \(S(\tau|Z=z)^2 \cdot \text{Var}(\hat{S}(\tau|Z=z)) / S(\tau|Z=z)^2\)（具体由格林伍德公式给出）。 2. 对泛函 \(g(x) = -\log x\) 施加 Delta method，\(\hat{\text{AH}}(\tau|Z=z)\) 的渐近方差为 \(g'(S(\tau|Z=z))^2 \cdot \text{Var}(\hat{S}(\tau|Z=z)) / \tau^2 = \frac{\text{Var}(\hat{S}(\tau|Z=z))}{S(\tau|Z=z)^2 \tau^2}\)。 3. 两个独立组（RCT 中 \(Z\) 独立分配）的 \(\hat{\text{AH}}\) 相减/相除后，再次施加 Delta method 得到 \(\hat{\text{AHR}}(\tau)\) 的渐近方差。 4. 将此渐近方差代入两样本 Wald 检验的效能公式，即得样本量计算的最小内核：\(n = \frac{(z_{\alpha/2} + z_{\beta})^2 \cdot V_{\text{AHR}}}{(\log \text{AHR}(\tau))^2}\)，其中 \(V_{\text{AHR}}\) 是 \(\log \hat{\text{AHR}}(\tau)\) 的渐近方差。

在有删失的一般情形下，证明的"加壳"仅在于：KM 估计量的渐近线性化（影响函数）比经验生存函数更复杂（需引入累积风险函数估计的渐近展开与删失分布的格林伍德公式），但 Delta method 的核心骨架与上述最简特例完全一致。本文的样本量计算公式，本质上就是把这个"加壳"后的渐近方差用数值积分算出，代入 Wald 检验效能公式。

三、这篇论文做了什么¶

三句话： ①研究了在 RCT 主分析中采用 average hazard ratio (AHR) 作为 estimand 时，如何进行前瞻性试验设计（样本量与效能计算）及确定分析时点的问题。 ②核心工具是基于 Kaplan-Meier 估计量与 Delta method 推导的 \(\hat{\text{AHR}}(\tau)\) 影响函数及其渐近方差公式，辅以数值积分实现样本量计算。 ③主要结论是给出了 AHR 框架下的样本量/效能计算解析-数值混合公式，并发布了 R 包 survAHtools 将其工程化，使得 AHR 可以作为 RCT 主分析的完整方案落地。

关键设定与假设：在第二节最小记号基础上补全： - 独立删失假设：\(T\) 与 \(C\) 在给定 \(Z\) 下条件独立。这是 KM 估计与影响函数推导的基石，统计含义为：在每一组内，删失机制不依赖于未观测的事件时间；相比已有文献（如 Hattori-Horiguchi 2023），本文未放宽此假设。 - 时间窗上界 \(\tau\) 的先验指定：\(\tau\) 必须在试验设计阶段预先确定，且 \(\tau\) 不超过最大随访时间。统计含义为：estimand \(\text{AHR}(\tau)\) 的定义域被锁定，避免数据驱动选 \(\tau\) 带来的选择性偏倚。 - 大样本渐近：样本量公式基于 Wald 检验的渐近正态性，要求 \(n\) 足够大使得影响函数的线性化占主导。

主要结果： 1. \(\hat{\text{AHR}}(\tau)\) 的渐近方差解析表达式（对应文中基于影响函数的推导）：给出了 \(\log \hat{\text{AHR}}(\tau)\) 的渐近方差 \(V_{\text{AHR}}(\tau)\) 的解析公式，该公式由两组的累积风险函数估计方差与生存函数估计方差组合而成。直觉：通过 Delta method 将 KM 估计量的渐近方差"传递"到 \(\log \text{AHR}\) 上；必要条件是 \(\tau\) 处 \(S(\tau|Z=z) > 0\)（否则 \(\log S\) 爆炸）；解决的技术难点是在有删失下，KM 估计量的影响函数包含积分项，需将此积分项的方差通过格林伍德公式与删失分布精确表达。 2. AHR 框架下的样本量与效能计算公式：\(n = \frac{(z_{\alpha/2} + z_{\beta})^2 \cdot V_{\text{AHR}}(\tau)}{(\log \text{AHR}_0(\tau))^2}\)，其中 \(\text{AHR}_0(\tau)\) 是设计时假定的真实 AHR 效应量，\(V_{\text{AHR}}(\tau)\) 依赖设计时假定的生存与删失分布。直觉：与经典 Schoenfeld 公式结构同构，仅将 HR 的渐近方差替换为 AHR 的渐近方差；必要条件是设计时能提供两组的生存函数与删失分布的先验假定（通常从历史数据或 pilot study 借用）；解决的技术难点是 \(V_{\text{AHR}}(\tau)\) 无闭式表达，需数值积分，本文通过 R 包实现。 3. 分析时点确定工具：提出了在随访过程中，基于当前累积事件数与删失数，动态评估"当前时点 \(\tau\) 下 AHR 估计的方差是否已降至预设阈值"的方法。直觉：将传统"事件数驱动"的分析时点判定，替换为"方差驱动"的判定，以适配 AHR 的非参数推断特性。

证明路线与技术技巧： - 整体路线： 1. 写出 KM 估计量 \(\hat{S}(t|Z=z)\) 的经典渐近线性化（影响函数），其中包含累积风险函数估计 \(\hat{\Lambda}(t|Z=z)\) 的积分项。 2. 对泛函 \(f(S) = -\log S(\tau) / \tau\) 施加 Delta method，得到 \(\hat{\text{AH}}(\tau|Z=z)\) 的影响函数。 3. 对泛函 \(h(\text{AH}_1, \text{AH}_0) = \log(\text{AH}_1 / \text{AH}_0)\) 再次施加 Delta method，得到 \(\log \hat{\text{AHR}}(\tau)\) 的影响函数，其方差即 \(V_{\text{AHR}}(\tau)\)。 4. 将 \(V_{\text{AHR}}(\tau)\) 的解析表达式用两组的生存函数与删失分布的先验假定代入，通过数值积分算出具体数值。 5. 将算出的 \(V_{\text{AHR}}(\tau)\) 代入两样本 Wald 检验的效能公式，得到样本量 \(n\)。 - 关键跳跃点：从 KM 估计量的影响函数到 \(\hat{\text{AHR}}(\tau)\) 的渐近方差，需连续施加两次 Delta method 并处理积分项的方差传播。难点卡在：KM 影响函数中的 \(\int_0^t \frac{d\hat{\Lambda}(u)}{S(u)}\) 项的方差如何与外层 Delta method 的导数正确组合；作者用 Hattori-Horiguchi (2023) 已推导好的影响函数闭式表达直接代入，绕过了重新推导的卡点。 - 技术技巧点名： - Delta method：用两次，第一次从 \(S\) 到 \(\text{AH}\)，第二次从 \((\text{AH}_1, \text{AH}_0)\) 到 \(\log \text{AHR}\)，起方差传播的核心作用。 - Influence function / 渐近线性化：用 KM 估计量的影响函数作为推导起点，起提供 \(n^{-1/2}\)-CAN 与渐近方差地基的作用。 - 数值积分：用于计算设计阶段假定分布下的 \(V_{\text{AHR}}(\tau)\)，起将解析公式转化为可操作数值的作用。

真实例子与应用： - 用的什么数据 / 场景：文中使用了两个真实 RCT 数据例子：(1) NCCTG lung cancer trial（标准 4-arm lung cancer 数据，比较两种化疗方案的时间-事件结局）；(2) BCCTG breast cancer trial（比较两种乳腺癌辅助疗法）。这两个数据集是生存分析文献中的经典基准数据，均存在明显的非比例风险特征（生存曲线交叉或后期分离）。 - 怎么把本文方法用上去：对每个数据集，先拟合两组的 KM 曲线，选定时间窗 \(\tau\)（如随访最大时间或临床关心的里程碑时间），然后用 survAHtools 包计算 \(\hat{\text{AHR}}(\tau)\)、其置信区间与假设检验 \(p\) 值；同时，用历史数据假定生存与删失分布，演示如何用本文公式计算"若以 AHR 为主分析，所需样本量是多少"。 - 得到什么结果：在 lung cancer 数据中，传统 Cox HR 因 PH 假设失效给出不稳定的效应估计，而 AHR 在选定 \(\tau\) 下给出一个恒定的、有明确"平均发生率比"解释的效应量；在样本量计算演示中，展示了在相同假定效应量下，AHR 框架所需样本量与 Schoenfeld (log-rank/HR) 框架所需样本量的差异（因 AHR 的渐近方差通常大于 HR 在 PH 下的方差，AHR 框架往往需要略大样本量以补偿非参数推断的效率损失）。 - 这个例子想说明什么：验证 AHR 在非比例风险下作为主分析 estimand 的可行性，展示 AHR 框架的样本量计算与 HR 框架的数值差异，并展示 R 包的实操流程。

🔎 结论是否比证明窄：本文的样本量公式与效能计算严格依赖于"大样本下 Wald 检验的渐近正态性"这一条件（即影响函数的线性化误差可忽略），但文中未给出"多大样本才算大"的有限样本边界或二阶展开修正。在有限样本（尤其是事件数或删失比例较高时）下，Wald 检验的实际分布可能与渐近正态有偏离，但文中泛泛 claim "the proposed framework can be used for the primary analysis of RCTs"，未对有限样本的覆盖概率误差做严格量化。这是研究者可亲自核验的窄结论点。

四、开放问题（点到为止，扎根具体语句）¶

AH 估计量是否达到半参数效率界？：本文仅推导了基于 KM+Delta method 的 CAN 估计量，未触及"在所有 \(n^{-1/2}\)-CAN 估计量中，此估计量的渐近方差是否已达到 semiparametric efficiency bound"（扎根在 intro "nonparametric inference procedures have already been established"——该 established 工作仅止步于 CAN，未追问 efficiency）。
有限样本下 Wald 检验的覆盖概率误差如何量化？：样本量公式基于渐近正态，但有限样本下二阶误差（如 HOIF / higher-order influence function 修正）未被刻画（扎根在第三节指出的"泛泛 claim 可用于主分析，但无有限样本边界"）。
\(\tau\) 的选择对 estimand 与检验效能的影响如何严格量化？：文中要求 \(\tau\) 先验指定，但实际中 \(\tau\) 的选择往往受临床主观判断影响，不同 \(\tau\) 下 AHR 的数值与方差差异显著，文中未给出 \(\tau\) 选择的敏感性分析框架（扎根在方法节"tools for identifying the appropriate timing of the analysis"仅给出方差驱动的时点判定，未给出 \(\tau\) 本身的敏感性理论）。

提醒：要确认第 1 条（效率界）是不是真 gap，去读生存函数泛函半参数推断的近期 5 篇 intro（如 Robins/Bickel 的工作在生存分析中的延伸）——若都只做 CAN 不问效率，则是领域共识（真 gap 存在）；若已有工作给出效率界但本文未引，则是本文回避（机会）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Design and Analysis of Randomized Clinical Trials With Average Hazard: Practical Guidance and Tools for Implementation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论