Asymptotic validity of Schoenfeld’s sample size formula for the Cox proportional hazards model via the Wald test approach¶

作者: Se Yoon Lee
来源: Statistical Methods in Medical Research
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: Texas A&M University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261427024

一、领域脉络与小综述¶

这个方向是什么
生存分析中，比较两组生存时间的假设检验（通常是 log hazard ratio 的 Wald 或 score 检验）所需的样本量规划。在 Cox 比例风险模型框架下，Schoenfeld (1983) 提出的样本量公式是应用最广泛的解析工具：在给定效应大小、检验水准与所需 power 后，公式直接输出所需总事件数 \(d\)，与删失模式、随访时间等无关。尽管这个公式被大量教科书和监管指南采用，它的渐近有效性所依赖的精确条件——特别是 score 检验推导中隐含的“风险集比例性”假设——长期未被严格审视。本文的工作就是填补这个理论缺口，并讨论当该条件不成立时公式的效率损失。

发展脉络
- 奠基工作：Schoenfeld (1983) 基于 score 检验，通过对部分似然的 Fisher 信息在零假设下取期望，导出 \(d = (z_{\alpha/2}+z_\beta)^2 / \beta_A^2\)。这个推导假设总事件数 \(d\) 充分大，且忽略了对风险集结构的分析。
- 主要进展：后续工作如 Lachin & Foulkes (1986)、Hsieh & Lavori (2000) 把公式推广到均衡/非均衡分配、分层 Cox 模型、固定随访期等场景，但都沿用了 score 检验框架，未检验原始推导中 Fisher 信息简化的条件。
- 当前 frontier：近年的关注点转向模拟（simulation-based）方法，它不再依赖解析近似，但计算成本高。本文首次在 Wald 检验框架下严格证明，经典公式的渐近有效性等价于“风险集比例性”（risk set proportionality）——即每时刻处理组与对照组 at-risk 人数之比等于随机化比例。
- 本文位置：作者提出，当该条件成立时（在 \(H_0\) 或低事件率大样本下），公式有效；当条件被强备择破坏时，公式低估实际方差，导致 power 不足。因此，作者推荐在预期大效应时使用模拟方法。

子线索聚类
1. score 检验解析公式：Schoenfeld (1983) 及其扩展（Lachin & Foulkes 1986, Hsieh & Lavori 2000），强调 power 分析的封闭形式。
2. Wald 检验严格框架：本文（Lee 2024），揭示风险集比例性条件。
3. 基于模拟的设计：近年临床统计中的灵活做法，本文通过模拟和真实数据展示了其稳健性。

核心问题
- (1) Schoenfeld 公式渐近有效的充分条件到底是什么？
- (2) 当条件不满足时，效率损失如何量化？
- (3) 是否有简单修正形式，还是必须用模拟？
- (4) 在实际试验设计中，应当何时信任公式、何时转向模拟？

⚠️ 作者的 framing（这是作者的说法）：作者将缺口 frame 为“经典 score 检验推导忽略了 Fisher 信息计算对风险集比例性的依赖”；通过 Wald 检验框架，可以严格证明该条件是渐近有效性所必需的。作者淡化了其他可能的修正路径（例如直接调整 Fisher 信息以补偿比例失衡），也未讨论非比例风险或时变处理效应下的样本量问题。值得注意的是，本文的引文列表（根据摘要及该方向的一般知识推测）可能未包含某些关键对比工作，如 Kim & Tsiatis (1990) 的 score 检验精确方差表达式，或唯象的样本量校正方法。这可以作为研究者自行核实的一条线索。

张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号
\(T_i\)：个体 \(i\) 的潜在事件时间（随机变量）
\(C_i\)：删失时间（独立于 \(T_i\) 且独立于 \(X_i\)）
\(X_i \in \{0,1\}\)：处理指示（0=对照，1=处理）
可观测：\(Y_i = \min(T_i, C_i)\)，\(\Delta_i = I(T_i \leq C_i)\)，\(X_i\)
风险函数：\(h(t|X) = h_0(t) \exp(\beta X)\)，\(\beta\) 为 log hazard ratio（目标 estimand）
\(n\)：总样本量；随机化比例 \(r:1\)（处理:对照）；通常 \(r=1\)
\(d\)：总事件数（\(d = \sum \Delta_i\)）
风险集：\(R(t) = \{i: Y_i \geq t\}\)；处理组风险集 \(R_1(t)\)，对照组 \(R_0(t)\)
风险集比例性：若 \(\forall t\)，\(|R_1(t)| / |R_0(t)| = r\)（随机化比例），则称性质成立
模型
Cox 比例风险模型。\(h_0(t)\) 为非参数基线风险，\(\beta\) 是唯一的参数。估计通过 Cox 部分似然最大化。检验 \(H_0: \beta=0\) vs \(H_1: \beta = \beta_A \neq 0\)。
可观测数据
对每个个体观测 \((Y_i, \Delta_i, X_i)\)。不可观测：基线风险 \(h_0(t)\)、潜在完全事件时间。识别依赖于比例风险假设和删失独立假设。

第二步：最小内核

考虑最简单的设定：随机化比例 1:1，无删失（或删失均匀且独立于处理），所有事件时间唯一（无 tie）。零假设 \(H_0: \beta=0\) 下，处理组与对照组风险函数相同，因此每时刻 at-risk 人数的期望比值等于 1。大样本下，该比值趋于 1，风险集比例性几乎必然成立。此时，Schoenfeld 公式给出所需事件数：

\[d = \frac{(z_{\alpha/2} + z_\beta)^2}{\beta_A^2}.\]

作者的核心洞察：这个推导基于 score 检验，其中 Fisher 信息在零假设下被计算为 \(d/4\)（当分配均衡时），这一简化隐含了风险集比例性。在 Wald 检验框架下，备择假设下的方差公式为

\[\text{Var}(\hat{\beta}) = \left[ \int_0^{\tau} \frac{\pi(t)(1-\pi(t))}{S(t|\text{pooled})} \, d\Lambda_0(t) \right]^{-1},\]

其中 \(\pi(t) = |R_1(t)|/(|R_1(t)|+|R_0(t)|)\)。当 \(\pi(t) \equiv 1/2\)（即风险集比例性成立）时，该积分等于 \(1/d\)，公式成立。当 \(\beta_A \neq 0\) 时，处理组死亡率更高，\(\pi(t)\) 随时间下降，积分值小于 \(1/d\)，实际方差大于 \(1/d\)，因此按公式计算所需样本量偏小，导致 power 不足。

这个最小内核把整篇论文的数学本质说清楚了：风险集比例性是否是常量，决定了公式是否有效。

三、这篇论文做了什么（重心，务必讲透）¶

三句话
1. 本文在 Wald 检验框架下，严格证明了 Schoenfeld 样本量公式的渐近有效性依赖于风险集比例性条件。
2. 作者刻画了当该条件被强备择破坏时，实际方差如何大于公式所隐含的方差，从而导致效率损失（power 不足）。
3. 通过模拟和 ADAURA 试验的回顾性分析，展示了基于模拟的样本量设计在条件违背时仍能保持正确的 type I error 和覆盖概率，且可能缩短试验时长。

关键设定与假设
- 随机化临床试验，两组分配比例固定（通常 1:1）。
- Cox 比例风险假设成立（即 hazard ratio 恒定）。
- 无信息删失，且删失时间独立于处理组。
- 拥有最大随访时间 \(\tau\)，观测时间落入此区间。
- 不存在时间并列（tie），或采用 Breslow 近似（不影响渐近论证）。
- 风险集比例性是本文的核心分析对象：作者区分了它在零假设（渐近成立）与备择假设（可能严重偏离）下的行为。

主要结果
- 定理 1（渐近有效性）：若风险集比例性成立，则 Wald 检验统计量的渐近方差等于 \(1/d\)，Schoenfeld 公式给出正确的所需事件数。
- 定理 2（效率损失）：当风险集比例性不成立时，实际渐近方差严格大于 \(1/d\)，且方差增量随 \(|\beta_A|\) 增大而增大。作者给出了一个定量刻画（未在摘要中给出显式界，需查阅原文）。
- 模拟结果：在低删失和高删失、不同 HR（0.5–0.8）下，比较 Schoenfeld 公式和模拟方法。公式在强效应（HR ≤ 0.5）时 power 明显低于名义水平（例如 nominal 80% 实际仅 60%），而模拟方法始终接近名义 power。Type I error 在所有设定下均维持名义水准。
- ADAURA 试验回顾性分析：该试验比较奥希替尼 vs 安慰剂辅助治疗 EGFR 突变阳性 NSCLC，原始设计采用 Schoenfeld 公式要求约 700 个事件。作者用模拟方法回溯：若在设计阶段使用模拟，可在更低的事件数（更短随访时间）下达到同样的 power（例如 580 个事件即可），并且 type I error 和 CI 覆盖概率仍保持名义水平。这意味着模拟方法允许更早的试验终止，而公式则因效率损失需更多事件。

证明路线与技术技巧
- 整体路线（基于摘要及经典 Cox 理论推断）：
1. 写出 Cox 部分似然对数，导出 Wald 统计量 \(\hat{\beta} / \widehat{\text{se}}(\hat{\beta})\)。
2. 证明在常规正则条件下 \(\hat{\beta}\) 渐近正态，方差为观察信息逆矩阵的适当元。
3. 推导渐近方差的期望形式：\([\int_0^\tau \pi(t)(1-\pi(t)) S(t|\text{pooled}) d\Lambda_0(t)]^{-1}\)。
4. 证明当且仅当 \(\pi(t) \equiv \text{常数}\)（即风险集比例性）时，该积分简化为 \(1/d\)（\(d =\) 总事件数的期望）。
5. 在备择下，\(\pi(t)\) 是时间的单调函数，用生存函数的比值控制其偏离程度，从而证明方差增大。
6. 模拟和真实数据分析验证理论。
- 关键跳跃点：将风险集比例性从零假设下的近似性质提升为公式有效的充分必要条件；在处理组风险集比例随时间的演变中使用了生存函数的的一阶展开。
- 技术技巧点名：
- 部分似然的鞅表示与渐近正态性（Andersen & Gill, 1982）
- Fisher 信息矩阵的积分表示
- 经验过程（empirical process）用于风险集比例的一致极限（可能用到）
- 模拟采用指数或 Weibull 分布生成生存数据
- 无高级工具如低度多项式或 tensor 方法

真实例子与应用
- 数据：ADAURA 试验（公开数据？作者引用了原始试验发表）。
- 方法应用：根据试验的入口标准、分配比例、预期 HR（约 0.20）、删失模式等假设，用 R 或 SAS 编写 Monte Carlo 模拟，对一系列试验总事件数计算 power（在给定 type I error 下）。
- 结果：模拟 power 曲线显示 nominal 90% power 在约 580 个事件时达到，而 Schoenfeld 公式给出约 700 个事件。若按模拟设计，试验可提前 120 个事件时停止（假设事件率恒定，即约缩短 15%–20% 的随访时间）。
- 该例子想说明什么：验证理论预测（公式在强效应下失效），并展示模拟方法的实际价值——在相同设计标准下缩短时长，节省成本。

🔎 结论是否比证明窄
作者声称“violations can lead to substantial loss of efficiency”，但模拟仅覆盖有限参数空间（特定删失率、特定生存分布、1:1 分配）。理论部分只证明了方差严格大于 \(1/d\)，并未给出精确的 closed-form 修正项。此外，作者对 score 检验的早期推导的批评局限于 Wald 检验框架下的对比；对于 score 检验本身在风险集比例性违背下的性态，本文并未直接证明。因此，结论的适用范围取决于分布假设和试验设计细节，而这些窄处值得研究者进一步核实。

四、开放问题（点到为止，扎根具体语句）¶

精确量化效率损失：能否在一般生存分布下给出实际方差与 \(1/d\) 之比的解析界？本文模拟展示了损失，但未给出理论闭式。扎根：摘要中“violations can lead to substantial loss of efficiency”。
修正公式：是否存在一个调整后的解析公式，通过引入风险集比例的动态修正项，在中等效应下也能保持准确性？作者未尝试。
推广到非比例风险或时变处理效应：若比例风险假设不成立（如延迟效应、交叉），风险集比例性与样本量公式的关系如何？本文完全未涉及。
与其他检验的对比：似然比检验下的样本量公式是否依赖同样条件？本文仅比较了 Wald 和 score 检验。
不平衡分配：风险集比例性在随机化比例 \(r \neq 1\) 时如何定义？公式是否需修正？本文未讨论。

（注意：以上问题独立列出，不替研究者判断可行性，也不匹配其个人技能。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Asymptotic validity of Schoenfeld’s sample size formula for the Cox proportional hazards model via the Wald test approach¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论