Non-parametric estimators of hazard ratios for comparing two survival curves¶

作者: Mihai Giurcanu, Theodore Karrison
来源: Biometrics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: University of Chicago（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf072

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在比较两组生存曲线时，如何在不依赖比例风险（Proportional Hazards, PH）假设的前提下，对风险比进行估计与推断。传统的 Cox 模型强制假设风险比随时间恒定，一旦该假设失效，Cox 部分极大似然估计（MLE）估计的不再是任何有明确因果或物理意义的总体参数，而是一个随时间变化的加权平均（权重依赖于删失与协变量分布）。当前该方向的成熟度处于“有经典替代方案（Cox），但非参数/半参数替代方案在理论与计算上仍存在空缺”的阶段：学者们知道 PH 常被违反，但缺乏一个像 Cox MLE 一样有完备渐近理论、且能处理时变风险比与分层的纯非参数估计量。

发展脉络： - 奠基工作：Cox (1972) 提出部分似然，在 PH 假设下给出了风险比估计的黄金标准；但随后的 Andersen & Gill (1982) 等将 Cox 模型拓展至时变协变量时，并未解决“风险比本身随时间变化且无协变量刻画”时的总体水平推断问题。 - 主要进展（非参数与半参数替代）：为了绕开 PH 假设，早期工作转向受限平均生存时间（RMST，如 Andersen et al. 2004）或生存函数的逐点比较（如 log-rank test）。在直接估计风险比方面，Kalbfleisch & Prentice (1981) 提出了基于二项模型的时变风险比估计，但作者在 intro 中指出其“缺乏完备的渐近理论支撑”；Sasieni (1993) 提出了无偏估计方程，但仅适用于常数风险比且对删失分布施加了额外约束；Dabrowska (1995) 构造了风险比的逐点非参数估计量，但作者明确指出其“方差估计困难，难以直接用于区间估计与假设检验”。 - 当前 frontier 与本文位置：当前 frontier 在于如何构造一个既不依赖 PH 假设、又具备完备渐近理论（包括方差估计与分层推断）的风险比估计量。本文填补了这一口子：通过将组别累积风险函数引入估计方程，在常数与局部常数时变风险比设定下，建立了与 Cox MLE 渐近效率可比的非参数估计量，并补上了变化点选择与分层异质性检验的理论。

子线索聚类： 1. 基于均值参数的替代推断：放弃风险比，转向 RMST 或生存函数差。优势：意义直观；劣势：无法回答临床最关心的“瞬时相对风险”问题。 2. 基于半参数模型的时变风险比推断：如 Cox 模型加时间交互项（Schemper 1992）或 Kalbfleisch & Prentice (1981) 的二项模型。优势：有模型框架；劣势：交互项仍依赖模型设定，二项模型渐近理论不完备。 3. 纯非参数逐点估计：如 Dabrowska (1995)。优势：无模型约束；劣势：逐点估计方差大、难以做总体推断。 4. 基于估计方程的非参数推断（本文所在线索）：如 Sasieni (1993) 与本文。优势：不依赖 PH，直接对总体参数构造方程；劣势：时变情形下需解决局部近似与变化点选择的理论问题。

这个方向在追问的核心问题： 1. 在 PH 假设失效时，是否存在一个非参数估计量，其渐近效率能与 Cox MLE 在 PH 成立时的效率相竞争？ 2. 当风险比随时间变化时，如何在不引入参数模型的前提下，对其进行有渐近理论保障的估计与推断？ 3. 如何在分层设计中检验风险比的跨层异质性，且不依赖 PH 假设？

⚠️ 作者的 framing：作者将缺口 frame 为：现有非参数方法（如 Dabrowska）缺乏可靠的方差估计与推断理论，而半参数方法（如 Cox 交互项或 Kalbfleisch & Prentice）要么依赖模型设定，要么渐近理论不完备。这使得本文的“基于累积风险函数的估计方程 + 局部常数近似”成为“显然的下一步”。 被淡化或回避的竞争路线：Intro 中未提及近年来基于 Targeted Maximum Likelihood Estimation (TMLE) 或 Double Robustness 在生存分析中的进展（如 Rytgaard et al. 2023 在因果生存分析中的半参数有效估计），也未提及基于 Aalen 加性风险模型的时变效应推断路线。这两条路线同样不依赖 PH 假设，且具备半参数效率理论。 明显该被引却未出现的：基于 Influence Function 的半参数有效估计理论在生存分析中的应用（如 Bryan et al. 2004 的边际风险模型），以及 Aalen 模型的渐近理论。这值得研究者去查：是这两条路线确实不适用于本文的“无协变量两样本”设定，还是作者有意回避了与半参数有效估计量的直接效率对比？

张力：未见明显对立引用。但存在一个隐性张力：Sasieni (1993) 的估计方程在常数风险比下被证明具有某种优良性质，而本文在常数风险比下推导出了自己的估计方程。两者在 PH 成立时的渐近效率是否严格等价？作者在 intro 中未直接对比两者的理论效率，仅在模拟中与 Cox MLE 对比，这是一个值得核验的信号。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / Estimand：
\(\theta\)：常数风险比，即 \(\theta = \lambda_1(t) / \lambda_0(t)\)，在 PH 假设下与 \(t\) 无关。
\(\theta(t)\)：时变风险比，\(\theta(t) = \lambda_1(t) / \lambda_0(t)\)。
\(\Lambda_k(t)\)：组 \(k\) (\(k=0,1\)) 的累积风险函数，\(\Lambda_k(t) = \int_0^t \lambda_k(u) du\)。
随机变量 / 样本：
\(T_{ki}\)：组 \(k\) 中个体 \(i\) 的潜在生存时间，\(i=1,\dots,n_k\)。
\(C_{ki}\)：组 \(k\) 中个体 \(i\) 的删失时间。
\(X_{ki}\)：观测时间，\(X_{ki} = \min(T_{ki}, C_{ki})\)。
\(\Delta_{ki}\)：删失指示变量，\(\Delta_{ki} = I(T_{ki} \le C_{ki})\)（1表示未删失，0表示删失）。
维数 / 样本量等指标：
\(n_k\)：组 \(k\) 的样本量，总样本量 \(n = n_0 + n_1\)。
\(t\)：时间轴上的任意时间点，通常限定在观测时间窗 \([0, \tau]\) 内。
潜在 / 不可观测量：
\(\lambda_k(t)\)：组 \(k\) 的风险函数，不可直接观测，需通过 \((X_{ki}, \Delta_{ki})\) 识别。
\(G_k(t) = P(C_{ki} \ge t)\)：组 \(k\) 的删失生存函数，不可直接观测，需估计。

模型与可观测数据： - 数据生成机制：两组 \((T_{0i}, C_{0i})\) 与 \((T_{1i}, C_{1i})\) 独立同分布，组间独立。\(T_{ki}\) 与 \(C_{ki}\) 在组内相互独立（随机删失假设）。\(T_{ki}\) 的风险函数为 \(\lambda_k(t)\)，无任何参数模型约束（非参数设定）。 - 可观测数据：研究者实际能观测到的是 iid 样本 \(\{(X_{ki}, \Delta_{ki}, k)\}_{i=1}^{n_k, k=0,1}\)。想要估计的 \(\theta\) 或 \(\theta(t)\) 依赖于不可观测的 \(\lambda_k(t)\)，只能通过可观测的 \((X_{ki}, \Delta_{ki})\) 借助 Nelson-Aalen 估计量去逼近 \(\Lambda_k(t)\)，进而识别 \(\theta\)。

第二步：最小内核——常数风险比下的估计方程

剥掉所有分层、时变、变化点选择的复杂性，这篇论文支撑整篇的最小内核是：如何利用两组的累积风险函数构造一个非参数估计方程，使得在常数风险比假设下，解该方程即可得到 \(\theta\) 的估计，且该估计量的渐近方差可闭式表达并与 Cox MLE 可比。

在最简特例（常数风险比 \(\theta\)，无删失或随机删失，无分层）下，核心思路如下： 1. 核心等式重构：如果 \(\theta = \lambda_1(t)/\lambda_0(t)\) 恒定，那么组 1 的累积风险函数可以写为 \(\Lambda_1(t) = \theta \Lambda_0(t)\)。这是整个估计方程的出发点。 2. 构造估计方程：作者没有直接对 \(\lambda_k(t)\) 做逐点估计（那会带来高方差），而是利用累积量 \(\Lambda_k(t)\)。在时间窗 \([0, \tau]\) 上，考虑积分：

\[\int_0^\tau \left( \Lambda_1(t) - \theta \Lambda_0(t) \right) d\Lambda_0(t) = 0\]

（这里 \(d\Lambda_0(t)\) 作为积分测度，起到了权重的作用，使得方程在 \(\theta\) 为真值时期望为 0）。 3. 代入非参数估计量：将 \(\Lambda_k(t)\) 替换为其 Nelson-Aalen 估计量 \(\hat{\Lambda}_k(t)\)，并将积分测度 \(d\Lambda_0(t)\) 替换为 \(d\hat{\Lambda}_0(t)\)（即组 0 的未删失事件计数过程），得到经验估计方程：

\[U(\theta) = \int_0^\tau \left( \hat{\Lambda}_1(t) - \theta \hat{\Lambda}_0(t) \right) d\hat{\Lambda}_0(t) = 0\]

4. 求解与渐近性：解此线性方程，得 \(\hat{\theta} = \frac{\int_0^\tau \hat{\Lambda}_1(t) d\hat{\Lambda}_0(t)}{\int_0^\tau \hat{\Lambda}_0(t) d\hat{\Lambda}_0(t)}\)。由于 \(\hat{\Lambda}_k(t)\) 是 \(\Lambda_k(t)\) 的非参数估计，\(\hat{\theta}\) 是一个纯粹的非参数估计量。通过将 \(\hat{\Lambda}_k(t)\) 围绕 \(\Lambda_k(t)\) 做渐近展开（利用 Nelson-Aalen 估计量的鞅表示），可以证明 \(\hat{\theta}\) 是渐近正态的，其渐近方差可通过估计方程的导数与信息矩阵闭式计算。

为什么这个内核吃劲：传统的非参数逐点估计 \(\hat{\theta}(t) = \hat{\lambda}_1(t)/\hat{\lambda}_0(t)\) 因为 \(\hat{\lambda}_k(t)\) 的核估计方差极大，根本无法用于总体推断。本文的跳跃在于：把对瞬时风险比的逐点估计，转化为对累积风险比的积分估计方程。积分操作起到了天然的平滑作用，使得非参数估计量的方差降到了可与半参数（Cox）竞争的阶。这一跳跃在时变情形下依然成立，只需将时间轴分段，在每段内假设局部常数即可。

三、这篇论文做了什么¶

三句话： ① 研究了在不依赖比例风险（PH）假设下，如何对两组生存曲线的风险比（常数与时变）进行非参数估计与推断的问题。 ② 核心工具是基于组别累积风险函数的估计方程，并在时变情形下利用局部常数近似与变化点选择将时间轴分段。 ③ 主要结论是：所提非参数估计量具备完备的渐近正态理论与可计算的方差估计，在有限样本下其效率与覆盖概率准确性与 Cox MLE 相当，且在 PH 假设失效时仍保持推断有效性。

关键设定与假设：在第二节最小记号基础上补全： - 假设 1（独立删失）：\(T_{ki}\) 与 \(C_{ki}\) 在组内相互独立。这是生存分析鞅理论的标准假设，若违反，Nelson-Aalen 估计量不再一致。 - 假设 2（常数风险比设定，Section 2）：\(\lambda_1(t) = \theta \lambda_0(t)\) 对所有 \(t \in [0, \tau]\) 成立。这是推导估计方程 \(U(\theta)=0\) 的前提，相比 Cox 模型，本文在此假设下不要求 \(\lambda_0(t)\) 有任何参数形式。 - 假设 3（局部常数设定，Section 3）：\(\theta(t)\) 随时间变化，但在区间 \([t_{j-1}, t_j)\) 内近似为常数 \(\theta_j\)。这是将常数风险比方法推广至时变情形的关键假设，相比半参数交互项模型，本文不假设 \(\theta(t)\) 有特定的函数形式（如线性或 log-linear），仅要求分段常数近似。 - 假设 4（分层设定，Section 4）：总体分为 \(S\) 个层，层内满足常数或局部常数风险比，层间风险比可异。相比 Cox 分层模型，本文不要求层间 PH 一致。

主要结果： 1. 定理 1（常数风险比估计量的渐近正态性）：在假设 1-2 下，\(\hat{\theta}\) 是 \(\theta\) 的一致估计，且 \(\sqrt{n}(\hat{\theta} - \theta)\) 渐近服从正态分布，方差可由估计方程的经验导数与信息矩阵的闭式表达一致估计。直觉：Nelson-Aalen 估计量的鞅中心极限定理直接传递给积分估计方程。解决了“非参数风险比估计量无可靠方差估计”的技术难点。 2. 定理 2-3（时变风险比的局部估计与变化点选择）：在假设 3 下，每段内的 \(\hat{\theta}_j\) 具备与定理 1 相同的渐近性质。作者提出基于残差过程的变化点选择准则：若真实 \(\theta(t)\) 在某点发生跳跃，累积残差过程会在该点表现出系统性偏离。通过最小化残差过程的某种惩罚泛函（类似 BIC 或基于鞅方差的准则）来选择变化点 \(t_j\)。解决了“非参数时变推断中如何自适应选择分段点”的技术难点。 3. 定理 4-5（分层估计与异质性检验）：在假设 4 下，构造了跨层的合并估计量 \(\hat{\theta}_P\) 与层特异估计量 \(\hat{\theta}_s\)。基于两者之差构造了 Wald 型检验统计量，用于检验 \(H_0: \theta_s = \theta\) 对所有 \(s\) 成立。渐近分布为 \(\chi^2_{S-1}\)。解决了“无 PH 假设下如何检验风险比跨层异质性”的技术难点。

证明路线与技术技巧： - 整体路线： 1. 构造估计方程：基于 \(\Lambda_1(t) = \theta \Lambda_0(t)\)（或局部版本），将瞬时风险比关系转化为累积风险函数的积分方程。 2. 鞅替换：将经验估计方程中的 Nelson-Aalen 估计量 \(\hat{\Lambda}_k(t)\) 替换为 \(\Lambda_k(t)\) 加上鞅增量项 \(M_k(t)\)（即 \(\hat{\Lambda}_k(t) - \Lambda_k(t) = \int_0^t \frac{dM_k(u)}{G_k(u)}\)）。 3. 渐近展开：将估计方程 \(U(\hat{\theta})\) 围绕真值 \(\theta\) 展开，利用鞅的零均值性质与可选停时定理，证明线性主项支配高阶余项。 4. 鞅中心极限定理：对线性主项应用 Rebolledo 鞅中心极限定理，得到渐近正态性。 5. 方差估计：利用鞅的可测变差预测方差的一致估计，闭式计算出渐近方差。 - 关键跳跃点： - 从逐点到积分：将 \(d\hat{\Lambda}_0(t)\) 作为积分测度而非简单求和，这一设计使得估计方程在 \(\theta\) 为真值时精确为零期望（无偏），且积分测度本身的信息量自然进入了方差计算，是效率可比的关键。 - 时变情形的变化点选择：如何证明基于残差的变化点选择不影响后续估计量的渐近分布？作者采用了类似分段常数模型选择的渐近理论，证明在特定惩罚下，变化点估计的一致性不破坏分段内估计量的渐近正态性。 - 技术技巧点名： - Counting Process / Martingale Theory（核心工具）：用于 Nelson-Aalen 估计量的展开与方差计算，将 \(\hat{\Lambda}_k(t) - \Lambda_k(t)\) 表示为鞅积分，是整个渐近推导的基石。 - Rebolledo's Martingale Central Limit Theorem：用于证明积分估计方程的线性主项在 \(n \to \infty\) 时收敛到高斯过程。 - Predictable Variation / Optional Variation：用于闭式计算与估计鞅的渐近方差，替代了经验方差估计。 - Local Constant Approximation / Change-point Detection：用于时变风险比设定，将时间轴分段，并在每段内套用常数风险比理论。 - Wald Test Construction：用于分层异质性检验，基于合并与层特异估计量之差构造二次型。

真实例子与应用： - 用的什么数据 / 场景：作者使用了乳腺癌临床试验数据（来自 International Breast Cancer Study Group, IBCSG，引用为 Ludwig et al. 1984 及后续更新），比较两种化疗方案下的生存曲线。 - 怎么把本文方法用上去：首先用常数风险比估计量 \(\hat{\theta}\) 给出总体风险比估计与置信区间；然后通过残差过程发现风险比随时间有明显变化（早期高，后期低），进而应用变化点选择方法将时间轴分为两段，分别估计早期与晚期的局部风险比；最后进行分层分析（按淋巴结状态分层），检验风险比跨层异质性。 - 得到什么结果：常数风险比估计显示总体 \(\hat{\theta} \approx 0.74\)（表明新方案有总体优势），但残差分析拒绝 PH 假设；分段估计显示早期 \(\hat{\theta}_1 \approx 0.5\)（强优势），晚期 \(\hat{\theta}_2 \approx 1.0\)（无差异）。分层检验未发现跨淋巴结层的显著异质性。 - 这个例子想说明什么：验证本文方法在真实数据中能发现 Cox 模型无法捕捉的时变效应（Cox 只能给出一个被平均的 0.74，掩盖了早期与晚期的本质差异），且变化点选择与分层推断在实际中可行。

🔎 结论是否比证明窄： - 作者在 Section 3 推广至时变风险比时，理论证明严格依赖于“真实 \(\theta(t)\) 是分段常数函数”这一假设（或至少在所选分段内是局部常数的良好近似）。但在应用与模拟中，作者将该方法用于更一般的时变 \(\theta(t)\)（如连续变化函数），并声称其仍表现良好。这是一个典型的“证明窄、claim 广”的地方：理论只证明了分段常数下的渐近性质，对连续时变函数的局部常数近似误差对渐近分布的影响，并未在定理中严格量化，仅在模拟中显示“偏差可忽略”。研究者若要严格推进，需关注局部常数近似带来的渐近偏差项。

四、开放问题（点到为止，扎根具体语句）¶

局部常数近似误差的渐近量化：定理 2-3 严格证明了分段常数设定下估计量的渐近正态性，但对连续时变 \(\theta(t)\) 做局部常数近似时，近似偏差随分段长度与 \(\theta(t)\) 导数的变化率如何进入渐近展开？这扎根于 Section 3 末尾作者对“局部常数近似合理性”的讨论，以及模拟中连续时变设定下覆盖概率的轻微偏差。
与半参数有效估计量的效率比较：本文仅在模拟中与 Cox MLE 比较效率，但理论上，在常数风险比设定下，本文的非参数估计量是否达到了该限制模型下的半参数有效界？这扎根于 Intro 中对 Sasieni (1993) 的引用——Sasieni 的估计方程是否与本文的估计方程在 PH 下渐近等价？若不等价，谁的效率更高？
删失分布依赖的鲁棒性：整个渐近理论依赖假设 1（独立删失），且方差估计中涉及对删失生存函数 \(G_k(t)\) 的 Kaplan-Meier 估计。若删失分布轻度依赖组别或时间，方差估计的偏差有多大？这扎根于作者在 Section 2 对 \(G_k(t)\) 估计的闭式表达，以及生存分析文献中常见的“独立删失假设放松”方向。
变化点选择的惩罚参数理论：作者提出了基于残差的变化点选择准则，但惩罚参数的选择（类似 BIC 中的 \(c_n\)）仅在模拟中经验选取，缺乏“惩罚参数在什么条件下能保证变化点估计的渐近一致性”的严格定理。这扎根于 Section 3 变化点选择的算法描述部分。

Maintained by 陈星宇 · Homepage · Source on GitHub

Non-parametric estimators of hazard ratios for comparing two survival curves¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论