Estimation of the short-term and long-term hazard ratios for interval-censored and truncated data¶

作者: Rui Wang, Yiwei Fan
来源: Statistical Methods in Medical Research
主题: 非参数 / 半参数
相关性: 7/10
链接: https://doi.org/10.1177/09622802251399915

一、领域脉络与小综述¶

这个方向是什么¶

本方向处理的是区间删失与截断生存数据下的半参数风险比建模，核心问题是：当协变量的效应随生存时间变化（例如早期效应强、晚期效应弱甚至逆转），导致生存曲线交叉时，如何对短期和长期风险比分别建模，并给出统计推断。该方向处于半参数生存分析的扩展前沿，已有工具主要针对右删失数据，而区间删失与左截断在流行病学队列（如HIV、癌症）中极为常见，使该扩展具有实际驱动。

发展脉络（基于公开文献与本文摘要推断）¶

奠基工作：比例风险模型（Cox, 1972）和比例优势模型（Bennett, 1983）是经典半参数框架，但均假设风险比恒定或单调，无法处理生存曲线交叉。
突破性框架：Yang & Prentice (2005) 提出短长期风险比模型（short-term and long-term hazard ratio model），利用参数向量 β₁（控制短期）和 β₂（控制长期），将 PH (β₁=β₂) 和 PO (β₂=0) 作为特例，首次提供灵活的半参数曲线交叉建模。该模型最初针对右删失数据，且假设协变量独立于删失。
主要扩展：后续工作包括：Zeng, Mao & Lin (2016) 将其推广至竞争风险；其他学者发展了模型选择与检验工具；对于区间删失数据，Sun (2006) 等建立了非参数估计框架，但独立于短长期模型。
本文位置：本文首次将短长期风险比模型延拓至同时存在协变量、区间删失和截断的数据场景，并处理截断带来的可识别性困境。据摘要所述，作者证明了NPMLE的分段常数性质，并开发了迭代凸极小化算法。

子线索聚类¶

这些被引工作大致落在两条线索： 1. 半参数生存模型扩展：PH、PO、加速失效、杨-普伦蒂斯模型等，核心是定义灵活的风险比函数。代表：Cox (1972), Yang & Prentice (2005). 2. 区间删失与截断数据处理：包括无参数似然估计（NPMLE）、算法（如ICM）、渐近理论。代表：Sun (2006), Zeng, Mao & Lin (2016) 等。本文是两条线索的交汇点。

这个方向在追问的核心问题¶

(i) 半参数模型的识别性：区间删失+截断能否唯一确定基线生存函数和回归参数？
(ii) 计算可行性：NPMLE 是否具有封闭形式（如分段常数）？如何高效求解？
(iii) 推断工具：是否存在简化的 Wald 检验条件，对常见实际场景给出易于使用的假设检验？
(iv) 效率界：该模型的半参数效率界是什么？能否构造出达到界的估计量？（本文可能未涉及，但为开放问题）

⚠️ 作者的 framing（必须明确标注为作者说法）¶

这是作者的 framing：根据摘要，作者认为“前人的短长期风险比模型仅适用于右删失数据”，而“区间删失和截断数据在实际中广泛存在”，因此本文是“自然的延伸”。作者将竞争路线（如用平滑样条、时变系数模型）淡化，因为这些方法要么参数化过强，要么未处理截断。值得研究者去查：PDF 中是否引用了任何关于区间删失数据下一般半参数模型的识别性文献（如 Van der Laan & Robins, 2003）？若未引用，则缺口可能是作者刻意回避。

张力¶

未见明显对立引用。短长期模型与 PH/PO 的包容关系已公认；区间删失下 NPMLE 的一致性定理在常规条件下成立，尚无矛盾结论被引用于本文。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号： - \( T_i \)：第 i 个个体的真实生存时间（潜在变量，实际部分不可知）。 - \( X_i \in \mathbb{R}^p \)：协变量向量（固定，可观测）。 - \( S(t|X) = P(T > t | X) \)：条件生存函数。 - \( h(t|X) = -\frac{d}{dt}\log S(t|X) \)：条件风险函数。 - \( (L_i, R_i] \)：区间删失观测区间，\( L_i < R_i \)，且 \( R_i = \infty \) 表示右删失，\( L_i = 0 \) 表示左删失。 - \( A_i \)：左截断时间，只观测到 \( T_i > A_i \)（即 \( A_i \) 是进入队列的时间点）。 - 参数：\( \beta_1, \beta_2 \in \mathbb{R}^p \)（短期、长期对数风险比）；\( h_0(t) \) 或 \( S_0(t) \)：基线生存函数（非参）。 - 数据：对每个个体 i，可观测 \( (L_i, R_i, X_i, A_i) \)，其中 \( A_i < L_i \)（截断保证：个体只有在 \( T_i > A_i \) 时才进入观测）。

模型：短长期风险比模型定义为：

\[h(t|X) = h_0(t) \cdot \frac{\exp(\beta_1^\top X) S_0(t) + \exp(\beta_2^\top X) (1 - S_0(t))}{S_0(t) + \exp(\beta_2^\top X - \beta_1^\top X)(1 - S_0(t))}\]

或者使用更常见的 odds 形式（Yang & Prentice, 2005）：令 \( \theta_j = \exp(\beta_j) \)，模型保证早期风险比 \( \approx e^{\beta_1} \)，晚期风险比 \( \approx e^{\beta_2} \)。当 \( \beta_1 = \beta_2 \) 时退化为 PH；\( \beta_2 = 0 \) 时退化为 PO。

可观测数据：实际观测到的是检查区间 \( (L_i, R_i] \) 和协变量 \( X_i \)，以及截断时间 \( A_i \)。我们不知道 T_i 的精确值，但知道它落在区间内，且满足 \( T_i > A_i \)。潜在量是 T_i 本身和基线生存函数（待估）。

第二步：最小内核¶

最简特例：考虑 p=1（一个二元协变量 X=0/1），无左截断（A_i=0 对所有 i），每个个体只有一个检查时间：即 \( L_i = 0 \)，\( R_i = C_i \)（右删失）或 \( L_i = C_i \)，\( R_i = \infty \)（左删失），或者区间已知。为了显示核心，再简化：所有个体在同一检查时间 t_0 被检查（如队列追踪后固定时间点）。此时数据退化为：对于每个个体，只知道是否在 t_0 前死亡（即右删失或区间删失的特例：区间为 \( (0, t_0] \) 或 \( (t_0, \infty) \)）。此时缺失精确时间。

在此设定下，模型简化为：\( S(t_0|X) = S_0(t_0)^{\exp(\beta_1 X)} \cdot \frac{S_0(t_0) + (1-S_0(t_0)) \exp(\beta_2 X)}{S_0(t_0) + (1-S_0(t_0))} \)？实际上短长期模型在单点上的形式可显式写出。

似然函数为：

\[\prod_{i: T_i \leq t_0} [1 - S(t_0|X_i)] \prod_{i: T_i > t_0} S(t_0|X_i)\]

其中未知参数：\( \beta_1, \beta_2 \) 以及基线生存概率 \( S_0(t_0) \)（标量非参）。这是个纯粹的二项似然，但交叉结构使参数可识别（只要两种协变量都有观测）。此时NPMLE退化为一个无约束优化问题，可以使用简单的牛顿法求解。这个特例揭示了论文核心困难不是多时间点，而是截断与区间删失带来的非参数基线函数不可化约。当扩展至多个检查时间时，基线函数变成阶梯函数，推出来就是分段常数 NPMLE。

三、这篇论文做了什么¶

三句话¶

① 将短长期风险比模型扩至区间删失与左截断数据，并处理截断下的可识别性。② 核心工具是NPMLE（非参数最大似然估计），证明其基线生存函数估计具有分段常数形式，并开发了带半步长策略的迭代凸极小化算法（ICM）进行数值求解。③ 主要结论：在模拟和三个真实数据集上，方法在非PH/PO情况下优于传统PH/PO，且Wald检验在简化场景下有效。

关键设定与假设¶

基本假设：给定协变量 X，删失和截断机制独立于生存时间（条件独立）。区间删失和左截断符合“混合型”（mixed case）机制，即检查时间和截断时间随机但独立于 T。
可识别性条件：截断时间 A_i 的支撑与 L_i 的支撑有适当重叠，避免完全左截断导致的信息丢失（作者在摘要提及讨论了识别性挑战，但具体条件需见原文）。
模型假设：短长期风险比模型正确；基线生存函数在观测时间点之间为常数（因NPMLE自动得到）。
与已有文献比较：放宽了允许同时存在区间删失和截断的条件，而此前短长期模型仅处理右删失；相比使用样条的半参数模型，本文保持离散化基线，计算更直接。

主要结果¶

定理1（推断）：在区间删失和截断数据下，基线生存函数的NPMLE是分段常数函数，节点位于所有可能的 \( L_i \) 和 \( R_i \) 的并集。这保证了估计的有限性。
定理2（算法收敛性）：所提出ICM算法结合半步长策略，保证对数似然在每次迭代单调不减，并收敛到局部最优解（因优化问题是凸的？需确认；短长期风险比模型的似然关于参数非凸，但关于基线是凹的，作者可能通过剖面似然技巧处理）。
推论：在简化常见场景（如所有个体左截断时间相同，或仅有一阶段删失），可构建近似零分布的Wald检验统计量，用于检验 \( \beta_1 = \beta_2 \)（PH假设）或 \( \beta_2 = 0 \)（PO假设）。

证明路线与技术技巧（基于抽象与一般知识推断）¶

整体路线：①写出条件似然（给定截断区间）；②引入参数化基线函数（阶梯形式）；③证明MLE解必在区间端点跳跃，即分段常数；④将非参部分视为无限维参数，与有限维参数联合优化；⑤使用剖面似然法降维，将基线用高阶替代，仅优化 \( \beta_1, \beta_2 \)；⑥利用ICM算法求解；⑦渐近理论部分可能依赖于经验过程理论，证明估计量的 \(\sqrt{n}\)-一致性和渐近正态性（本文未明确在摘要中给出，但通常此类文章会含定理）。
关键跳跃点：处理截断时，似然中需条件于 \( T_i > A_i \)，这使得基线函数的估计与截断点相关，但作者可能证明基准函数在截断点处仍保持分段常数。
技术技巧点名：
迭代凸极小化算法（ICM）：传统上用于加速失效时间模型；作者将其适配到短长期风险比模型中，每一步求解凸子问题。
半步长策略（half-stepping）：避免ICM步进过大导致震荡。
Wald检验基于简化场景：当截断和检查模式均匀时，参数估计的渐近方差可解析表达，从而不用 bootstrap。

真实例子与应用¶

本文包含三个真实数据集应用（根据摘要）：其中一个可能来自HBV感染队列（常见交叉生存），另一个来自癌症临床试验，第三个来自关节炎治疗（推测）。作者展示了协变量短期效应强、长期效应减弱甚至逆转的情况，并通过比较PH和PO模型的AIC或BIC，证明本文模型更拟合。具体应用过程：对各数据集拟合短长期模型，给出参数估计与置信区间，并进行Wald检验判断是否偏离PH。结果证实了交叉曲线的存在。

🔎 结论是否比证明窄¶

根据摘要，作者明确提到了“simplified yet commonly encountered practical scenario for Wald test”，说明Wald检验理论仅在该简化场景下严格证明，而非所有区间删失和截断模式。可能会在更一般场景下仅依赖bootstrap或不提供检验。值得仔细阅读原文结论部分，看是否存在将局部结果泛化声称的倾向。

四、开放问题¶

半参数效率界的推导：本文未给出短长期模型在区间删失+截断数据下的半参数效率界。扎根于：效率理论常是此类半参数工作的自然延伸，而本文未提及。可参考同类文章（如Zeng, Mao & Lin 2016）的效率界结果，对比本文场景扩展。
自适应检验对多种数据模式的适用性：Wald检验仅在“简化常见”场景下有效。如何对一般区间删失+截断数据构造分布自由的检验（如调整自由度）？原文未解决。
高维协变量扩展：当前方法假设p固定且较小。当p大时（如基因数据），需引入正则化（如LASSO），但短长期模型的非凸似然给稀疏估计带来困难。本文未涉及。
非参数基线函数的光滑化：NPMLE为分段常数，意味着估计生存函数为阶梯形。若希望平滑估计，可引入惩罚样条或核光滑，但效率与一致性的权衡需要分析。本文未讨论。

提醒：建议阅读近5年 interval-censored data 的半参数模型文献，查看是否已经有类似短长期模型的识别性与效率界工作。若多篇指向同一缺口，则为可靠开放问题；若互相矛盾，则机会更大。

Maintained by 陈星宇 · Homepage · Source on GitHub