Proportional Hazards Regression for Interval‐Censored Outcomes With an Interval‐Censored Covariate¶

作者: Dongdong Li, Yue Song, Wenbin Lu, Huldrych F. Günthard, Roger Kouyos et al.
来源: Statistics in Medicine
主题: 流行病学
相关性: 5/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70573

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是生存分析中一种特定的数据缺失结构：区间删失。与右删失不同，区间删失意味着我们只知道事件发生的时间落在一个观测区间 \((L, R]\) 内（甚至 \(R=\infty\) 即右删失，\(L=0\) 即左删失），而不知道确切发生时刻。本篇论文面临的根本统计问题是：当结局（如病毒反弹时间）与协变量（如病毒抑制时间）同时遭受区间删失时，如何在比例风险模型下对回归系数进行一致的估计与推断，且不依赖基线风险的参数假设。

发展脉络： 1. 奠基与单侧区间删失：经典的右删失比例风险模型由 Cox (1972) 奠基，其部分似然巧妙避开了基线风险的估计。然而，当结局面临区间删失时，部分似然不再适用。Finkelstein (1986) 首次提出了针对纯区间删失结局（无删失协变量）的比例风险回归估计方法，这构成了后续所有区间删失回归方法的基石。 2. 协变量存在缺失/删失的进展：当协变量存在测量误差或缺失时，回归系数的估计会产生偏差。针对右删失协变量，Goggins et al. (1999) 与 Chen et al. (2005) 等提出了基于似然的修正方法；但区间删失协变量比右删失更难，因为协变量的确切取值被一个区间锁死，无法直接代入似然。 3. 当前 frontier 与本文位置：目前文献中，结局区间删失+协变量区间删失的联合建模几乎是空白。作者在引言中明确指出："modeling approaches that relate an interval‐censored outcome and an interval‐censored covariate... under the assumption that viral load only crosses a threshold when bracketed by consecutive assessments" 是未被解决的。本文填补了这一空白，提出了非参数基线风险下的联合似然推断，并进一步推广到聚类数据（同一患者多次中断治疗）。

子线索聚类： - 线索 A：纯区间删失结局的回归（Finkelstein 1986 等）：只处理 \(T\)（结局）的区间删失，协变量完全观测。核心是构造全似然并估计非参数基线风险。 - 线索 B：带缺失/右删失协变量的生存回归（Goggins 1999, Chen 2005 等）：协变量有缺失或右删失，结局通常是右删失。主要手段是 EM 算法或修正似然。 - 线索 C：聚类/重复事件的区间删失（Goggins et al. 1998 等）：同一主体有多个区间删失事件，需处理主体内相关性。

这个方向在追问的核心问题： 1. 识别问题：在非参数基线风险下，同时存在区间删失结局与区间删失协变量时，回归系数是否可识别？似然是否有唯一极大值？ 2. 估计与计算：如何处理协变量取值不确定带来的似然积分？如何同时估计非参数基线风险（无穷维参数）与有限维回归系数？ 3. 推断：在剖似然框架下，回归系数估计量的渐近分布是什么？如何计算其方差（特别是当基线风险被当作讨厌参数处理时）？

⚠️ 作者的 framing： - 作者将缺口 frame 为：既有方法只能处理结局区间删失或协变量右删失，而现实（如 HIV 病毒抑制与反弹）中两者常常同时区间删失。这使得本文的联合建模成为"显然的下一步"。 - 被淡化的竞争路线：作者没有讨论多重插补或两阶段估计（先估协变量分布，再代入回归）这类可能避开联合全似然积分的替代方案；也没有讨论完全参数化基线风险（如 Weibull）的设定——虽然参数设定计算更简，但模型假设更强。 - 缺失的引用：引言中未出现关于非参数最大似然估计（NPMLE）渐近性质的一般性理论文献（如 Wellner & Zhang 2007 等关于区间删失半参数效率与渐近正态的深度工作），也未提及半参数效率界的计算。这值得研究者去查：本文的估计量是否达到了半参数效率界？还是仅为 \(\sqrt{n}\)-consistent？

张力：未见明显对立引用。但存在一个隐性张力：非参数基线风险下的区间删失似然，其 NPMLE 的渐近正态性证明在纯结局区间删失情形下已极为复杂（需要经验过程与剖似然理论），加入区间删失协变量后，似然函数的凸性与参数空间的紧性是否还能保证？作者在摘要中声称推导了渐近性质，但具体证明条件需在第三节查验。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

参数 / estimand：
\(\beta\)：比例风险模型中的回归系数（有限维，本文核心估测对象）。
\(\lambda_0(t)\)：基线风险函数（无穷维讨厌参数）。
潜在量：
\(X\)：协变量的真实取值（如达到病毒抑制的真实时间 \(T_{supp}\)），不可观测。
\(T\)：结局的真实取值（如病毒反弹的真实时间 \(T_{rebound}\)），不可观测。
可观测数据：
\((L_X, R_X)\)：协变量 \(X\) 的观测区间，已知 \(X \in (L_X, R_X]\)。若 \(R_X = \infty\) 则为右删失。
\((L_T, R_T)\)：结局 \(T\) 的观测区间，已知 \(T \in (L_T, R_T]\)。
\(Z\)：其他完全观测的协变量向量。
对于聚类数据情形，同一主体 \(i\) 有 \(K_i\) 个重复观测（多次治疗中断），此时观测数据为 \(\{(L_{X_{ik}}, R_{X_{ik}}, L_{T_{ik}}, R_{T_{ik}}, Z_{ik})\}_{k=1}^{K_i}\)。
样本量：\(n\) 个独立主体（聚类情形下主体间独立，主体内相关）。
模型（数据生成机制）：
\(T\) 服从比例风险模型：\(h(t | X, Z) = \lambda_0(t) \exp(\beta X + \gamma^T Z)\)。
\(X\) 的边际分布：未指定参数形式，假设其具有某个非参数密度 \(f_X\)（或在给定 \(Z\) 下的条件密度）。
删失机制：假设区间 \((L_X, R_X)\) 与 \((L_T, R_T)\) 的生成机制满足非参数独立删失假设（即删失时间与潜在事件时间在给定已观测历史下独立）。

第二步：最小内核

剥掉聚类结构、多维完全观测协变量 \(Z\) 和一般删失机制，考虑最简特例： - 单一主体（无聚类），单一区间删失协变量 \(X\)，单一区间删失结局 \(T\)，无其他协变量。 - 模型退化为：\(h(t | X) = \lambda_0(t) \exp(\beta X)\)。

最小内核的数学问题：如何基于 \(n\) 个独立同分布的观测 \(\{(L_{X_i}, R_{X_i}, L_{T_i}, R_{T_i})\}_{i=1}^n\) 估计 \(\beta\)？

核心困难在于：似然函数中 \(X_i\) 未知，必须对其所有可能取值积分。单个观测的似然贡献为：

\[L_i(\beta, \lambda_0, f_X) = \int_{L_{X_i}}^{R_{X_i}} \left[ \exp\left(-\int_0^{L_{T_i}} \lambda_0(u) e^{\beta x} du\right) \times \left(\lambda_0(V_i) e^{\beta x}\right) \times \exp\left(-\int_{V_i}^{R_{T_i}} \lambda_0(u) e^{\beta x} du\right) \right] f_X(x) dx\]

（其中 \(V_i\) 是事件发生的确切时间，若 \(T_i \in (L_{T_i}, R_{T_i}]\)，则 \(V_i \in (L_{T_i}, R_{T_i}]\)，这又引入了一层积分！）

本文的破局思路（最小内核版）： 1. 离散化基线风险：将 \(\lambda_0(t)\) 限制在观测区间的端点集合上取值（即 Turnbull 型离散支撑），将无穷维讨厌参数降为有限维（随 \(n\) 增长），从而避开连续时间下 NPMLE 的非正则性难题。 2. 剖似然：把 \((\lambda_0, f_X)\) 视为讨厌参数，在给定 \(\beta\) 下先极大化似然求出 \(\hat{\lambda}_0(\beta)\) 与 \(\hat{f}_X(\beta)\)，然后构造只关于 \(\beta\) 的剖似然 \(pl(\beta)\)。 3. 数值积分：在计算剖似然时，对 \(X\) 与 \(T\) 的区间积分通过离散求和实现。

在这个最简特例下，要证的命题退化成：在基线风险离散化且非参数独立删失假设下，剖似然极大值点 \(\hat{\beta}\) 是否具有 \(\sqrt{n}\)-consistency 与渐近正态性？ 证明的难点在于：讨厌参数空间随 \(n\) 增长，剖似然的一阶导数是否仍能保持均值为零且方差可控？本文通过经验过程工具与剖似然渐近理论（类似 Murphy & van der Vaart 2000 的框架）来绕过这一难点。

三、这篇论文做了什么¶

三句话： ①研究了结局与协变量同时遭受区间删失时的比例风险回归估计与推断问题； ②核心工具是非参数基线风险（离散化支撑）下的剖似然与数值积分，并扩展至聚类数据的稳健方差估计； ③主要结论是：在非参数独立删失假设下，回归系数的剖似然估计量具有 \(\sqrt{n}\)-consistency 与渐近正态性，且有限样本模拟与 HIV 队列应用验证了方法的实用性。

关键设定与假设： - 假设 1：非参数独立删失：区间删失时间 \((L_X, R_X)\) 与 \((L_T, R_T)\) 的生成机制，与潜在真实时间 \((X, T)\) 独立（或在给定 \(Z\) 下独立）。这是识别性的根本保障，若违反（如病重者更频繁检测导致更窄区间），估计有偏。 - 假设 2：比例风险结构：\(h(t|X,Z) = \lambda_0(t) \exp(\beta X + \gamma^T Z)\)。相比参数化基线风险（如 Weibull），本文放宽为非参数，但比例风险的线性指数结构仍需满足。 - 假设 3：离散化基线风险支撑：\(\lambda_0(t)\) 仅在所有观测区间端点构成的集合上取非零值。这是半参数似然可计算的关键，也是渐近理论能走通的前提（避免了连续时间 NPMLE 的非正则性）。 - 聚类扩展设定：同一主体 \(i\) 的 \(K_i\) 个重复观测之间，通过共享主体级随机效应（frailty）或使用稳健方差估计来处理相关性。本文采用的是稳健方差估计，即在渐近方差矩阵计算中使用 sandwich 估计量，而非显式建模 frailty。

主要结果： - 定理 1（渐近正态性）：在非参数独立删失与正则条件下，\(\sqrt{n}(\hat{\beta} - \beta) \xrightarrow{d} N(0, I^{-1})\)，其中 \(I\) 是剖似然的有效信息矩阵。直觉：尽管讨厌参数（基线风险与协变量分布）无穷维且随 \(n\) 增长，剖似然框架仍能将讨厌参数的估计不确定性吸收，使得 \(\beta\) 的推断不受其影响。必要条件：似然函数在真参数附近足够光滑（可微），且讨厌参数空间的熵增长受控。 - 定理 2（聚类情形的渐近性质）：在聚类数据下，若主体间独立、主体内观测共享某些相关性结构，\(\hat{\beta}\) 仍具 \(\sqrt{n}\)-consistency，其渐近方差需用聚类稳健 sandwich 估计量计算。解决了同一患者多次中断治疗带来的组内相关问题。

证明路线与技术技巧： - 整体路线： 1. 构造全似然 \(L(\beta, \lambda_0, f_X)\)，对 \(X\) 与 \(T\) 的区间进行积分。 2. 固定 \(\beta\)，对 \(\lambda_0\) 与 \(f_X\) 极大化全似然，得到剖似然 \(pl(\beta)\)。 3. 证明剖似然 \(pl(\beta)\) 满足 Murphy & van der Vaart (2000) 型的渐近正则性条件（关键：讨厌参数估计 \(\hat{\lambda}_0(\beta)\) 的收敛速率不损害 \(\beta\) 的 \(\sqrt{n}\) 速率）。 4. 利用剖似然的一阶导数展开，证明其渐近正态性。 5. 在聚类情形下，调整方差估计公式，使用 sandwich 矩阵替代逆信息矩阵。 - 关键跳跃点：证明讨厌参数 \(\hat{\lambda}_0(\beta)\) 的收敛速率足够快（通常需要 \(n^{-1/3}\) 或更快），使得剖似然二阶导数的余项可控。这是半参数剖似然理论中最吃功夫的一步，因为 \(\lambda_0\) 的 NPMLE 在区间删失下通常只有 \(n^{-1/3}\) 速率（非 \(\sqrt{n}\)），但剖似然框架允许讨厌参数速率慢于 \(\sqrt{n}\) 只要满足特定熵条件。 - 技术技巧点名： - 剖似然：用于将无穷维讨厌参数从推断中剥离，核心工具。 - 经验过程 / 熵控制：用于证明讨厌参数空间（随 \(n\) 增长的离散支撑集合）的括号熵满足 Pollard 型条件，保证极大似然估计量的存在性与收敛性。 - Turnbull 算法 / EM 算法：用于数值计算 NPMLE，在 E 步计算事件落入各区间的概率，M 步更新基线风险与协变量分布。 - Sandwich 估计量：用于聚类情形下的稳健方差计算，避免显式指定主体内相关结构。

真实例子与应用： - 数据：瑞士苏黎世原发 HIV 感染队列。研究场景：ART（抗逆转录病毒治疗）中断后，病毒反弹时间（结局，区间删失）能否被 ART 开始后病毒抑制时间（协变量，区间删失）预测。 - 如何使用：将每次 ART 开始到病毒抑制的时间窗作为 \((L_X, R_X)\)，将 ART 中断到病毒反弹的时间窗作为 \((L_T, R_T)\)，同一患者多次中断治疗作为聚类观测。 - 结果：\(\hat{\beta} > 0\) 且显著，即ART 后病毒抑制时间越长，中断后病毒反弹的风险越高。这与 HIV 潜伏库大小可能相关的生物学假设一致：抑制越慢，潜伏库越大，反弹越快。 - 说明什么：验证了方法在真实复杂删失数据下的可用性，且发现了具有生物学意义的关联，展示了处理区间删失协变量（而非简单忽略或取中点替代）的必要性。

🔎 结论是否比证明窄： - 摘要中声称 "We derive the asymptotic properties"，但渐近正态性的严格证明通常需要极强的正则条件（如似然函数的三阶导数有界、讨厌参数空间的局部凸性等）。论文正文可能只在离散化基线风险支撑这一特定设定下完成了证明，而泛泛声称了"非参数基线风险"的渐近性质。研究者需查验：定理陈述是否明确限定了 \(\lambda_0\) 的支撑集为有限且随 \(n\) 增长的离散集？如果是，那么"非参数"这一说法在渐近理论上是有折扣的（它是离散逼近，而非连续空间上的真正 NPMLE）。

四、开放问题（点到为止）¶

半参数效率界：本文的剖似然估计量是否达到了结局与协变量同时区间删失情形下的半参数效率界？扎根点：引言与摘要未提及效率界，仅声称了渐近正态性。若未达到，是否存在更高阶影响函数（HOIF）驱动的估计量能逼近效率界？
连续时间基线风险的渐近理论：本文证明依赖基线风险在离散支撑上的逼近。若直接在连续时间空间上定义 \(\lambda_0(t)\) 的 NPMLE，其非正则性（\(n^{-1/3}\) 速率与非正态极限分布）如何影响 \(\beta\) 的剖似然推断？扎根点：第三节指出的证明路线依赖离散化支撑假设。
删失机制的依赖性：若观测区间的生成与潜在事件时间相关（如 informative interval censoring），识别性与估计方法如何修改？扎根点：假设 1 明确要求非参数独立删失，这是识别的基石，也是现实中最易被违反的。
协变量分布的参数化假设敏感性：虽然 \(\lambda_0\) 是非参数的，但 \(f_X\)（协变量边际分布）在似然计算中是否也被当作非参数处理？若对 \(f_X\) 施加参数假设（如 Gamma分布），对 \(\beta\) 估计的影响有多大？扎根点：最小内核中 \(f_X\) 与 \(\lambda_0\) 同为讨厌参数，需查验正文是否对 \(f_X\) 也做了离散化/非参数处理。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Proportional Hazards Regression for Interval‐Censored Outcomes With an Interval‐Censored Covariate¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论