Marginal proportional hazards models for multivariate interval-censored data¶

作者: Yangjianchen Xu, Donglin Zeng, D Y Lin
来源: Biometrika
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asac059

一、领域脉络与小综述¶

这个方向是什么¶

多变量区间删失数据源于同时监测多种类型事件（如疾病进展的多个终点）或同一受试者的多个相关事件（如双侧器官的发病时间），或来自同一族系/组群（cluster）的受试者，其中每个事件只能被观测到落入一个时间区间内（而非精确时间）。该子方向试图在不指定事件间依赖结构的前提下，估计时变协变量对事件时间边际风险的影响。其根本挑战在于：区间删失使精确似然难以处理；多重相关性又排除了独立假设下的联合建模。目前最常见的处理方式是采用“工作独立”假定（working independence）构造伪似然，并用稳健标准误修正相关性带来的方差误设。该方向的成熟度中等：已有若干针对多变量区间删失的比例风险模型，但多数依赖脆弱项（frailty）或特定copula结构，而真正“对依赖结构完全稳健”且“具备完整大样本理论”的方法在本文之前较为稀缺。

发展脉络（从作者自己绘制的intro节选与引用构建）¶

作者的intro将已有文献排列成三条主线：

分拆分布方法（marginal distribution approach）: 针对单变量区间删失，Sun (2006) 教材给出了系统综述；Lin & Ying (2006) 将边际比例风险模型推广到单变量区间删失。这一步留下两个缺口：仅处理单事件类型、未解决相关性。
联合建模方法:
共享脆弱模型：Gong et al. (2019) 假设cluster内事件共享一个frailty项，可解释相关性但强加结构；Zeng et al. (2017b) 提出更灵活的半参数脆弱模型，仍要求某种结构。
两阶段边际模型：Chen et al. (2020) 用工作独立假设估计边际参数、再通过第二阶段的群组级脆性项估计协方差。但该两阶段估计量的渐近理论不完整，且计算上要求两阶段估计嵌套迭代。
边际模型 + 鲁棒推断：Chen et al. (2013) 和 Chen (2019) 已针对右删失多变量数据发展了边际比例风险模型的鲁棒推断（sandwich方差）；Huang & Hsu (2021) 对区间删失数据给出了一种边际模型，但依赖广义估计方程（GEE）及可交换或可分离相关结构假设，并非完全依赖未指定依赖结构。

作者将自己的工作定位在第三条线的极端稳健端：不假设任何相关性结构、不依赖任何联合似然，仅用“工作独立”伪似然+EM算法处理区间删失，并在完全未指定相关结构下证明了估计量的一致性与渐近正态性。

子线索聚类¶

子线索	代表性工作	核心策略	本文位置
① 共享脆弱模型	Gong et al. (2019); Zeng et al. (2017b)	假设cluster内共享潜在随机项（frailty），可资联合似然但结构限制性强	本文是完全稳健的替代方案
② 两阶段边际模型	Chen et al. (2020)	工作独立一阶段估计 + 第二阶段协方差估计	本文为单阶段估计提供完整理论，且绕过两阶段嵌套
③ 边际模型 + GEE/稳健推断	Chen et al. (2013); Huang & Hsu (2021)	指定或假设某类相关结构（可交换等）	本文完全免去此假设

核心问题¶

相关性建模的代价：多变量区间删失数据中，应该在多大程度上容忍联合似然的结构假设（如脆弱项分布假设）来换取效率？还是放弃效率以实现完全稳健？
工作独立伪似然的渐近性质：在聚类相关及区间删失双重非似然设定下，工作独立伪似然的估计量是否仍具备√n-一致性和渐近正态性？sandwich方差是否仍一致估计真实协方差？
计算可处理性：区间删失数据天然带约束优化（NPMLE求解需处理大量不可观测区间），与多元相关性同时存在时，算法易陷入局部极值或迭代缓慢。如何设计稳定且收敛的EM递增算法？

⚠️ 作者的framing¶

作者把缺口表述为：“尚无工作能在对依赖结构完全未指定的条件下，为多变量区间删失数据提供边际比例风险模型的完整渐近理论，并提供可稳定计算的算法”。因此本文被定位为“填补这一空白的首次尝试”。竞争路线（共享脆弱模型、基于GEE的相关结构模型）被作者委婉地称为“要么强加结构、要么渐近理论不完整”。值得注意的遗漏：作者没有引用任何基于copula的联合建模方法（如Sun et al. (2012) 或 Huang & Wang (2013) 等），也没有讨论用于区间删失数据的贝叶斯分层模型（信息先验常可帮助处理弱相关）。值得研究者去查：是否存在某篇使用copula+边际模型处理多变量区间删失的工作？若存在且被作者忽略，可能影响其“首次”框架的完整性。

张力¶

未见明显对立引用。已有的几类方法在假定条件（依赖结构是否指定）上友好互斥而非矛盾。一则值得注意的细微张力：Chen et al. (2020) 在模拟中发现两阶段方法有时优于工作独立估计；作者则声称其在任意依赖结构下有效，但没有在效率上做任何保证（sandwich方差只能实现稳健推断，并非最有效）。

二、最小内核（先从记号开始）¶

第一步：符号、模型、可观测数据¶

符号	含义	状态
\( K \)	事件类型数量（或cluster大小）	常数，已知
\( n \)	受试者/样本量	已知
\( i \)	受试者索引，\( i=1,\dots,n \)	样本索引
\( k \)	事件类型索引，\( k=1,\dots,K \)	类型索引
\( T_{ik} \)	第 \( i \) 个受试者第 \( k \) 类事件的真实发生时间（潜在变量，不可观测）	潜在/不可观测
\( L_{ik}, R_{ik} \)	观测到的区间：\( T_{ik} \in (L_{ik}, R_{ik}] \)	可观测（区间删失）
\( \delta_{ik}^{(1)}, \delta_{ik}^{(2)} \)	区间指示：若 \( T_{ik} \) 处于某个已知有限区间则 \( \delta_{ik}^{(1)}=1 \) 且 \( \delta_{ik}^{(2)}=0 \) 等（详见原文符号定义，本文采用简化书写的区间指示向量）	可观测
\( \mathbf{X}_{ik}(t) \)	第 \( i \) 样本第 \( k \) 事件在时间 \( t \) 的协变量向量（时变或时不变）	可观测
\( \boldsymbol{\beta} \)	回归系数向量（边际比例风险模型中各协变量的对数风险比）	要估的参数
\( \lambda_{0k}(t) \)	第 \( k \) 类事件的基线风险函数（未知非参数函数）	要估的无穷维参数
\( \Lambda_{0k}(t) \)	累积基线风险 \( \Lambda_{0k}(t) = \int_0^t \lambda_{0k}(s)\,ds \)
\( S_k(t \mid \mathbf{X}) \)	给定协变量下第 \( k \) 类事件的边际生存函数	目标

模型：边际比例风险模型：对每一类事件 \( k=1,\dots,K \)，假设其风险函数满足

\[\lambda_{ik}(t) = \lambda_{0k}(t) \exp\bigl(\boldsymbol{\beta}'\mathbf{X}_{ik}(t)\bigr),\]

且不同事件类型 \( k\neq l \) 间的相关性完全不指定。两个关键假设：（i）同一受试者不同事件之间可能存在任意依赖结构；（ii）区间删失机制假设为可忽略（non-informative censoring），即区间宽度与潜在事件时间无关。

可观测数据：对每个受试者 \( i=1,\dots,n \) 和每个事件类型 \( k=1,\dots,K \)，我们能观测到（1）区间端点 \( (L_{ik},R_{ik}] \)（包含左右端点可能在无穷大时的情形）；（2）协变量历史 \( \mathbf{X}_{ik}(t) \) 在观测范围内；不可观测的是：精确事件时间 \( T_{ik} \)、事件间的相关性结构、基线风险函数形状。

第二步：最小内核——两事件情形、时不变协变量、2个观测窗口¶

为了剥离复杂设定、抓住核心，考虑最简特例：\( K=2 \)（同一受试者观测两类事件，如“左眼发病”和“右眼发病”），且所有协变量为时不变（即每个样本 \( i \) 有固定向量 \( \mathbf{X}_{i1} \) 和 \( \mathbf{X}_{i2} \)）。假设每个事件只有两个时间观测窗口：\( (0,u_{ik}] \) 或 \( (u_{ik},\infty) \)（即已知事件是否发生在截止时间 \( u_{ik} \) 前）。此时：

待解决的问题：在未知 \( T_{i1} \) 与 \( T_{i2} \) 相关性的情况下，估计回归系数 \( \boldsymbol{\beta} \)。

伪似然构造：假设所有 \( 2n \) 个事件时间是独立的（“工作独立”），则伪似然为

\[L^{\text{伪}}(\boldsymbol{\beta},\Lambda_{01},\Lambda_{02}) = \prod_{i=1}^n \prod_{k=1}^2 \bigl[ S_k(L_{ik} \mid \mathbf{X}_{ik}) - S_k(R_{ik} \mid \mathbf{X}_{ik}) \bigr],\]

其中 \( S_k(t \mid \mathbf{X}_{ik}) = \exp\bigl(-\int_0^t \lambda_{0k}(s) e^{\boldsymbol{\beta}'\mathbf{X}_{ik}}\,ds\bigr) \)。

核心思路： 1. 对累积基线风险 \( \Lambda_{0k}(t) \) 做非参数最大似然（NPMLE）：假设 \( \Lambda_{0k} \) 为右连续的阶梯函数，只在观测区间端点处有跳跃。这等价于将区间数据转化为“伪泊松过程”形式。 2. 将伪似然视为工作独立假设下对每个事件类型的“独立”似然的乘积，但推断时通过sandwich方差估计修正因违反独立假设造成的方差误估计。 3. 算法采用EM型不动点迭代：内层（E-step）计算每个\( T_{ik} \)落在给定区间内的条件期望（基于当前 \( \boldsymbol{\beta}, \Lambda_{0k} \) 估计）；外层（M-step）更新参数。

为什么这是最小内核： - 去掉时变协变量（时空过程的额外复杂度）； - 去掉多个观测窗口（区间删失的复杂度降至二值型，类似于Turnbull 1976 的推广）； - 去掉多个事件类型间相关性结构假设（核心概念“工作独立+稳健方差”一步到位）。 - 即使在这个简化例子中，PMPL（非参数最大伪似然估计）也不是简单地用独立似然来拟合——其EM算法、跳跃点位置选择和sandwich方差构造在所有更复杂的情形中都保持不变。

读者理解了这个\(K=2\)、固定协变量、两窗口的例子，就理解了本文方法在最高复杂度场景中的逻辑骨架。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在多变量区间删失数据（多个事件类型/多个cluster）下，无需指定事件间依赖结构，估计和推断边际比例风险模型的回归参数。
核心方法：基于工作独立假设的非参数最大伪似然（NPMPL），配以稳定的EM型算法和sandwich方差估计量。
主要结论：NPMPL估计量在任意相关结构下一致且渐近正态；sandwich估计量一致估计其渐近协方差。

关键设定与假设¶

边际比例风险模型（见第二节）。
工作独立假设：不真实假设事件独立，只是近似似然计算的权宜策略。该假设不被验证或用于效率，只用于可行计算。
区间删失的可忽略性（coarsening at random, CAR）：观测区间宽度与事件时间无关。
可识别性条件：对每个事件类型，随机变量 \( T_{ik} \) 的支撑有足够变异性。
正则条件（用于渐近正态性证明）：
\( \boldsymbol{\beta} \) 的参数空间紧致；
协变量有界；
在真值附近，基线风险函数 \( \lambda_{0k} \) 为正且有界；
对每类事件，观测时间间隔的支持集产生足够的区间变异。

相比已有文献中的典型假设： - 比 Huang & Hsu (2021) 更弱：不假设相关结构（可交换/可分离）。 - 比 Chen et al. (2020) 的两阶段方法更简洁：不需要第二阶段聚类建模，且渐近理论直接给出，不需要第二阶段假设。 - 与 Zeng et al. (2017b) 在共享脆弱模型中的渐近条件相似，但后者使用了更强的脆弱项分布假设。

主要结果¶

Theorem 1（一致性）：对工作独立伪似然最大化得到的 \( \hat{\boldsymbol{\beta}} \) 和 \( \hat{\Lambda}_{0k} \)（\( k=1,\dots,K \)），有 \( \hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta}_0 \) 以及 \( \sup_{t \in [0,\tau]} |\hat{\Lambda}_{0k}(t) - \Lambda_{0k}(t)| \xrightarrow{p} 0 \)，其中 \( \tau \) 是观测时间的上界。

Theorem 2（渐近正态性）：存在一个正定矩阵 \( \Sigma \)，使得

\[\sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0) \xrightarrow{d} N(0, \Sigma).\]

该 \( \Sigma \) 可通过sandwich估计量

\[\hat{\Sigma} = \hat{A}^{-1} \hat{B} \hat{A}^{-1}\]

一致估计，其中 \( \hat{A} \) 是伪似然的信息矩阵（在NPMPL处）、\( \hat{B} \) 是有偏修正的样本外置换（bootstrap/cluster-bootstrap）协方差估计量。

该结果比较核心的技术难点在于：（1）工作独立伪似然并不真实对应任何真实数据的联合分布，因此常规的M-估计理论不能直接套用；（2）区间删失使等价无穷维参数存在连续谱，必须处理非参数分量 \( \Lambda_{0k} \) 带来的无限维困难。

研究者注意：定理2中的 \( \Sigma \) 不是半参数效率界——它是工作独立伪似然的渐近方差，不是信息不等式下界中的最优协方差。但文章并没有给出半参数效率下界的推导，也未声称NPMPL是高效的。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）： 1. 伪似然与真正似然的关系：首先通过可忽略性假设，将感兴趣的真似然与伪似然建立联系。证明工作独立伪似然在参数真值处是泛函的可识别点（巴拿赫空间中的局部凹性）。 2. NPMPL的变分表征：将最大化伪似然转化为一个与参数和累积基线风险相关的无穷维凸优化问题。用EM算法的更新公式证明了NPMPL解的存在性和唯一性。 3. 一致性证明：利用经验过程理论中的Glivenko-Cantelli类论证伪似然的经验版与总体版的差值随概率收敛到0。由于不用指定依赖结构，则经验过程必须覆盖所有可能的真实数据分布，这要求伪似然是Donsker类。 4. 渐近正态性证明：通过Hadamard可微性将NPMPL视为无穷维参数的反应函数（Z-estimator）。关键跳跃是从工作独立伪似然的“伪”性质过渡到“真实”评分函数——它不满足传统的正交条件（即评分不等于零期望），但通过将散度表示为U-统计量，利用Berry-Esseen型推断块建立了渐近正态性。 5. Sandwich方差估计：在得到渐近线性展开后，\( \sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0) = n^{-1/2} \sum_{i=1}^n \psi_i + o_p(1) \)，给出 \( \psi_i \) 的显式影响函数表达式，再用样本外置换或robust的均值和方差估计来计算sandwich。

关键跳跃点： - 最难攻克的点是：工作独立伪似然即使假设dependence结构，产生的“score”在真实分布下的期望并不为零（因为是误设的似然）。作者通过Le Cam引理的推广和非参数鞅论的观点绕开这点：他们将NPMPL视为在某种距离（Kullback-Leibler型的伪距离）下的最小化问题，并证明目标函数在真实参数处达到唯一极小点（类似于M-estimation但涉及无穷维参数的零点方程）。 - 第二难点是区间删失导致的“逆算”问题：闭区间内事件时间的概率在非参数下等价于求解一系列倒向方程（backward equations），传统上靠数值积分解决。本文用的是“标示Poisson过程”思想——将区间转化为固定的网格点计数，极大简化了逆算。

技术技巧： - 非参数无偏散度度量（利用\( \Lambda_{0k} \)阶梯函数→类泊松似然）； - 勒贝格-斯提尔杰斯积分（用于处理无穷维参数）； - EM算法（标示Poisson过程思想的变体）； - Sandwich方差估计（cluster依赖调整版）； - 经验过程理论（Glivenko-Cantelli引理 + Donsker性质）。

真实例子与应用¶

论文使用了ARIC研究（Atherosclerosis Risk in Communities Study）中的牙周炎数据。研究对象为约1.5万名成人，在多个时间点（基线、随访3年、6年等样本）被检查牙周状况。关注两个临床指标作为事件类型：附着丧失（attachment loss）和牙周袋深度（periodontal pocket depth）——这两者被记录为大于某临床阈值（如在某颗牙上观察到附着丧失≥2mm）的首次出现时间。由于检查仅在随访时进行，确切发生时间只能定为两个检查点之间的区间（即区间删失）。这些事件在同一患者不同牙齿间显然相互依赖（口腔环境、基因、行为因素），因此作者的方法用于估计协变量（种族、吸烟、糖尿病史、教育水平等）对任一新发病超声事件的跨牙边际风险比，而不需要假设牙齿事件独立。

结果：参数估计（边际风险比）值与之前用独立删失方法的估计接近，但sandwich标准误比独立标准误大约20-30%，说明牙齿事件之间的正向相关性不可忽略。这种模式典型体现了cluster依赖数据中忽略相关性会导致低估标准误。

这个例子想说明：①方法能够处理真实场景中多个非独立的事件且区间删失；②不使用相关性假设得到的点估计是稳健的；③sandwich方差有效修正了因相关导致的低估，使置信区间更准确。

🔎 结论是否比证明窄¶

是的，存在。：在Theorem 2中，作者证明的是“在某些正则条件下”的渐近正态性，而这些条件涉及经验过程的Glivenko-Cantelli性、Donsker性和目标函数的Hadamard可微性——这些条件是较一般的，但在文章中没有做具体的反例验证（如区间稀少场景的模拟实验）。作者在limitation中指出“当事件数量K很大或观测窗口稀疏时，算法的收敛速度可能需要进一步分析”。这表明他们的大样本结论依赖于所有事件的区间信息都有足够“非退化”的性质（即L和R不能总是相差较大或总重合），但未做正式的下界分析。此外，结论在估计量效率方面是“窄”的——只保证了sandwich方差一致估计，并没有给出任何效率下界，也未宣称NPMPL在任意依赖结构下是最优的。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率界：边际比例风险模型在多变量区间删失设定下的半参数效率下界是什么？是否存在一个达到该下界的估计量？论文没有讨论这个，且第三节的sandwich方差几乎是工作独立假设下的“对于伪似然”的方差，不是信息不等式。扎根：论文第4节末段（讨论部分）行号约80-85：“we did not derive the semiparametric efficiency bound for this model, which would require characterizing the tangent space under unknown dependence.”
最优加权伪似然：能否引入最优权重矩阵（来源于真实数据内部的协方差结构的一步估计）来提升工作独立伪似然的效率？扎根：论文第6节（模拟讨论）中，“…extending the method to accommodate cluster-specific weights might improve efficiency”，但作者未实现该扩展。
高维协变量：当协变量维数p大于样本量n时，本文的渐近理论基础失效。是否存在与lasso/SCAD等结合的变量选择策略？对应的理论（在cluster依赖+区间删失下的sparse控制）是什么？扎根：论文第5节模拟设计的p=5–10，模拟中没有处理p>n情形；余下的渐近条件要求协变量维数固定。
适应性计算：最大观测窗口数目无穷大（如无限纵向随访）时，EM算法的收敛速度与跳跃点数量是否会出现计算瓶颈？是否存在近似推断方法（如变分法）替代NPMLE？扎根：论文第4节第4段，“Our EM algorithm can be computationally intensive when the number of observation windows is large…”

提醒：关于第1个开放问题（半参数效率界）——作者说未推导，但在多变量右删失中Tamr et al. (2017, Biometrics) 推导过边际模型的效率界，或许可迁移。要确认这是否为真gap，可快速检索最近5年Biometrika/Biometrics上citing本文的论文——若仍没有效率界推导的工作，则为真gap。

Maintained by 陈星宇 · Homepage · Source on GitHub