Semiparametric Regression Analysis of Interval-Censored Multi-State Data with An Absorbing State¶

作者: Yu Gu, Donglin Zeng, D. Y. Lin
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2024.2448858

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是慢性疾病进展中的多状态过程数据（如健康→轻病→重病→死亡）在区间删失与吸收态并存下的统计推断问题。根本困难在于：转移时间因定期检查而只能知道落在某个区间内（区间删失），而一旦进入吸收态（如死亡），其发生时间虽已知或右删失，但进入吸收态前一瞬所处的瞬态却不可观测。当前该方向的成熟度处于"特定模型有渐近理论、但一般框架与效率理论尚不完整"的阶段。

发展脉络（history）： - 奠基工作：多状态模型与区间删失的早期处理多依赖 Markov 假设与常协变量。如 Kalbfleisch & Lawless (1985) 在 Markov 假设下处理面板数据；Sun (2006) 系统总结了区间删失的一般推断框架，但多针对单事件或两状态。 - 主要进展：逐步放宽 Markov 假设、引入时变协变量与随机效应。如 Satten (1999) 与 Sternberg & Satten (2001) 在非 Markov 下做区间删失多状态推断，但未处理吸收态与随机效应的联合；Gentleman et al. (1994) 与 Gruer et al. (1999) 尝试了含吸收态的似然构造，但未给出渐近理论；Fay (1999) 提出了区间删失多状态的 NPMLE，但局限于无协变量情形。 - 当前 frontier：半参数模型（如比例强度模型）下，如何同时容纳时变协变量、随机效应、区间删失与吸收态，并给出一致渐近正态估计量与半参数效率界。已有文献在右删失或当前状态数据下实现了效率推断（如 Zeng et al. 2017 在右删失多状态下的 NPMLE 与效率界），但区间删失+吸收态+瞬态未观测的组合尚无完整理论。 - 本文的位置：填补上述组合缺口，提供一般框架（比例强度+随机效应+时变协变量），构造 NPMLE+sieve 估计量，给出渐近理论并推导半参数效率界。

子线索聚类： 1. 多状态 Markov / 半 Markov 推断：在 Markov 假设下利用面板数据做转移概率与强度估计（Kalbfleisch & Lawless 1985; Satten 1999）。这一簇留下口子：Markov 假设过强，无法容纳随机效应与记忆性。 2. 区间删失似然构造与 NPMLE：针对区间删失构造非参数极大似然估计（Fay 1999; Sun 2006; Gentleman et al. 1994）。这一簇留下口子：无协变量或无吸收态，渐近性质未建立。 3. 半参数效率理论与 sieve 估计：在右删失或当前状态数据下，利用 sieve 与 NPMLE 实现半参数效率推断（Zeng et al. 2017; Wellner & Zhang 2007）。这一簇留下口子：未推广至区间删失+吸收态+瞬态未观测的复杂似然结构。

这个方向在追问的核心问题： 1. 在区间删失与吸收态并存、瞬态不可观测的复杂似然下，半参数极大似然估计量是否仍一致且渐近正态？ 2. 此设定下的半参数效率界是什么，所提估计量是否达到该界？ 3. 如何在时变协变量与随机效应下实现动态预测（利用累积疾病历史预测未来状态与生存时间）？当前主流方法瓶颈：似然函数因瞬态未观测而涉及无穷维积分（对随机效应与未观测瞬态路径积分），传统 M-估计理论难以直接套用；区间删失使得转移时间的排序结构复杂，经验过程收敛速率的建立比右删失更困难。

⚠️ 作者的 framing（这是作者的说法）：作者将缺口 frame 为"现有文献要么局限于 Markov 假设、要么局限于无协变量/无吸收态，缺乏一个同时处理时变协变量、随机效应、区间删失转移与吸收态的一般框架"，从而让本文的 NPMLE+sieve+效率界组合成为"显然的下一步"。被淡化的竞争路线：纯贝叶斯方法（如 MCMC 处理随机效应与未观测路径）在应用中广泛使用，但 intro 未提及其推断性质与计算代价的对比；此外，基于伪观察或 IPCW 的方法在多状态动态预测中有应用，也未在 intro 中讨论。明显该被引却未出现的：关于区间删失多状态贝叶斯推断的文献（如 Pan et al. 的贝叶斯多状态工作）、以及基于 g-formula 或 IPCW 的动态预测方法——这些是研究者值得去查的竞争路线。

张力：未见明显对立引用。各被引工作在不同子设定下给出正面结果（Markov 下有推断、NPMLE 下有计算、右删失下有效率界），本文是在它们未覆盖的组合设定下做推广，逻辑上是顺延而非反驳。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

$K$：瞬态（transient states）的数量，瞬态集合为 $\{1, 2, \ldots, K\}$；$K+1$ 为吸收态（如死亡）。
$S(t)$：时间 $t$ 时主体所处的状态，取值于 $\{1, \ldots, K, K+1\}$。
$Z(t)
\[**：时变协变量过程，在时间 $t$ 可观测。 - **$b$**：随机效应（random effect），服从某个分布 $G(b;\eta)$，$\eta$ 为其参数；$b$ 不可观测。 - **$\Lambda_{jk}(t; Z, b)$**：从瞬态 $j$ 到瞬态 $k$（或吸收态 $K+1$）的累积强度函数，模型为**半参数比例强度模型**：\]
\Lambda_{jk}(t; Z, b) = \Lambda_{jk0}(t) \exp(\beta_{jk}^T Z(t) + b_{jk})$$ 其中 $\Lambda_{jk0}(t)$ 是无穷维基线累积强度（非参数部分），$\beta_{jk}$ 是有限维回归系数**（参数部分），$b_{jk}$ 是随机效应分量。
$\theta = (\beta, \Lambda_0, \eta)$：全部参数，其中 $\beta$ 与 $\eta$ 为有限维，$\Lambda_0 = \{\Lambda_{jk0}\}$ 为无穷维。
可观测数据：对每个主体 $i$，观测到检查时间序列 $V_{i1} < V_{i2} < \ldots < V_{iM_i}$，在每个检查时间 $V_{im}$ 记录状态 $S(V_{im})$；若主体在时间 $D_i$ 进入吸收态，则观测到 $D_i$（或右删失时间 $C_i$，此时 $D_i > C_i$ 且 $S(C_i) \leq K$）。关键：进入吸收态前一瞬的状态不可观测（即 $S(D_i^-)$ 未知）。
不可观测 / 潜在量：瞬态之间的精确转移时间、进入吸收态前一瞬的瞬态、随机效应 $b$。

第二步：最小内核——二瞬态+单次检查+吸收态的特例

剥掉所有一般性假设，取最简特例： - $K=2$（两个瞬态：状态1=轻病，状态2=重病），吸收态=3（死亡）。 - 只允许 $1 \to 2$、$2 \to 3$、$1 \to 3$ 三类转移（无 $2 \to 1$ 回退）。 - 无时变协变量、无随机效应（$\beta=0, b=0$），模型退化为 $\Lambda_{jk}(t) = \Lambda_{jk0}(t)$。 - 单次检查时间 $V$：观测 $S(V)$；若 $V$ 前已死亡，观测到死亡时间 $D < V$；否则若 $V$ 后死亡，观测到 $D$（或右删失 $C$）。

核心数学困难在这个特例下是什么？ 似然函数对主体 $i$ 的贡献： - 若 $D_i < V_i$（检查前已死亡）：似然为 $\Lambda_{13}(D_i)$ 的密度（从1直接死亡）或 $\Lambda_{12}(t)\Lambda_{23}(D_i)$ 的联合密度（1→2→3路径），但进入死亡前一瞬的状态未知，因此必须对两条路径积分/求和。 - 若 $S(V_i)=1$ 且 $D_i > V_i$：似然为 $1 - \Lambda_{12}(V_i) - \Lambda_{13}(V_i)$（在 $V_i$ 仍在状态1）。 - 若 $S(V_i)=2$ 且 $D_i > V_i$：似良为从1到2的转移落在 $(0, V_i)$ 内、且在 $V_i$ 到 $D_i$ 间从2到3的联合概率——转移时间区间删失。

最小内核命题：在此特例下，NPMLE $\hat{\Lambda}_{jk0}$ 是否一致且渐近正态？证明路线的骨架： 1. 似然构造：对未观测路径求和，得到关于 $\Lambda_{jk0}$ 的似然（此时 $\Lambda_{jk0}$ 为单调递增阶梯函数，跳跃点在观测时间点上）。 2. NPMLE 存在性与计算：EM 算法中，E 步对未观测路径与瞬态求期望，M 步更新 $\Lambda_{jk0}$ 的跳跃值——即使在此特例下，E 步也涉及对未观测瞬态（死亡前一瞬是1还是2）的概率计算。 3. 一致性：利用经验过程理论，证明似然泛函在 $\Lambda_{jk0}$ 空间上的极大值点收敛到真值——关键在于似然泛函的凹性/凸性分析与 Hellinger 距度的收敛。 4. 渐近正态：对参数部分（此处无 $\beta$，只有 $\Lambda_{jk0}$ 在特定时间点的值），利用 sieve 估计理论（将 $\Lambda_{jk0}$ 限制在分段常数或多项式空间上），证明 sieve 估计量的线性展开，残差项可控。 5. 效率界：在此特例下计算信息矩阵——由于无 $\beta$，效率界退化为 $\Lambda_{jk0}$ 估计的渐近方差界，NPMLE 达到此界。

为什么这个特例能支撑全文？：全文的一般设定（多瞬态、时变协变量、随机效应、多次检查）只是在此特例上"加壳"：似然更复杂（对 $b$ 积分、对更多未观测路径求和），但核心困难——对未观测瞬态路径的求和导致似然非凸、EM 的 E 步需计算路径概率、渐近理论需处理无穷维参数与区间删失的排序结构——在此特例中已全部显现。全文的证明正是将此特例的路线推广到一般 sieve 空间与经验过程框架。

三、这篇论文做了什么¶

三句话： ①研究了区间删失多状态数据（含吸收态、瞬态未观测）下，带时变协变量与随机效应的半参数比例强度模型的估计与推断问题； ②核心工具是 NPMLE 结合 sieve 估计，配合稳定 EM 算法计算，理论工具为现代经验过程理论、sieve 估计理论与半参数效率理论； ③主要结论：所提估计量一致且渐近正态，达到半参数效率界，且动态预测有显式公式与渐近性质。

关键设定与假设： - 模型设定：半参数比例强度模型 $\Lambda_{jk}(t; Z, b) = \Lambda_{jk0}(t) \exp(\beta_{jk}^T Z(t) + b_{jk})$，$\Lambda_{jk0}$ 为单调递增无穷维函数，$\beta_{jk}$ 有限维，$b$ 服从参数分布 $G(b;\eta)$。 - 假设： - 条件独立性：给定 $b$ 与 $Z$ 历史，转移强度仅依赖当前状态与协变量（类似多状态下的 SUTVA / ignorability：给定随机效应后，路径无额外记忆）。 - 检查时间与删失时间的条件独立性：检查时间 $V$ 与删失时间 $C$ 的分布不依赖未观测的转移时间与随机效应 $b$（即非依赖性删失假设，类似独立删失）。 - $\Lambda_{jk0}$ 的单调性与有界性：基线累积强度单调递增且有界，保证 NPMLE 的存在性与似然泛函的性质。 - sieve 空间选取：$\Lambda_{jk0}$ 用分段常数或 B-spline 空间逼近，sieve 维度随样本量 $n$ 以适当速率增长（$k_n \sim n^{1/3}$ 或类似），控制逼近误差与估计误差的平衡。 - 相比已有文献（如 Zeng et al. 2017 在右删失下的设定），本文放宽了数据结构至区间删失+吸收态+瞬态未观测，但保留了条件独立性与非依赖性删失假设；相比 Satten (1999) 的非 Markov 设定，本文通过随机效应 $b$ 捕捉记忆性，但假设给定 $b$ 后过程满足比例强度模型。

主要结果： - 定理 1（一致性）：在 sieve 维度 $k_n \to \infty$ 且 $k_n/n \to 0$ 的条件下，NPMLE+sieve 估计量 $\hat{\theta}_n = (\hat{\beta}_n, \hat{\Lambda}_{0n}, \hat{\eta}_n)$ 在 $L_2$ 距度下一致收敛到真值 $\theta_0$。直觉：似然泛函在参数空间上有唯一极大值点，sieve 逼近误差随 $k_n$ 增大而减小，经验似然泛函的偏差随 $n$ 增大而减小，两者平衡保证一致性。必要条件：检查时间分布有密度、协变量有界、$\Lambda_{jk0}$ 单调有界。 - 定理 2（渐近正态性）：$\sqrt{n}(\hat{\beta}_n - \beta_0)$ 与 $\sqrt{n}(\hat{\eta}_n - \eta_0)$ 渐近正态，均值零，协方差矩阵达到半参数效率界；$\hat{\Lambda}_{0n}(t)$ 在固定时间点 $t$ 上渐近正态，速率 $\sqrt{n}$。直觉：sieve 估计量在有限维参数方向上有线性展开，残差项由经验过程理论控制为 $o_p(n^{-1/2})$；无穷维参数的渐近分布通过局部参数化（在时间点 $t$ 处对 $\Lambda_{jk0}$ 做局部扰动）得到。解决的技术难点：区间删失下似然泛函对 $\Lambda_{jk0}$ 的导数涉及未观测路径的概率，需通过 EM 的 E 步计算期望来构造有效得分函数。 - 定理 3（半参数效率界）：推导了此模型下有限维参数 $(\beta, \eta)$ 的半参数效率界，并证明 NPMLE+sieve 估计量达到此界。直觉：在无穷维 nuisance 参数 $\Lambda_{0}$ 与随机效应分布 $G$ 下，计算有效信息矩阵——关键在于构造正则估计量类与 tangent 空间，证明 NPMLE 的得分函数落在 tangent 空间内且为有效得分。

证明路线与技术技巧： - 整体路线： 1. 似然构造：对每个主体，写出给定观测数据下的完全数据似然（对未观测瞬态路径与随机效应 $b$ 积分/求和），得到边际似然 $L_n(\theta)$。 2. EM 算法：E 步计算未观测路径与 $b$ 的条件概率（利用当前参数估计）；M 步更新 $\beta$、$\eta$ 与 $\Lambda_{jk0}$ 的跳跃值（sieve 空间上的极大化）。 3. 一致性证明：利用经验过程理论（van der Vaart & Wellner 1996 的 Z-估计量理论），证明似然泛函的极大值点收敛——关键步骤是证明似然泛函在参数空间上的凹性/凸性结构，以及 Hellinger 距度的收敛速率。 4. 渐近正态证明：利用 sieve 估计理论（如 Shen 1997; Huang 1998 的 sieve M-估计渐近理论），对有限维参数做线性展开——核心是证明得分函数的余项（remainder）在 $n^{-1/2}$ 速率下可控，这需要经验过程的不等式（如 maximal inequality）来控制无穷维参数方向的波动。 5. 效率界推导：利用半参数效率理论（Bickel et al. 1993; van der Vaart 1998），计算 tangent 空间与有效信息矩阵——关键技巧是构造 nuisance 参数的扰动方向，证明 NPMLE 的得分函数在 nuisance 扰动下的投影为零（即得分函数与 nuisance tangent 空间正交），从而确认估计量有效。 - 关键跳跃点： - 未观测瞬态路径的处理：似然中需对进入吸收态前一瞬的瞬态求和，这导致似然非凸且 E 步计算复杂。作者通过 EM 算法的 E 步显式计算路径概率，并在渐近理论中将路径概率的估计误差纳入经验过程控制——这是比右删失多状态文献新增的难点。 - 随机效应 $b$ 的积分：边际似然对 $b$ 积分，使得似然泛函对 $\eta$ 的导数涉及 $b$ 的条件期望。作者在效率界推导中，利用 $b$ 的条件分布构造 tangent 空间的扰动方向，并证明 NPMLE 得分函数对 $\eta$ 扰动的正交性。 - 技术技巧点名： - 经验过程理论（van der Vaart & Wellner 1996）：用于控制似然泛函在无穷维参数空间上的波动，证明一致性与渐近正态的余项控制。具体用在定理1的 Z-估计量收敛证明与定理2的 maximal inequality 上。 - sieve 估计理论（Shen 1997; Huang 1998）：用于处理无穷维参数 $\Lambda_{jk0}$ 的估计，通过限制在分段常数/B-spline 空间上，控制逼近误差与估计误差。具体用在定理2的线性展开与残差控制。 - 半参数效率理论（Bickel et al. 1993; van der Vaart 1998）：用于推导效率界与证明估计量有效性。具体用在定理3的 tangent 空间构造与有效信息矩阵计算。 - EM 算法：用于计算 NPMLE，E 步对未观测路径与 $b$ 求条件期望，M 步在 sieve 空间上极大化。具体用在算法节，保证数值稳定性。 - Hellinger 距度与凸性分析：用于似然泛函的一致性证明，保证极大值点的唯一性与收敛。

真实例子与应用： - 数据：心脏同种异体移植血管病变（cardiac allograft vasculopathy, CAV）数据，来自 Stanford 心脏移植研究。主体为心脏移植患者，状态为：1=无CAV，2=轻度CAV，3=中度CAV，4=重度CAV，5=死亡（吸收态）。检查时间为定期血管造影检查时间，转移时间区间删失；死亡时间已知或右删失；进入死亡前一瞬的CAV状态未观测。 - 怎么用上去：将本文的半参数比例强度模型应用于CAV数据，协变量包括年龄、性别等（文中可能用时变协变量如免疫抑制治疗），估计各转移路径的基线强度与回归系数，并做动态预测（给定当前检查历史，预测未来状态与生存概率）。 - 得到什么结果：估计出各转移路径的 $\beta$ 系数与 $\Lambda_{jk0}$ 曲线，展示年龄等对转移强度的影响；动态预测曲线显示利用累积检查历史可显著提高预测精度（相比仅用基线信息）。 - 想说明什么：验证理论方法的实用性——NPMLE+sieve 在真实复杂删失数据上可计算且结果合理；动态预测展示方法在临床决策中的潜在价值。

🔎 结论是否比证明窄： - 作者在定理陈述中明确要求 sieve 维度 $k_n$ 满足特定速率条件（$k_n \to \infty$, $k_n/n \to 0$, 且 $k_n$ 不能过慢以保证逼近误差 $o(n^{-1/2})$），但文中对 $k_n$ 的具体常数界限未给出显式公式——这是 sieve 估计文献的常见做法，实际选取靠模拟经验。研究者若要复现或推广，需注意 $k_n$ 选取的敏感性。 - 效率界的推导假设了 tangent 空间的完备性与正则估计量类的构造，这些在文中以标准半参数理论框架引用，未重新证明——对于此复杂似然结构，tangent 空间是否确实完备（即无信息损失方向）值得研究者核验。 - 动态预测的渐近性质（如预测生存时间的置信区间）在文中给出，但证明依赖估计量的渐近正态性与 delta 方法，对预测误差的二阶展开未做细致分析——这是可深挖的点。

四、开放问题（点到为止，扎根具体语句）¶

sieve 空间选取对收敛速率与效率的影响：文中定理要求 $k_n$ 满足速率条件但未给出最优速率的显式公式（定理2证明中 $k_n \sim n^{1/3}$ 为常见选取，但是否为 minimax 最优？）。扎根点：定理2的 $k_n$ 条件陈述与证明中的逼近误差项。
tangent 穞间的完备性验证：效率界推导假设了 nuisance tangent 空间的完备性，但在含随机效应与未观测路径的复杂似然下，是否存在信息损失方向（即 tangent 空间不完备导致效率界不可达）？扎根点：定理3的 tangent 空间构造与 Bickel et al. (1993) 的引用。
依赖性删失与检查时间的推广：文中假设检查时间与删失时间非依赖性（条件独立于未观测路径与 $b$），若此假设不成立（如病重者更频繁检查），似然构造与渐近理论如何修改？扎根点：假设陈述中的条件独立性假设（Section 2 的假设A3/A4）。
高维协变量下的 sieve 估计：当时变协变量维度高时，$\beta$ 的维度增大，sieve 估计的收敛速率与效率界是否仍成立？扎根点：定理2的有限维参数渐近正态要求 $\beta$ 维度固定，未讨论高维情形。

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——若都指向 sieve 选取 / tangent 完备性 / 依赖性删失 = 共识（真 gap），若互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Semiparametric Regression Analysis of Interval-Censored Multi-State Data with An Absorbing State¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论