Regression analysis of interval-censored competing risks data with missing causes of failure: A direct likelihood approach¶

作者: Yichen Lou, Yuqing Ma, Liming Xiang, Jianguo Sun
来源: Statistical Methods in Medical Research
主题: 非参数 / 半参数
相关性: 3/10
机构绿灯: Nanyang Technological University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261420820

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是生存分析中一类复合复杂数据——区间删失竞争风险数据且伴随失败原因缺失。根本的统计问题是：当研究对象经历多个互斥终点（竞争风险），且发生时间仅知落在某个检查区间内（区间删失），同时部分对象的终点类型未被记录（原因缺失）时，如何对回归参数与累积发生函数进行一致且有效的估计。当前该方向的成熟度处于“有可用方法但效率与计算存在明显瓶颈”的阶段：两阶段法已被提出并应用，但直接似然框架下的半参数有效估计仍待建立。

发展脉络（history）： - 奠基工作：竞争风险与区间删失各自有成熟框架。Fine & Gray (1999) 为右删失竞争风险建立了直接回归子分布风险的方法；Sun (2006) 的专著系统整理了区间删失数据的推断理论。 - 主要进展（两阶段法）：针对原因缺失，早期工作如 Bakoyannis et al. (2010) 及后续文献提出了两阶段估计：先对缺失原因进行多重填补或概率加权，再在填补后的数据上做竞争风险参数估计。作者在 intro 中明确指出这类方法“could suffer efficiency loss and high computational cost”（效率损失与计算代价高）。 - 当前 frontier（混合模型与直接似然）：混合模型框架（mixture model, 如 Fine & Gray 1999 的另一种参数化）将竞争风险的子分布拆解为原因特定风险与总体生存的乘积结构，允许在似然中直接处理多终点。对于右删失+原因缺失，已有直接似然法（如 Lee et al. 2015 等）；但区间删失+原因缺失的直接似然法此前空白。 - 本文的位置：填补该空白，将混合模型框架与区间删失似然结合，把原因缺失机制直接嵌入似然，用 sieve MLE 一步完成估计，避开两阶段法的效率折损与计算繁琐。

子线索聚类： 1. 两阶段填补/加权路线：先处理缺失再估参数。代表为多重填补或逆概率加权（IPW）类方法。这一簇的瓶颈在于：第二步估计的方差需复杂地校正第一步的不确定性，且计算需迭代模拟。 2. 混合模型直接似然路线（右删失）：将 \(F_k(t|Z) = 1 - \exp(-\int_0^t \lambda_k(s|Z)ds) \cdot S(t|Z)\) 结构化，在右删失下把缺失指示纳入似然。这一簇已证明可避免两阶段效率折损，但尚未推广至区间删失。 3. 区间删失半参数推断路线：针对单一终点区间删失，sieve MLE（如 B-spline 基逼近）已被证明具备 consistency 与 asymptotic normality（Ma & Wang 2012 等）。本文将这一技术簇移植到多终点+缺失设定。

这个方向在追问的核心问题： 1. 在区间删失+原因缺失下，如何构造一步直接似然估计以避免两阶段法的效率折损与计算膨胀？ 2. 该直接似然估计在半参数空间（无穷维累积发生函数+有限维回归参数）中是否具备 consistency 与 asymptotic normality？ 3. 该方法能否自然推广至其他竞争风险模型框架（如 cause-specific hazards 模型）？

⚠️ 作者的 framing： - 作者把缺口 frame 为“两阶段法有效率损失与计算代价，直接似然法是显然的替代”，从而让本文的“一步 sieve MLE”成为自然下一步。 - 被淡化的竞争路线：intro 未讨论半参数有效估计界——即未回答“直接似然 sieve MLE 是否达到 semiparametric efficiency bound”。若未达界，则两阶段法若配合一步校正（如 HOIF / debiased ML）可能反而更有效；这一可能性被回避。 - 明显该被引却未出现的：半参数有效推断的近期工作（如 Robins et al. 2017 的 HOIF，或高维区间删失下的 debiased sieve 估计）未在 intro 或 bibliography 出现。这值得研究者去查：是作者刻意聚焦传统生存分析文献，还是该交叉点确实未被探索？

张力：未见明显对立引用。两阶段法与直接似然法在右删失下已被比较（直接似然更有效），本文将此结论默认推广至区间删失，但区间删失的似然结构更复杂（检查时间随机、无序），该默认推广是否无条件成立，需看第三节的具体假设。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(T\)：潜在失败时间（随机变量，不可精确观测）。
\(K\)：失败原因（随机变量，取值 \(1, \dots, k\)，部分不可观测）。
\(Z\)：协变量（随机变量，可观测）。
\(U\)：检查时间序列（随机变量序列，\(U_1 < U_2 < \dots\)，可观测）。
\(L, R\)：区间删失的左右端点（可观测）。若 \(T \in (L, R]\)，则只知 \(T\) 落在此区间；若 \(T \leq L\)，则左删失（\(R=L, L=0\) 记法）；若 \(T > R\)，则右删失。
\(\Delta\)：删失指示（可观测）。\(\Delta=1\) 表示精确观察到 \(T \in (L,R]\)；\(\Delta=0\) 表示右删失（\(T > R\)）；左删失另有编码。
\(M\)：原因缺失指示（可观测）。\(M=1\) 表示 \(K\) 被观察到；\(M=0\) 表示 \(K\) 缺失。注意：只有 \(\Delta=1\)（即已知发生失败）时 \(K\) 才可能缺失；若 \(\Delta=0\)（右删失，未发生失败），\(K\) 无定义。
\(\beta\)：回归参数（有限维参数，要估的对象）。
\(\Lambda_k(t|Z)\)：原因 \(k\) 的累积原因特定风险（无穷维参数，要估的对象）。
\(S(t|Z)\)：总体生存函数 \(S(t|Z) = \exp(-\sum_k \Lambda_k(t|Z))\)（无穷维，由 \(\Lambda_k\) 决定）。
\(F_k(t|Z)\)：原因 \(k\) 的子分布函数（累积发生函数），\(F_k(t|Z) = \int_0^t S(s|Z) d\Lambda_k(s|Z)\)（要估的最终目标，由 \(\Lambda_k\) 与 \(S\) 表出）。

模型（数据生成机制）：混合模型框架下：

\[\lambda_k(t|Z) = \lambda_{k0}(t) \exp(Z^\top \beta_k), \quad k=1,\dots,K\]

其中 \(\lambda_{k0}(t)\) 是原因 \(k\) 的基准风险（无穷维），\(\beta_k\) 是回归系数。总体风险 \(\lambda(t|Z) = \sum_k \lambda_k(t|Z)\)。检查过程 \(\{U_j\}\) 与 \((T, K)\) 在给定 \(Z\) 下独立（独立删失假设）。原因缺失机制：\(P(M=1 | T, K, Z)\) 满足缺失随机（MAR）假设，即 \(P(M=1 | T \in (L,R], K, Z) = P(M=1 | T \in (L,R], Z)\)（缺失仅依赖可观测的区间与协变量，不依赖未观测的 \(K\)）。

可观测数据：对每个个体 \(i\)，观测到 \((L_i, R_i, \Delta_i, M_i, K_i \text{ if } M_i=1, Z_i)\)。其中 \(K_i\) 仅在 \(\Delta_i=1\) 且 \(M_i=1\) 时可观测；\(\Delta_i=0\) 时 \(K_i\) 无定义；\(\Delta_i=1\) 且 \(M_i=0\) 时 \(K_i\) 缺失。潜在不可观测量为精确失败时间 \(T_i\) 与缺失原因 \(K_i\)。

第二步：最小内核——只有两个竞争风险、无协变量、单次检查的特例

剥掉所有为一般性服务的技术假设（多检查时间、协变量、B-spline 逼近），最小内核是： - \(K=2\)（两个竞争风险），\(Z\) 空（无协变量，\(\beta\) 消失，只估 \(\Lambda_1(t), \Lambda_2(t)\)）。 - 单次检查：每个个体只有一个检查时间 \(U\)，观测到 \((U, \Delta, M, K \text{ if } M=1)\)。\(\Delta=1\) 表示 \(T \leq U\)（已知在 \((0, U]\) 发生），\(\Delta=0\) 表示 \(T > U\)（右删失）。

此时似然函数退化成最简形式： - 对 \(\Delta=0\)（右删失）：贡献 \(S(U) = \exp(-\Lambda_1(U) - \Lambda_2(U))\)。 - 对 \(\Delta=1, M=1, K=1\)：贡献 \(\int_0^U S(t) d\Lambda_1(t) \cdot p_1(U)\)，其中 \(p_1(U) = P(M=1|T \in (0,U], K=1)\) 是可估的缺失概率。 - 对 \(\Delta=1, M=1, K=2\)：同理，贡献 \(\int_0^U S(t) d\Lambda_2(t) \cdot p_2(U)\)。 - 关键项：对 \(\Delta=1, M=0\)（原因缺失）：贡献 \(\int_0^U S(t) d(\Lambda_1(t) + \Lambda_2(t)) \cdot (1 - p_1(U) - p_2(U))\)，即把两个原因的子分布加权求和，权重为缺失概率。

最小内核的数学问题：在上述最简似然下，对无穷维参数 \(\Lambda_1(t), \Lambda_2(t)\)（及有限维缺失概率参数 \(p_1, p_2\)）求 sieve MLE（用分段常数或低阶多项式逼近 \(\Lambda_k\)），证明所得估计量 \(\hat{\Lambda}_k\) 的 consistency 与 asymptotic normality。

为什么成立（直觉）：混合模型把 \(F_k\) 拆解为 \(S \cdot \Lambda_k\) 的积分，使得即使 \(K\) 缺失，似然中仍可通过 \(\Lambda_1 + \Lambda_2\) 的联合结构保留信息（缺失项同时牵动两个 \(\Lambda_k\)），而非简单丢弃。sieve 逼近保证了无穷维空间上的良定义极值点存在，且逼近误差随样本量可控衰减。一般情形的证明只是在此直觉上“加壳”：加入 \(Z\) 与 \(\beta\)（有限维参数的凸性保证一致性），加入 B-spline 基（逼近误差的收敛速率由光滑度与基维度控制），加入多检查时间（似然求和项变多但结构不变）。

三、这篇论文做了什么¶

三句话： 1. 研究了区间删失竞争风险数据在失败原因缺失下的回归参数与累积发生函数估计问题。 2. 核心方法是基于混合模型框架的直接似然法，将竞争风险与原因缺失机制同时纳入似然，采用 sieve MLE 一步估计。 3. 主要结论是证明了 sieve MLE 估计量的 consistency 与 asymptotic normality，模拟与阿尔茨海默病数据应用显示方法避免了两阶段法的效率折损。

关键设定与假设：在第二节最小记号基础上补全： - 混合模型参数化：\(\lambda_k(t|Z) = \lambda_{k0}(t) \exp(Z^\top \beta_k)\)，\(S(t|Z) = \exp(-\sum_k \Lambda_k(t|Z))\)，\(F_k(t|Z) = \int_0^t S(s|Z) d\Lambda_k(s|Z)\)。 - 独立删失假设：检查过程 \(\{U_j\}\) 与 \((T, K)\) 在给定 \(Z\) 下条件独立。这是区间删失似然可分解的前提，相比右删失模型更强（右删失只需独立删失，区间删失需检查时间序列独立）。 - MAR 假设：\(P(M=1 | T \in (L,R], K, Z) = \pi(L,R, Z)\)，缺失概率不依赖未观测的 \(K\)。相比已有两阶段法（通常也需 MAR），本文未放宽此假设，但将其直接嵌入似然而非作为加权权重。 - Sieve 空间：\(\Lambda_{k0}(t)\) 用 B-spline 基函数逼近，\(\log \Lambda_{k0}(t) \approx \sum_l \alpha_{kl} B_l(t)\)，保证单调性与非负性。基的维度 \(q_n\) 随 \(n\) 增长，满足 \(q_n \to \infty\) 且 \(q_n / n \to 0\)（控制逼近误差与估计误差的平衡）。 - 光滑度条件：\(\Lambda_{k0}(t)\) 属于 Hölder 空间 \(C^m\)，\(m\) 决定 B-spline 的收敛速率 \(O((q_n/n) + q_n^{-m})\)。 - 缺失概率模型：\(\pi(L,R,Z)\) 参数化为 logistic 模型 \(\pi = \exp(\gamma^\top W)/(1+\exp(\gamma^\top W))\)，\(W\) 由 \((L,R,Z)\) 构造。\(\gamma\) 为有限维参数，与 \(\beta, \Lambda_{k0}\) 同估。

主要结果： 1. Theorem 1（Consistency）：在上述假设下，sieve MLE \(\hat{\beta}, \hat{\Lambda}_{k0}, \hat{\gamma}\) 在 \(L_2\) 范数下一致收敛于真值。直觉：似然函数在 sieve 空间上的极值点随 \(q_n \to \infty\) 逼近全空间极值点，且全空间极值点唯一（由混合模型的可识别性保证）。必要条件：独立删失、MAR、Hölder 光滑度、\(q_n\) 增长速率。 2. Theorem 2（Asymptotic Normality of \(\hat{\beta}\)）：\(\sqrt{n}(\hat{\beta} - \beta_0) \to_d N(0, \Sigma^{-1})\)，其中 \(\Sigma\) 是回归参数的信息矩阵（由似然二阶导期望给出）。直觉：有限维参数 \(\beta\) 在无穷维 nuisance \(\Lambda_{k0}\) 上的估计，其渐近分布由 profile 似然的信息矩阵决定；sieve 逼近误差在 \(q_n\) 足够慢增长下不污染 \(\beta\) 的渐近分布。技术难点：profile 似然在无穷维空间上的二阶展开需控制 nuisance 估计误差对 \(\beta\) 的影响，本文通过 sieve 收敛速率条件（\(q_n^{-m}\) 足够快）截断该污染。 3. Theorem 3（Asymptotic Normality of \(\hat{F}_k(t|Z)\)）：对固定 \(t, Z\)，\(\sqrt{n}(\hat{F}_k(t|Z) - F_{k0}(t|Z)) \to_d N(0, \sigma_k^2(t,Z))\)。直觉：\(\hat{F}_k\) 是 \(\hat{\beta}\) 与 \(\hat{\Lambda}_{k0}\) 的函数，由 delta method 结合 Theorem 1-2 得到。

证明路线与技术技巧： - 整体路线： 1. 构造 sieve 似然函数 \(L_n(\beta, \Lambda_{k0}, \gamma)\)，在 B-spline 空间上求极值点。 2. 证明似然函数在 sieve 空间上的凹性/凸性条件，保证极值点唯一且良定义。 3. 用 empirical process 理论控制似然函数在参数空间上的震荡，证明一致性（极值点逼近真值）。 4. 对 profile 似然（固定 \(\Lambda_{k0}\) 对 \(\beta\) 的极值）做二阶 Taylor 展开，分离有限维参数与无穷维 nuisance 的贡献。 5. 用 sieve 逼近误差的收敛速率截断 nuisance 对 \(\beta\) 渐近分布的污染，得到 asymptotic normality。 - 关键跳跃点： - Profile 似然的二阶展开：需证明 nuisance 估计误差 \(\|\hat{\Lambda}_{k0} - \Lambda_{k0}\|\) 对 \(\beta\) 估计的影响是 \(o_p(n^{-1/2})\)。这要求 \(\|\hat{\Lambda}_{k0} - \Lambda_{k0}\| = o_p(n^{-1/4})\)（即 sieve 收敛速率至少 \(n^{-1/4}\)），由 \(q_n\) 增长条件与光滑度保证。这是整篇证明最吃功夫的引理。 - 信息矩阵的正定性：需证明 \(\Sigma\) 非奇异，即 \(\beta\) 在 nuisance 存在下仍可识别。混合模型的可识别性条件（不同 \(k\) 的 \(\lambda_k\) 不完全共线）在此起作用。 - 技术技巧点名： - Empirical process / chaining：用于控制似然函数在无穷维参数空间上的震荡，证明一致性。 - Sieve MLE 理论（如 Shen & Wong 1994, Ma & Wang 2012）：用于平衡逼近误差与估计误差，确定 \(q_n\) 的最优增长速率。 - Profile 似然展开：用于分离有限维与无穷维参数的渐近贡献，是半参数 M-estimation 渐近正态性的标准工具。 - Delta method：用于从 \(\hat{\beta}, \hat{\Lambda}_{k0}\) 的渐近正态性推导 \(\hat{F}_k\) 的渐近正态性。

真实例子与应用： - 数据：阿尔茨海默病研究数据（具体数据集名称未在摘要中给出，需查正文）。 - 场景：研究对象为老年人群，终点为痴呆发病（竞争风险：痴呆 vs 死亡），检查时间为定期临床随访（区间删失），部分发病者的具体诊断类型缺失（原因缺失）。 - 怎么用上去：将本文方法应用于该数据，估计年龄、性别等协变量对痴呆子分布的回归效应 \(\hat{\beta}\)，与两阶段法对比。 - 得到什么结果：摘要称“illustrate its practical utility”，具体数值结果需查正文，但预期是本文方法的置信区间更窄（效率更高）、计算更稳定。 - 想说明什么：验证直接似然法在真实数据上可运行，且相比两阶段法有实际效率优势。

🔎 结论是否比证明窄： - Theorem 2 的渐近正态性在 \(q_n\) 增长条件（\(q_n^{-m} = o(n^{-1/4})\)）下严格证明，但作者在讨论部分可能泛泛 claim“方法可推广至其他竞争风险模型框架（如 cause-specific hazards 模型）”——这一推广未在本文严格证明，仅是 conjecture（需重新验证 profile 似然展开与信息矩阵正定性在新框架下是否成立）。 - 缺失概率 \(\pi\) 的 logistic 参数化是证明的必要条件（保证 \(\gamma\) 有限维），若 \(\pi\) 用非参数模型，渐近正态性证明需额外处理无穷维 nuisance 的叠加，本文未触及。

四、开放问题（点到为止，扎根具体语句）¶

Sieve MLE 是否达到 semiparametric efficiency bound？ 本文证明了 asymptotic normality 且方差为信息矩阵逆，但未计算/比较该信息矩阵是否等于半参数有效界。扎根点：Theorem 2 的 \(\Sigma^{-1}\) 是否等于 \(F_k(t|Z)\) 的 semiparametric efficiency bound？若不等，则存在可构造 one-step/debiased 估计量提升效率的空间（需用研究者 moderately_familiar 的 HOIF 或 semiparametric theory）。
缺失概率 \(\pi\) 的非参数/半参数建模。本文将 \(\pi\) 参数化为 logistic 模型（有限维 \(\gamma\)），若 \(\pi\) 模型错设，一致性是否仍成立？扎根点：假设部分明确写 \(\pi(L,R,Z) = \exp(\gamma^\top W)/(1+\exp(\gamma^\top W))\)，若放宽为非参数，sieve 似然需同时逼近 \(\Lambda_{k0}\) 与 \(\pi\)，profile 似然展开的污染控制需重新推导。
高维协变量设定下的推断。本文假设 \(Z\) 为低维（固定维数 \(\dim(\beta)\) 有限），若 \(Z\) 高维（\(\dim(\beta) \gg n\)），sieve MLE 的 consistency 与 normality 是否仍成立？扎根点：Theorem 1-2 的证明依赖 \(\beta\) 有限维下的信息矩阵正定性，高维下需引入惩罚（如 Lasso）与 debiased 校正，这是研究者 very_familiar 的高维渐近理论可直接切入的点。
“可推广至其他竞争风险模型框架”的严格证明。作者在摘要与讨论中 claim 可推广至 cause-specific hazards 模型等，但未给出证明。扎根点：需验证在新框架下，似然函数的凸性、profile 似然的二阶展开污染控制、信息矩阵正定性是否仍成立——这不仅是“换参数化”的表面推广，可能涉及不同的 nuisance 结构。

提醒：要确认第 1 条是否真 gap，去查同子领域近期 5 篇 intro——若都只证 normality 不算界，则为共识 gap（真机会）；若已有工作算出界并构造有效估计，则本文的 sieve MLE 可能是次有效方法，需重新评估其定位。

Maintained by 陈星宇 · Homepage · Source on GitHub

Regression analysis of interval-censored competing risks data with missing causes of failure: A direct likelihood approach¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论