A semicompeting risks model with an application to UK Biobank data to identify risk factors for diabetes onset and progression¶

作者: Md Tuhin Sheikh, Hongyu Zhao
来源: Biometrics
主题: 流行病学
相关性: 4/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf003

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在终止事件（如死亡）截断非终止事件（如疾病发病或进展）的“半竞争风险”数据结构下，如何识别和估计不同协变量对多阶段疾病进展各转换风险的效应，同时处理非终止与终止事件之间由不可观测异质性引起的依赖，并有效利用入组时已患病的现患病例以改善估计效率。当前该方向在贝叶斯参数/半参数建模上已有较成熟框架，但在非贝叶斯的半参数效率理论与因果识别框架下仍留有大量口子。

发展脉络： - 奠基工作：Fine et al. (2001) 提出半竞争风险（semicompeting risks）的概念与建模框架，明确了非终止事件与终止事件间的依赖结构需要被参数化或半参数化处理，留下了“如何不依赖强参数假设进行识别”的口子。 - 主要进展：Peng et al. (2022) 等人将共享 frailty 模型引入半竞争风险，通过 Gamma frailty 将非终止与终止事件的关联参数化，但依赖了特定的 frailty 分布假设；Lakshminarayanan et al. (2022) 等人探索了贝叶斯框架下的 frailty 建模，留下了“如何利用现患病例信息”的口子。 - 当前 frontier 与本文位置：本文作者在 intro 中明确指出，现有工作在处理 UKB 等大规模队列数据时面临两个缺口：一是缺乏能同时处理三个事件（两个非终止、一个终止）的统一贝叶斯 frailty 框架；二是未能将入组时已患病的现患病例纳入分析以提升对疾病进展阶段（并发症至死亡）的估计效率。本文通过引入共享 Gamma frailty 与 power prior 填补了这一建模缺口。

子线索聚类： 1. 半竞争风险的参数/半参数建模：聚焦于如何通过 frailty 或 Copula 结构引入非终止与终止事件的依赖。代表工作如 Peng et al. (2022)（共享 Gamma frailty）、Fine et al. (2001)（基于 Copula 的半参数方法）。这一簇在做的核心是：给出依赖结构的可估参数化形式。 2. 现患病例的纳入与偏倚校正：聚焦于如何利用入组时已患病的个体数据而不引入选择偏倚。代表工作如 Chen et al. (2022)（长度偏倚采样校正）、Brookmeyer et al. (2019)（现患队列分析）。这一簇在做的核心是：在左截断右截断数据结构下修正生存估计。 3. 贝叶斯分层模型在多阶段疾病进展中的应用：聚焦于利用贝叶斯框架处理多状态转换的参数估计与不确定性量化。这一簇在做的核心是：通过先验与 MCMC 实现复杂依赖结构的联合估计。

这个方向在追问的核心问题： 1. 非终止事件与终止事件之间的依赖结构在何种条件下可被非参数识别？（当前主流依赖 frailty 或 Copula 的参数/半参数假设，瓶颈在于识别依赖仍需分布假设）。 2. 如何在不引入偏倚的前提下，将现患病例的信息与发病病例的信息融合以提升估计效率？（当前主流通过左截断修正或 power prior，瓶颈在于现患病例的入组条件往往与协变量相关，简单的 power prior 未必能消除选择偏倚）。 3. 在多阶段转换模型中，各转换风险的协变量效应如何被分离与解释？（当前主流通过多状态 Weibull 或 Cox 模型，瓶颈在于不同转换间的 frailty 共享结构假设是否合理）。

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有半竞争风险模型未能同时处理三个事件，且未能利用现患病例改善对“并发症至死亡”这一转换的估计。这使得引入共享 Gamma frailty + power prior 成为“显然的下一步”。 - 被淡化或回避的竞争路线：作者未提及基于边际结构模型或半参数效率理论的因果推断路线（如 Robins 的 g-estimation 或 DML），也未讨论 frailty 识别的非参数不可识别性（即仅靠可观测数据，非终止与终止事件的联合分布是否可被点识别而不依赖参数假设——这是因果推断视角的核心质疑）。 - 明显该被引却未出现的文献：关于半竞争风险非参数识别界限的工作（如基于潜在结果的因果框架讨论非终止与终止事件依赖的不可识别区间），以及半参数效率界在多状态左截断数据下的推导。这值得研究者去查证：作者选择全贝叶斯参数框架，是否正是因为回避了非参数识别的困难？

张力：未见明显对立引用。各被引工作均在各自假设下给出一致结论，未在不同条件下得出相反结论。但存在隐含张力：参数 frailty 模型假设依赖结构已知，而因果推断文献指出该依赖往往不可非参数识别——这一张力未被作者在 intro 中显式讨论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与参数：
\(X\)：基线协变量向量（如遗传与非遗传风险因素），维度为 \(p\)。
\(T_1\)：第一个非终止事件时间（T2D 发病时间）。
\(T_2\)：第二个非终止事件时间（并发症发生时间），且必须在 \(T_1\) 之后（疾病进展的序贯性）。
\(T_3\)：终止事件时间（死亡时间）。
\(Z\)：共享 Gamma frailty 随机变量，用于引入 \(T_2\) 与 \(T_3\) 之间的依赖，\(Z \sim \text{Gamma}(\theta^{-1}, \theta^{-1})\)，即均值为 1、方差为 \(\theta\)。\(\theta\) 是待估的依赖强度参数。
\(\beta_1, \beta_2, \beta_3\)：各转换的协变量效应向量（log-hazard 尺度）。
\(\lambda_{01}, \lambda_{02}, \lambda_{03}\)：各转换的基线 hazard 函数（本文采用 Weibull 参数化，\(\lambda_{0k}(t) = \rho_k \mu_k t^{\rho_k - 1}\)，参数为 \(\rho_k, \mu_k\)）。
\(a_0\)：power prior 中的控制参数，用于决定现患病例信息的权重。
模型（数据生成机制）：
个体 \(i\) 的潜在事件时间由以下条件 hazard 结构生成：
- \(T_1\) 的 hazard：\(\lambda_1(t | X, Z) = \lambda_{01}(t) \exp(X^\top \beta_1)\)（\(T_1\) 不受 frailty \(Z\) 影响，因发病与死亡/并发症的不可观测关联仅体现在进展阶段）。
- \(T_2\) 的 hazard：\(\lambda_2(t | X, Z) = \lambda_{02}(t) \exp(X^\top \beta_2) Z\)（\(T_2\) 受 frailty \(Z\) 影响）。
- \(T_3\) 的 hazard：\(\lambda_3(t | X, Z) = \lambda_{03}(t) \exp(X^\top \beta_3) Z\)（\(T_3\) 同样受 \(Z\) 影响，从而 \(T_2\) 与 \(T_3\) 在 \(Z\) 的条件下独立，边际上依赖）。
半竞争风险约束：若 \(T_3 < T_1\)，则 \(T_2\) 被截断（死亡先于发病，并发症不可观测）；若 \(T_3 < T_2\) 且 \(T_1 < T_3\)，则 \(T_2\) 被截断（发病后但在并发症前死亡）。
可观测数据：
发病病例：入组时未患 T2D 的个体。可观测到 \((X, Y_1, Y_2, Y_3, \delta_1, \delta_2, \delta_3)\)，其中 \(Y_k = \min(T_k, C)\)（\(C\) 为右截断时间），\(\delta_k = I(T_k \le C)\)。若 \(Y_3 < Y_1\)，则 \(Y_2, \delta_2\) 不可观测。
现患病例：入组时已患 T2D 的个体。对于他们，\(T_1\) 已发生但确切时间往往未知或存在左截断，可观测到入组后的 \((X, Y_2, Y_3, \delta_2, \delta_3)\)，以及入组时的存活时间（左截断时间 \(L\)）。想要但观测不到的：\(T_1\) 的确切发病时间（往往只有区间记录），以及若死亡先于并发症发生时的潜在并发症时间 \(T_2\)。

第二步：最小内核

剥掉所有 Weibull 参数化、多协变量、贝叶斯先验等外壳，支撑整篇论文的最小内核是一个带共享 frailty 的三状态序贯竞争风险模型的似然构造与现患病例的 power prior 融合。

最简特例（单协变量 \(X \in \{0, 1\}\)，常数基线 hazard \(\lambda_{0k} = \lambda_k\)，无右截断 \(C=\infty\)）： - 模型退化为：\(T_1 \sim \text{Exp}(\lambda_1 \exp(X \beta_1))\)；在 \(Z\) 下，\(T_2 \sim \text{Exp}(\lambda_2 \exp(X \beta_2) Z)\)，\(T_3 \sim \text{Exp}(\lambda_3 \exp(X \beta_3) Z)\)。 - 对于发病病例（\(T_1\) 可观测），若 \(T_3 > T_1\)（存活至发病后），则可观测到 \(T_1, T_2, T_3\)；若 \(T_3 < T_1\)，则只观测到 \(T_1^* = T_3\)（实际观测到的是死亡时间，发病被截断，\(T_2\) 不可观测）。 - 似然的核心困难在于：\(T_2\) 与 \(T_3\) 边际上不独立，必须通过积分消去不可观测的 \(Z\)。在 Gamma frailty 下，边际生存函数 \(S_{23}(t_2, t_3 | X) = E_Z[S_2(t_2 | X, Z) S_3(t_3 | X, Z)]\) 可通过 Gamma 积分得到闭式解（这是选择 Gamma frailty 的根本数学原因：它让边际联合分布有解析形式）。 - 现患病例的 power prior 融合：现患病例的似然 \(L_{\text{prev}}(\theta, \beta)\) 是在条件 \(T_1 < L\)（左截断）下的条件似然。作者的最小内核操作是：将发病病例的后验 \(\pi(\theta, \beta | D_{\text{inc}}) \propto L_{\text{inc}}(\theta, \beta) \pi_0(\theta, \beta)\) 作为现患病例的“初始先验”，然后乘以现患病例似然的 \(a_0\) 次幂 \(L_{\text{prev}}(\theta, \beta)^{a_0}\)，形成联合后验 \(\pi(\theta, \beta | D_{\text{inc}}, D_{\text{prev}}) \propto L_{\text{inc}} L_{\text{prev}}^{a_0} \pi_0\)。\(a_0 \in [0, 1]\) 控制现患病例信息的权重，避免其过度主导后验（因现患病例往往样本量大且存在左截断偏倚）。

在这个最简特例下，要证的命题退化成：在共享 Gamma frailty 下，三状态序贯竞争风险的边际似然有闭式表达，且通过 power prior 融合左截断的现患病例似然后，后验分布仍可被 MCMC 正常采样，且 \(\theta\) 与 \(\beta\) 可被联合估计。证明路线就是：利用 Gamma frailty 的 Laplace 变换性质算出边际似然闭式 → 构造 power prior → 在贝叶斯框架下用 MCMC 采样。为什么成立？因为 Gamma 分布是共轭的，使得 frailty 积分可解析消除，避免了数值积分的维数灾难。

三、这篇论文做了什么¶

三句话： ① 研究了在半竞争风险数据结构下（两个非终止事件、一个终止事件），如何识别协变量对多阶段疾病进展各转换的效应，并有效利用现患病例信息的问题。 ② 核心方法是提出基于共享 Gamma frailty 的贝叶斯半竞争风险模型，并通过 power prior 将现患病例的左截断似然融入发病病例的后验更新中。 ③ 主要结论是：共享 Gamma frailty 使得非终止与终止事件的依赖结构可被参数化且边际似然有闭式解；power prior 的引入在模拟中改善了模型拟合与 \(\theta\) 及进展阶段 \(\beta\) 的估计效率；在 UKB 数据上识别了不同阶段的风险因素异质性。

关键设定与假设： - 共享 Gamma frailty 假设：\(T_2\) 与 \(T_3\) 在给定 \(Z\) 下独立（条件独立性假设），\(Z \sim \text{Gamma}(\theta^{-1}, \theta^{-1})\)。统计含义：引入不可观测异质性以解释并发症与死亡的边际正相关；相比已有文献（如 Peng et al. 2022），本文将 frailty 仅施加于 \(T_2\) 与 \(T_3\)，而 \(T_1\) 不受 frailty 影响，假设发病阶段的异质性可由 \(X\) 完全解释。 - Weibull 基线 hazard 假设：\(\lambda_{0k}(t) = \rho_k \mu_k t^{\rho_k - 1}\)。统计含义：允许基线 hazard 随时间单调递增或递减；相比 Cox 模型的非参数基线，这是强参数假设，但使得贝叶斯 MCMC 的全参数采样可行。 - Power prior 假设：现患病例的似然被升至 \(a_0\) 次幂后再乘入后验，\(a_0 \in [0, 1]\)。统计含义：控制现患病例信息对后验的影响权重，防止左截断偏倚通过大样本量主导后验；相比直接将现患病例与发病病例合并（\(a_0=1\)），这是对偏倚的妥协性处理。 - 左截断假设：现患病例的入组条件是 \(T_1 < L\)（存活且已发病至入组时间 \(L\)）。统计含义：承认现患病例存在长度偏倚采样，但在似然中通过条件化 \(T_1 < L\) 来修正，而非通过逆概率加权。

主要结果： - 定理/核心结论 1（边际似然闭式解）：在共享 Gamma frailty 与 Weibull 基线下，发病病例与现患病例的边际似然（积分消去 \(Z\) 后）均有闭式表达。直觉：Gamma frailty 的 Laplace 变换 \((1 + \theta s)^{-1/\theta}\) 使得 \(E_Z[\exp(-sZ)]\) 有解析解，从而 \(S_{23}(t_2, t_3 | X)\) 可直接写出。必要条件：frailty 必须是 Gamma 分布，基线必须是 Weibull（或指数）。解决的技术难点：避免了在 frailty 空间上的数值积分，使 MCMC 在高维参数空间下可行。 - 定理/核心结论 2（Power prior 融合的效率增益）：通过模拟表明，引入现患病例（\(a_0 > 0\)）相比仅用发病病例（\(a_0 = 0\)），在估计 \(\theta\)（依赖强度）与 \(\beta_2, \beta_3\)（进展与死亡效应）时，后验标准差更小，且覆盖率维持。直觉：现患病例提供了更多关于 \(T_2\) 与 \(T_3\) 的信息，尤其是 \(T_1\) 至 \(T_2\) 的进展信息（发病病例中大量个体尚未发生并发症或被死亡截断）。必要条件：现患病例的左截断偏倚可通过条件化 \(T_1 < L\) 修正，且 \(a_0\) 的选择不过度放大偏倚。解决的技术难点：如何在存在左截断偏倚的数据中提取有效信息而不破坏估计的一致性。

证明路线与技术技巧： - 整体路线： 1. 写出给定 \(Z\) 下的条件似然（发病病例的三事件似然 + 现患病例的条件似然）。 2. 利用 Gamma frailty 的 Laplace 变换，对 \(Z\) 积分得到边际似然闭式。 3. 构造 power prior：将发病病例的边际似然与先验结合形成初始后验，再将现患病例边际似然的 \(a_0\) 次幂乘入，形成联合后验。 4. 通过 Metropolis-Hastings MCMC 采样联合后验，得到所有参数的后验样本与置信区间。 - 关键跳跃点：从条件似然到边际似然的积分。难点卡在：\(T_2\) 与 \(T_3\) 在 \(Z\) 下独立但边际依赖，且存在截断（\(T_3 < T_1\) 或 \(T_3 < T_2\) 时 \(T_2\) 不可观测），使得似然中包含对不可观测 \(T_2\) 的积分。作者通过 Gamma frailty 的 Laplace 变换性质，将联合生存函数与联合密度均化为 \((1 + \theta \cdot \text{累积hazard})^{-1/\theta}\) 及其导数的闭式组合，绕过了数值积分。 - 技术技巧点名： - Laplace 变换 / Gamma 共轭性：用于消除 frailty \(Z\) 的积分，得到边际似然闭式，是整个模型可行的基石。 - Power prior：用于控制现患病例信息的权重，防止左截断偏倚主导后验，属于贝叶斯数据融合的妥协技巧。 - 左截断条件化：在现患病例似然中条件化 \(T_1 < L\)，修正长度偏倚采样，属于生存分析的标准偏倚修正技巧。

真实例子与应用： - 数据：UK Biobank 半百万数据，包含约 2 万 T2D 发病病例与约 2 万现患病例（入组时已患 T2D），随访约 10-15 年，记录了并发症（如心血管疾病）与死亡时间，以及大量遗传（SNP）与非遗传（BMI、吸烟等）协变量。 - 怎么用上去：将 T2D 发病设为 \(T_1\)，首次并发症设为 \(T_2\)，死亡设为 \(T_3\)；对发病病例拟合完整三事件模型，对现患病例仅拟合 \(T_2\) 与 \(T_3\) 的条件模型（通过 power prior 融合）；估计各协变量在三个转换上的 \(\beta_1, \beta_2, \beta_3\) 及依赖参数 \(\theta\)。 - 得到什么结果：发现 BMI 对 \(T_1\)（发病）效应最大，但对 \(T_2\)（进展至并发症）效应减弱；某些 SNP 对发病有显著效应但对进展无效应（阶段异质性）；\(\theta\) 的后验均值显著大于 0，表明并发症与死亡间存在不可观测的正向依赖。 - 想说明什么：验证模型在超大规模真实数据上的可行性，展示半竞争风险框架能揭示协变量在不同疾病阶段的异质性效应（这是单一 Cox 模型无法做到的），并展示 power prior 融合现患病例后对进展阶段估计的改善（后验标准差减小）。

🔎 结论是否比证明窄： - 作者在结论与讨论中泛泛 claim power prior “改善了估计效率”，但在理论部分仅通过模拟展示后验标准差减小，未给出任何关于后验收缩率的严格渐近理论（如 Bernstein-von Mises 定理或后验分布的渐近正态性证明）。这是条件“模拟验证”下的结论，却被泛泛 claim 为“效率增益”。 - 作者 claim 共享 Gamma frailty “处理了依赖结构”，但未讨论若真实 frailty 非 Gamma 时估计的稳健性（模型误设下的偏倚未分析），也未讨论 \(\theta=0\)（无依赖）时的边界识别问题。

四、开放问题（点到为止）¶

半竞争风险依赖结构的非参数识别界：本文依赖 Gamma frailty 实现点识别，但因果推断文献指出非终止与终止事件的依赖往往不可非参数识别。要证什么：在仅给定可观测的发病病例数据（无参数 frailty 假设）下，\(\beta_2, \beta_3\) 与依赖参数的识别区间有多宽？扎根点：作者在 intro 第 2 页声称“frailty 模型可处理依赖”，但未引用任何关于非参数不可识别的文献，也未讨论 Gamma 假设的识别贡献。
Power prior 融合现患病例的渐近效率理论：作者仅通过模拟 claim 效率增益，未给出严格理论。要估什么：在左截断现患病例与发病病例合并下，\(\beta_2, \beta_3\) 的后验收缩率是否从 \(n_{\text{inc}}^{-1/2}\) 改善至 \((n_{\text{inc}} + n_{\text{prev}})^{-1/2}\)，或在左截断偏倚下是否仍为 \(n_{\text{inc}}^{-1/2}\)？扎根点：第 5 页“Simulation results demonstrate improved model fit and more efficient estimates”，但无定理支撑。
非贝叶斯的半参数效率界与 CAN 估计：本文全框架为贝叶斯参数模型，未触及半参数效率理论。要估什么：在半竞争风险左截断数据下，\(\beta_1, \beta_2, \beta_3\) 的半参数效率界是什么？是否存在 \(n^{-1/2}\)-CAN 的 efficient estimator 而不依赖 Weibull 或 Gamma 假设？扎根点：作者在 intro 第 1 页提到“understanding roles of risk factors at different stages”，但方法完全依赖参数假设，未触及半参数效率。
Frailty 模型误设的稳健性：若真实 frailty 非 Gamma（如 Log-normal），\(\theta\) 与 \(\beta\) 的估计偏倚有多大？要估什么：在 frailty 误设下，边际 hazard 的偏倚界。扎根点：作者在讨论部分未提及模型误设的稳健性分析，仅说“future work could extend to other frailty distributions”。

提醒：要确认上述第 1 条（非参数不可识别）是不是真 gap，去读因果推断中关于半竞争风险识别的近期 5 篇 intro——若都指向 frailty 假设的必要性，则是共识（真 gap：如何在无 frailty 下做偏倚分析）；若互相打架（有人声称可非参数识别），则是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

A semicompeting risks model with an application to UK Biobank data to identify risk factors for diabetes onset and progression¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论