Hypothesis Tests of Direct and Indirect Effects Under Various Semicompeting Risks Models¶

作者: Jih‐Chang Yu, Yen‐Tsung Huang
来源: Statistics in Medicine
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1002/sim.70530

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在半竞争风险数据结构下，如何识别、估计并检验处理变量对终极结局的直接效应与经由中间结局的间接效应。半竞争风险指存在两个时间-事件结局，其中中间结局（如疾病发生）会被终极结局（如死亡）截断，但反之不成立——这导致标准的竞争风险或中介分析方法失效。该方向当前已从早期的参数模型发展到半参数与非参数方法，但如何在模型误设下保持稳健推断、如何在复杂依赖结构下给出有效检验，仍是核心难点。

发展脉络¶

根据 introduction 与参考文献，该领域的发展可梳理为以下几条线索：

奠基工作（半竞争风险的形式化与早期模型） - Fine et al. (2001)：首次明确提出"semicompeting risks"概念，指出中间结局被终极结局单向截断这一结构特征，并引入 Clayton copula 建模两个事件时间的依赖关系。这是该领域的起点。 - Lakhal et al. (2008)：在 Clayton copula 框架下发展了参数估计方法，但依赖较强的参数假设。

主要进展（从纯预测走向因果中介） - Huang (2021, Biometrics)：关键转折点。作者在 introduction 中明确引用："Huang (2021) showed that semicompeting risks can be formulated as a mediation model"，将半竞争风险问题重新框架为因果中介分析问题，从而引入直接效应（DE）与间接效应（IE）的因果语言。这打开了将因果推断工具引入生存分析的大门。 - Gelfand et al. (2004)、Hsieh et al. (2019)：在多状态模型框架下处理半竞争风险，提供了另一种建模路径。

当前 Frontier（模型选择与推断效率的权衡） - 当前文献呈现三足鼎立的局面：Clayton copula 模型（依赖 copula 结构刻画关联，参数化程度高）、Gamma frailty 模型（用脆弱项刻画异质性，半参数化）、多状态模型（Markov 或半 Markov 假设，结构清晰）。 - 作者在 introduction 中指出，现有工作"focus on one specific model"，缺乏在统一因果框架下对三种模型的系统比较与推断方法整合。

本文的位置 本文试图填补这一缺口：在 Huang (2021) 的因果中介框架下，首次系统建立三种经典模型与 DE/IE 的对应关系，并给出统一的检验程序。

子线索聚类¶

被引文献大致落在三条子线索上：

Clayton Copula 路线：Fine et al. (2001)、Lakhal et al. (2008)。核心思想是用 copula 函数直接建模两个事件时间的联合分布，优势是依赖结构清晰，劣势是对 copula 形式假设敏感。
Frailty 模型路线：Gelfand et al. (2004)、Hsieh et al. (2019)。通过引入随机效应刻画未观测异质性，半参数化程度更高，对模型误设更稳健。
多状态模型路线：传统的生存分析路径，将半竞争风险视为状态转移过程，依赖 Markov 或半 Markov 假设。

这个方向在追问的核心问题¶

识别问题：在半竞争风险结构下，DE 与 IE 是否可识别？需要哪些假设？
效率-稳健性权衡：参数化模型效率高但对误设敏感；非参数/半参数模型稳健但效率损失——如何在三者之间权衡？
推断方法：在复杂依赖结构下，如何构造检验统计量并推导其渐近性质？

⚠️ 作者的 framing¶

作者将缺口 frame 为：现有文献缺乏在统一因果框架下对三种经典模型的系统比较与推断整合。作者声称本文是"首次"在因果中介框架下统一处理三种模型。

被淡化或回避的竞争路线： - 纯非参数方法：作者未讨论完全避开参数假设的非参数识别策略（如仅依赖 censoring at independent time）。 - 其他 Copula 族：除 Clayton 外，Frank、Gumbel 等 copula 族未被纳入比较。

值得研究者去查的问题：作者声称"首次统一"，但需核实是否已有文献做过类似整合（如 Peng & Fine 的工作）。此外，作者未引用任何敏感性分析文献——在因果中介中，不可观测混淆的敏感性分析是标准配置，这里是否被遗漏？

张力¶

未见明显对立引用。三种模型各有优劣，作者呈现的是"互补"而非"矛盾"关系。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号定义： - \(T\)：处理变量，二值（如肝炎类型 B/C）。 - \(M\)：中间结局时间，即 \(T\) 发生后到中间事件（如肝硬化）发生的时间。 - \(Y\)：终极结局时间，即 \(T\) 发生后到终极事件（如肝癌/死亡）发生的时间。 - \(C\)：独立右删失时间（如研究结束或失访）。 - \(M(t), Y(t)\)：潜在结局，即在处理水平 \(t\) 下会观测到的中间/终极结局时间。 - 半竞争风险结构：\(M\) 会被 \(Y\) 截断（人死了就观测不到肝硬化），但 \(Y\) 不会被 \(M\) 截断（肝硬化后仍可观测死亡）。

可观测数据： - 实际观测到的是 \((X, \delta_M, \delta_Y)\)，其中： - \(X = (\min(M, Y, C), \min(Y, C))\)：观测到的时间对（受截断影响）。 - \(\delta_M, \delta_Y\)：示性函数，标记 \(M\) 和 \(Y\) 是否被观测到（未截断）。 - 关键难点：当 \(Y < M\) 时，\(M\) 被截断，只能知道 \(M > Y\)，无法知道 \(M\) 的精确值。

因果参数： - 直接效应（DE）：\(T\) 不通过 \(M\) 直接影响 \(Y\) 的部分。在因果语言中，通常定义为 \(Y(1) - Y(0)\) 中不依赖于 \(M\) 的部分（需明确中介路径）。 - 间接效应（IE）：\(T\) 通过改变 \(M\) 的分布进而影响 \(Y\) 的部分。

模型设定（三种）： 1. Clayton Copula 模型：假设 \((M, Y)\) 的联合生存函数服从 Clayton copula 形式，关联由参数 \(\theta\) 控制。DE/IE 通过 \(\theta\) 与边际分布参数表达。 2. Gamma Frailty 模型：引入 frailty \(Z \sim \text{Gamma}\)，假设给定 \(Z\) 下 \(M\) 和 \(Y\) 条件独立。DE/IE 通过 frailty 的方差参数表达。 3. 多状态模型：将过程建模为 \(T \to M \to Y\) 的状态转移，转移强度 \(\lambda_{01}, \lambda_{02}, \lambda_{12}\) 对应不同路径。DE/IE 通过转移强度参数表达。

第二步：最小内核¶

最简特例：Clayton Copula 模型下的 DE 检验

假设： - 无独立删失（\(C = \infty\)）。 - 处理 \(T\) 只影响 \(M\) 的边际分布，不影响 \(Y\) 的边际分布（无直接效应）。 - Clayton copula 关联参数 \(\theta\) 已知或可估。

核心问题：如何检验"无直接效应"假设 \(H_0: \text{DE} = 0\)？

在 Clayton copula 下： - 无直接效应意味着 \(Y\) 的边际分布在 \(T=0\) 和 \(T=1\) 下相同。 - 检验 \(H_0\) 等价于检验两组（\(T=0\) vs \(T=1\)）的 \(Y\) 边际分布是否相同。 - 但 \(Y\) 的观测受 \(M\) 截断影响——当 \(M < Y\) 时，\(Y\) 被完整观测；当 \(Y < M\) 时，\(Y\) 仍被观测但 \(M\) 被截断。

最小数学问题：在 Clayton copula 结构下，构造一个检验统计量 \(U_n\)，用于检验两组样本的 \(Y\) 边际分布是否相同，同时利用 copula 结构处理 \(M\) 对 \(Y\) 的截断依赖。

本文的解法： - 利用 U-statistic 理论，构造基于秩的检验统计量。 - 关键技巧：利用 Clayton copula 的特定函数形式，将依赖结构参数化，从而在 U-statistic 的核函数中引入 \(\theta\) 的估计。 - 渐近性质：在正则条件下，\(U_n\) 服从渐近正态分布，可构造 Wald 检验。

为什么这是最小内核： - 多状态模型和 Gamma frailty 模型的检验问题，本质上也是在特定依赖结构下检验边际分布或转移强度的差异。 - Clayton copula 情形最简单，因为 copula 形式直接给出联合分布的闭式表达，U-statistic 的核函数可直接写出。 - 其他两种模型需要 NPMLE，涉及更复杂的似然函数和优化问题，但核心逻辑仍是"在依赖结构约束下检验边际效应"。

三、这篇论文做了什么¶

三句话¶

研究了半竞争风险框架下直接效应（DE）与间接效应（IE）的假设检验问题。
在三种经典模型下建立了 DE/IE 与模型参数的对应关系，并给出统一检验程序。
结论：Clayton copula 效率最高但对误设敏感，Gamma frailty 最稳健但效率损失，多状态模型在两者间平衡。

关键设定与假设¶

因果框架： - 采用潜在结局框架，定义 \(M(t), Y(t)\) 为处理水平 \(t\) 下的潜在中间/终极结局。 - 关键假设： - 一致性：观测到的 \((M, Y)\) 等于潜在结局。 - 可忽略性：给定协变量 \(X\)，处理分配独立于潜在结局（无未观测混淆）。 - 正定性：所有处理水平都有正概率被观测到。

半竞争风险特有假设： - 单向截断：\(M\) 会被 \(Y\) 截断，但 \(Y\) 不会被 \(M\) 截断。 - 独立删失：\(C\) 独立于 \((M, Y, T)\)。

三种模型的具体设定：

Clayton Copula 模型：
联合生存函数：\(S_{M,Y}(m,y) = [S_M(m)^{-\theta} + S_Y(y)^{-\theta} - 1]^{-1/\theta}\)。
参数 \(\theta > 0\) 控制关联强度，\(\theta \to 0\) 时趋于独立。
DE/IE 通过边际分布参数 \(S_M, S_Y\) 和关联参数 \(\theta\) 表达。
Gamma Frailty 模型：
引入 frailty \(Z \sim \text{Gamma}(\alpha^{-1}, \alpha^{-1})\)。
条件生存函数：\(S_{M,Y|Z}(m,y|z) = \exp(-z \Lambda_M(m) - z \Lambda_Y(y))\)。
边际生存函数通过积分得到，关联由 \(\alpha\) 控制。
DE/IE 通过 \(\alpha\) 和边际强度参数表达。
多状态模型：
状态空间：\(\{0, 1, 2\}\)（健康、中间事件、终极事件）。
转移强度：\(\lambda_{01}(t)\)（健康→中间）、\(\lambda_{02}(t)\)（健康→终极）、\(\lambda_{12}(t)\)（中间→终极）。
Markov 假设：转移强度只依赖当前状态。
DE 对应 \(\lambda_{02}\) 的处理效应，IE 对应 \(\lambda_{01} \to \lambda_{12}\) 路径。

主要结果¶

定理 1-3（参数对应关系）： - 在三种模型下，分别建立 DE/IE 与模型参数的一一对应关系。 - 例如，在多状态模型下，无直接效应等价于 \(\lambda_{02}\) 在两组间无差异。

定理 4-6（检验统计量的渐近性质）： - Clayton Copula：构造 U-statistic \(U_n\)，证明其渐近正态性，给出方差估计。 - Gamma Frailty 与多状态模型：基于 NPMLE，构造似然比检验或 Wald 检验，证明渐近 \(\chi^2\) 分布。

模拟结果： - 模型正确设定时：Clayton copula 功效最高，多状态模型次之，Gamma frailty 最低。 - 模型误设时：Clayton copula 有明显偏差，Gamma frailty 最稳健，多状态模型居中。 - 样本量影响：小样本下 Gamma frailty 效率损失更明显。

证明路线与技术技巧¶

Clayton Copula 模型的 U-statistic 方法： 1. 核函数构造：基于 Clayton copula 的特定形式，构造秩型核函数 \(h(X_i, X_j)\)，利用两组样本的配对比较。 2. 投影技巧：将 U-statistic 投影到线性空间，得到渐近正态性。 3. 方差估计：利用 jackknife 或 bootstrap 估计方差，避免复杂的渐近方差公式。

Gamma Frailty 与多状态模型的 NPMLE： 1. 似然函数构造：在半竞争风险结构下，似然函数需考虑 \(M\) 被截断的贡献。 2. EM 算法：frailty \(Z\) 为潜变量，通过 EM 算法迭代估计。 3. 渐近理论：利用半参数 MLE 理论，证明估计量的渐近正态性与有效性。

技术技巧点名： - U-statistic 投影：用于 Clayton copula 模型的渐近理论。 - EM 算法：用于 Gamma frailty 模型的 NPMLE 计算。 - 半参数有效性理论：用于分析 NPMLE 的效率性质。 - Jackknife 方差估计：用于构造稳健的检验统计量。

真实例子与应用¶

数据：肝炎研究数据，研究乙型肝炎（HBV）和丙型肝炎（HCV）对肝癌的直接影响与经由肝硬化的间接影响。

应用方式： - 处理变量 \(T\)：肝炎类型（HBV vs HCV）。 - 中间结局 \(M\)：肝硬化发生时间。 - 终极结局 \(Y\)：肝癌发生时间。 - 删失：研究结束或失访。

结果： - 三种模型一致表明：HBV 和 HCV 都通过增加肝硬化风险进而提高肝癌发生率（显著的 IE）。 - 同时存在直接效应（肝炎病毒直接致癌），但 IE 占主导。

例子说明什么： - 验证了方法的实用性：在真实数据下，三种模型给出一致结论，增强可信度。 - 展示了 IE 的科学意义：肝硬化是肝炎→肝癌的主要中介路径。

🔎 结论是否比证明窄¶

作者在结论中声称三种模型"unanimously suggest"，但模拟显示 Clayton copula 在误设下有偏差。真实数据中三种模型一致，可能因为数据恰好符合 Clayton copula 假设，或偏差方向一致。作者未讨论真实数据中如何诊断模型假设是否成立——这是潜在缺口。

四、开放问题¶

模型诊断与选择：真实数据中如何判断哪种模型更合适？作者未提供模型诊断工具。扎根点：模拟部分显示 Clayton copula 在误设下有偏差，但真实数据分析中未讨论如何选择模型。
敏感性分析：因果中介分析中，未观测混淆的敏感性分析是标准配置，但本文未涉及。扎根点：introduction 中引用了 Huang (2021) 的因果框架，但未引用任何敏感性分析文献。
高维协变量调整：本文假设无未观测混淆，但实际研究中常需调整高维协变量。如何将本文方法与 double machine learning 或 targeted learning 结合？扎根点：作者假设"ignorability given covariates"，但未讨论高维情形下的协变量调整。
效率界的精确刻画：三种模型的效率-稳健性权衡是否有理论界？能否证明 Gamma frailty 在某类模型族下达到 minimax robustness？扎根点：模拟显示 Gamma frailty 最稳健但效率最低，但缺乏理论刻画。

Maintained by 陈星宇 · Homepage · Source on GitHub