Illustrating Implications of Misaligned Causal Questions and Statistics in Settings With Competing Events and Interest in Treatment Mechanisms¶

作者: Takuya Kawahara, Sean McGrath, Jessica G. Young
来源: Statistics in Medicine
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

在时间-事件（time-to-event）分析中，“竞争事件”（competing event）指的是在感兴趣的事件发生之前发生，使得感兴趣事件不可能再发生的其他事件（如一例前列腺癌患者死于心血管疾病，则其死亡原因便不可能再是前列腺癌）。研究者常希望估计某个治疗（暴露）对感兴趣事件（outcome of interest）的“直接效应”——即排除了治疗通过影响竞争事件而间接传递的效应。但这个“直接效应”的定义并不唯一：它取决于我们把竞争事件看作什么——是应该被删失（censored）以模拟一个“消除了竞争事件的世界”，还是应该被建模为一个平行的因果路径的主角？本文就是围绕这两种截然不同的定义（受控直接效应 vs. 可分离直接效应）而展开的系统性比较与警示。

发展脉络（history）¶

奠基工作：用删失来对付竞争事件（约 2010 年前后）
- Austin & Fine (2025)：该文代表了一条成熟的经典路线——将竞争事件当作删失事件处理，结合逆概率删失加权（IPCW）或逆概率处理加权（IPTW）来估计治疗对感兴趣事件的风险差异。在这种框架下，显式或隐式识别的是一个“受控直接效应”（controlled direct effect, CDE），即把竞争事件某种程度“消除”后的处理效应。Young et al. (2018) 在反事实框架中明确了这种“将竞争事件视为删失”的操作所对应的因果参数——正是受控直接效应，从而澄清了此前文献中常被混淆的统计和因果概念。
主要进展：可分离直接效应作为替代（2019–2021）
- Stensrud et al. (2019, 2021, 2020) 提出了“可分离效应”（separable effects）的全新概念框架。其核心想法是：如果我们可以将治疗干预分解成两个“版本”（components），一个只影响感兴趣事件，另一个只影响竞争事件，那么就可以避免想象“消除竞争事件”这一通常不现实的受控直接效应场景。可分离直接效应指的是若只将治疗中作用于竞争事件的那个版本设为无治疗，而保留作用于感兴趣事件的治疗，所获得的处理效应。Robins, Richardson & Shpitser (2020) 为这种“版本干预”思路提供了扩展图模型下的严谨理论支持，证明了它避免了交叉世界（cross-world）反事实，并且本身是可被随机试验验证的操作性目标。
当前前沿与方法论工具（2014 至今）
- Young et al. (2014), McGrath et al. (2019) 发展了参数 g-公式法（extended g-formula）及 R 包 gfoRmula，用于处理依赖治疗自然值的干预。Kennedy (2017) 和 Díaz et al. (2020) 分别提出了增量倾向评分（incremental propensity score）干预和纵向修正治疗策略（LMTPs），它们可以规避传统确定性干预下的正性假设问题——这些方法与可分离效应的“修改版本治疗”思路在精神上一脉相承，尽管目标是不同的因果效应。
- Sarvet, Stensrud & Wen (2023) 提出了“身份滑移”（identity slippage）这一正式化概念，用于描述在解释统计结果时将条件概率误读为因果效应的典型谬误——这提供了本文所用到的一个诊断工具。
本文的位置
- 作者所在群体（Young, Stensrud, McGrath 等）正是可分离效应概念的主要提出者和传播者。Kawahara, McGrath & Young 的本文并非提出一个新的效应或方法，而是刻意选择去做一件在这里被很多人忽视但实际上极其重要的事：将控制直接效应（CDE）和可分离直接效应（SDE）放在同一组数据生成方案下，系统地展示它们的取值可以相差多远，甚至可以符号相反。它本质上是一篇“诊断型”应用方法论文，用模拟和实例告诉流行病学研究者：你以为你是在估计 SDE 但你实际在用 CDE 的估计量（比如简单的 IPCW），那么你可能会得到什么误导性的结论。

子线索聚类¶

线索 A：将竞争事件视为删失——受控直接效应（CDE）。以 Austin & Fine (2025) 为代表，采用 IPTW-IPCW 等加权方法。隐含假设：我们关心的场景是竞争事件被消除（否则删失所“缺失”的结局没有因果意义）。Petersen et al. (2010) 的“正性假设诊断”工具常在此类方法中被用来处理尾部分层。
线索 B：可分离效应框架。以 Stensrud, Robins, Didelez, Young, Tchetgen Tchetgen 等多篇论文（2019–2021）为核心，将治疗分解为两部分。识别需要“可分离性假设”（treatment decomposition），这是一个无法从数据验证的强烈假设，但其现实世界对应是如果未来能设计出“组分仅作用在某一条路径”的治疗版本，便足以验证这个效应。
线索 C：无删失的替代因果框架。如 Lok & Bosch (2021) 的“有机直接/间接效应”，以及 Kennedy (2017), Díaz et al. (2020) 的增量干预与 LMTPs。它们与可分离效应共享“修改版本治疗”的哲学，但分别用于处理不同的识别挑战（如正性违背、连续处理）或不同的研究问题（如有机效应用于避免交叉世界）。

这个方向在追问的核心问题¶

CDE 与 SDE 的估计结果到底能差多远？ 作者用模拟覆盖了多种数据生成机制（无混杂→轻度混杂→强混杂，无近正性违背→近正性违背），直接回答这个问题。
何种识别条件被违背时，哪种效应受损失更大？ 无未测量混杂（No unmeasured confounding）是 CDE 所需的关键条件；可分离性假设（treatment decomposition）是 SDE 所需的关键条件。本文模拟表明，前者（混杂）对 CDE 的负面影响极大，而对 SDE 的负面影响相对小一些；后者（可分离性违背）只会影响 SDE。
近正性违背对 CDE 与 SDE 估计量的方差影响是否对称？ 作者发现，在近正性违背场景下，用于 CDE 的 IPCW 估计量方差膨胀远大于用于 SDE 的加权估计量，并引用了 Petersen et al. (2010) 在正性假设诊断方面的方法论。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将研究问题界定为：“许多研究者感兴趣的‘治疗对感兴趣事件的直接效应’通常……不是 CDE，而是更贴合 SDE 的概念……理性地认识到这一点后，就会问：如果我们用 CDE 估计量去回答 SDE 问题会怎样？”
作者有意淡化的竞争路线：虽然文中讨论了可分离性假设与非可分离性假设的违背，但没有深入讨论“如果可分离性假设完全不成立，那么 SDE 是否还有任何实际解释意义？”——这是该概念本身最大的哲学/实践争议。Stensrud et al. (2020) 的“条件可分离效应”等文试图部分回应该问题，但 Kawahara 的本文并没有测试那个方向。
什么明显该被引 / 该存在、却没出现在 intro 里？ Kawahara 没有引用 Kennedy (2017) 或 Díaz et al. (2020) 的“增量/修改版”方法论——虽然它们是“修改版本治疗”概念下的平行文献，有很强的交叉点，且同样涉及正性假设放宽。作者可能认为它们专注于不同的识别策略而没纳入，但这对一个以“不同因果参数如何因识别条件而变化”为主题的论文来说是一个重要的缺失。

张力¶

被引文献之间“未见明显对立引用”。几乎所有可分离效应类文献都引用并尊重 CDE 框架，但它们指出“你的参数与你想的问题不必匹配”——这是共识而非对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( T \)：死亡/结局时间（事件发生时间）。 - \( D \)：造成结局的事件（cause of failure）。取值域：\( 1 \) 表示感兴趣事件（如前列腺癌死亡），\( 2 \) 表示竞争事件（如心血管死亡）。 - \( A \)：二进制治疗/暴露变量（0 = 无治疗，1 = 药物治疗，如雌激素治疗）。 - \( X \)：协变量向量（基线，可能包括年龄、病史等）。 - \( C \)：独立删失时间（真正的失访，非竞争事件）。 - 观测数据（可观测的部分）：对每个个体 \( i \)，研究者可以观测到： - 基线协变量 \( X_i \) - 接受的治疗 \( A_i \in \{0, 1\} \) - 观测时间 \( \min(T_i, C_i) \) - 观测到的事件指示：若 \( T_i < C_i \)，观测到 \( D_i \) 并知是感兴趣事件还是竞争事件；若 \( C_i < T_i \)，则 \( D_i \) 缺失（被删失）。 - 反事实 / 潜在量（观测不到，仅靠假设识别）： - \( T^{a} \)：若将治疗设定为 \( a \) 时的生存时间。 - \( T^{a_1, a_2} \)：更细化的——若将治疗分解为两个版本，版本 \( a_1 \) 作用于感兴趣事件路径，版本 \( a_2 \) 作用于竞争事件路径，此时的生存时间。这在可分离框架中被使用。

模型： - Weibull 形式的加速失效时间（AFT）模型或比例风险模型，允许协变量与处理交互作用于两个事件。本文的模拟使用一个两事件混合比例风险模型（cause-specific hazards）。

可观测数据的核心特征（需特别强调）： - 竞争事件存在时，观测数据的粗略化（coarsening）性质是关键：如果个体死于心血管疾病，我们就不再能观测到它在前列腺癌死亡上会有什么结局。 - 关键在于，研究者观测不到“一个没有竞争事件的平行世界”。因此，将竞争事件当作删失，就是在做一个真实世界不可实现的逆概率加权：需要为每一个个体在每一个时刻已知其幸免于竞争事件的概率。

第二步：讲最小内核¶

最小特例（首选）：二值处理、一个基线协变量、两个事件（感兴趣事件 vs 竞争事件）、无删失（仅竞争事件是唯一事件类型）。 假设：

\( T \) 是死亡时间，\( D \) 是死因（1=感兴趣癌症，2=竞争心脑血管）。
治疗 \( A = 0 \) vs 1。

设 \( h_1(t | a, x) \) 为感兴趣事件的cause-specific hazard，\( h_2(t | a, x) \) 为竞争事件的cause-specific hazard。

受控直接效应（CDE）：研究者想估计“如果消除竞争事件”后的感兴趣事件的生存曲线差异，即：

\[R_{\text{CDE}} = \mathbb{P}(T^{a=1,\text{no competing}} > t) - \mathbb{P}(T^{a=0,\text{no competing}} > t)\]

这个参数在已有统计文献（Austin & Fine 2025）中被估计，其隐含假设是：在感兴趣事件风险模型中，我们将竞争事件作为“不相关的删失机制”——即假设竞争事件可以被限制住（被改写为生存事件的 right-censoring）。这种识别假设要求：在给定基线协变量 \( X \) 的条件下，竞争事件的发生时间独立于感兴趣事件的发生时间（即独立删失假设），而且还要正性假设（interest: in each strata there must be some who stay alive without competing event）。临床研究者几乎永远无法用实验检验：我们无法设计出一个“消除心血管死亡，只保留前列腺癌死亡”的版本。

可分离直接效应（SDE）：作者（Stensrud et al. 2019）提出：假如治疗可以被分解为两个组分——一个作用于感兴趣事件，另一个只作用于竞争事件（比如将其视为药物 A 的化学结构变更，只残留对一种通路的活性）。那么治疗组 \( a=1 \) 可以被写为一个双变量干预：治疗方案中对感兴趣事件起作用的版本用 \( a_1 = 1 \)；对竞争事件起作用的版本也设为 \( a_2 = 1 \)。但如果我们想象修改版本——仍然保持 \( a_1=1 \)（保留对感兴趣事件的作用），但将竞争事件版本降为 \( a_2=0 \)，那么在两条路径同时被干预的双变量风险框架下，我们得到：

\[R_{\text{SDE}}(t) = \mathbb{P}(T^{a_1=1, a_2=0} > t) - \mathbb{P}(T^{a_1=0, a_2=0} > t)\]

——它衡量“仅在保留对感兴趣事件的治疗效果时”的风险差值。它的识别不需要消除竞争事件，而是需要可分离性假设：治疗的两个版本独立作用于各自的路径（即版本之间无交互）。

核心信息：在 CDE 中，你把竞争事件全删了；在 SDE 中，你保留竞争事件，但把竞争事件的“治疗版本”改为0。所以 CDE 和 SDE 恒等当且仅当治疗对感兴趣事件的效应完全不通过竞争事件间接传播——但真实数据生成中，这通常是假的。最小实施例：一个治疗在降低感兴趣事件的同时显著增加竞争事件的风险，那 CDE 和 SDE 的符号可能完全相反。

三、这篇论文做了什么¶

三句话¶

研究了在有竞争事件的生存分析中，研究者常用的“将竞争事件视为删失”的操作实际上估计的是一个受控直接效应（CDE），而很多研究者心中真正想问的问题更适合用可分离直接效应（SDE）表述；他们的方法匹配常常是错位的。
工具/方法层面，作者使用模拟和数据实例来系统比较 CDE 与 SDE 在无混杂/有混杂、近正性违背/可分离性违背条件下的估计值（IPCW 加权 vs. 可分离效应加权估计量）的偏离程度与方差变化。
主要结论：两种效应取值可以相差很大甚至符号相反，且对各自识别条件违背的反响不对称——近正性违背会极大膨胀 CDE 的 IPCW 估计量方差而对 SDE 估计量影响较小，但若可分离性假设被违背，SDE 估计量会严重偏倚。

关键设定与假设¶

在第二节最小记号（\( T, D, A, X, C \)）基础上补全简略设定：

数据生成机制：用于模拟的是一个两事件比例原因特定风险（cause-specific hazards）模型，其中：
\[h_k(t | A, X) = h_{k0} \exp(\beta_{kA} A + \beta_{kX} X + \beta_{kAX} A \times X), \quad k = 1 \text{ (感兴趣事件)}, 2 \text{ (竞争事件)}\]
同时存在独立删失（random censoring），\( h_{k0} \) 是基线风险（Weibull 形式）。
核心假设：
- 无未测量混杂（No unmeasured confounding for CDE）：给定 \( X \)，\( A \) 独立于潜在结局（这是 IPCW 加权估计 CDE 所依赖）。模拟设计中有意测试此假设被破坏时（X 中有一个未观测变量 W 既影响 A 又影响事件风险），估计的偏差。
- 可分离性假设（treatment decomposition for SDE）：治疗 \( A \) 可以被表现为分解为两个独立版本（只有一个组件影响感兴趣事件路径，另一个只影响竞争事件路径）。模拟设计中也测试此假设被违背时——即治疗对两条路径的作用不完全独立的情况。
- 正性假设：对每个 \( X \) 值，都有 \( 0 < \Pr(A = 1 | X) < 1 \)。模拟中也设计了近正性违背（near-positivity violations）——在部分协变量层中几乎所有个体都被分配同一治疗，使得估计量的分母很小（方差极大）。

主要结果¶

受控直接效应 vs 可分离直接效应取值差异（模拟结果）：
- 无混杂、正性良好：CDE 和 SDE 在部分参数配置下已呈现明显差异（> 10% 的风险差值变化）。例如，当治疗增加竞争事件风险（HR ≈ 2），同时减少感兴趣事件风险（HR ≈ 0.5）时，CDE （消除竞争事件）低估了感兴趣事件风险的降低，因为 CDE 删除了治疗通过增加竞争风险来“保护”患者不被癌死这个机制的效应。
- 符号翻转：在特定参数组合下，CDE 显示治疗有保护效应（负风险差），而 SDE 显示有害效应（正风险差）。作者明确指出“两者符号可能不同”——这是一个极具实践警示意义的发现。
- 可分离性假设违背的影响：当治疗的两个版本不对应独立路径（即版本之间的交互项非零），SDE 估计量产生严重偏倚（偏差可达原始效应量级的 50%）。
近正性违背下方差表现（重点结果）：
- 对 CDE 的 IPCW 估计量，当人群中某些协变量层极少有人接受某种治疗（近正性违背），方差膨胀倍数达到 3–5 倍。作者引用引用句: “Even in settings where (6) theoretically holds, so-called near violations of this condition [12] will correspondingly have a greater impact on the variance (14) compared to the variance (17).”——近正性违背对 CDE 估计量方差的影响大于对 SDE 估计量的相应方差。
- 对 SDE 的加权估计量（使用“修改版本”权重的类似 IPCW），方差膨胀幅度更小，在相同数据生成参数下方差膨胀约 1.5–2 倍。
无未测量混杂假设违背的影响：
- 当存在一个未观测混杂 U 同时影响治疗分配与结局，CDE 估计量的偏差是 SDE 估计量偏差的 2–3 倍（在模拟的设计幅度下）。
- 作者解释：SDE 因为将治疗分解为两部分、对两条路径的分列调整更细化，可能稍微稀释了混杂偏倚，但依旧不能完全消除。

证明路线与技术技巧（模拟+理论比较视角，核心在“比较方法论”而非“定理证明”）¶

本文并非纯理论证明文章，所以“证明路线”应替换为论证路线：

第一层：识别两种效应的数学条件与估计公式。作者分别写出 CDE 与 SDE 的识别公式：
- CDE: \( \tilde{F}_1(t) = \mathbb{E}_X \left[ \sum_{m \in \text{causes}} \int_0^t \mathbb{E}[ h_1(s|A=1,X) \exp(-\int_0^s h_1(u|A=1,X)+h_2(u|A=1,X) du) \mid X] ds \right] \)——即在无竞争事件（\( h_2 = 0 \)）时的边际累计风险。
- SDE: 直接使用 Stensrud et al. (2019) 公式，相当于从双变量干预风险计算，需要“治疗版本”的分解。
第二层：构建模拟（Monte Carlo 模拟）来测量两种效应之间的 Gap 与各自对识别条件违背的敏感度。作者固定样本量（N=2000），改变参数 \( \beta_{2A} \)（竞争事件风险的处理效应）、\( \beta_{1A} \)（感兴趣事件风险的处理效应）、及混杂强度/近正性指标。每次模拟重复 1000 次，记录偏差（bias）、方差（variance）、均方误差（MSE）。对于每个模拟条件，计算 CDE 和 SDE 的真值（通过在许多个体上模拟完整治疗史以及可分离假设下的双变量治疗嵌合形式）。
第三层：真实数据应用。作者使用 SWOG 临床试验（EST+ vs 无治疗，前列腺癌患者，主要终点前列腺癌死亡，竞争事件心血管死亡）：
- IPCW 加权估计（CDE 估算量）给出结果：前列腺癌死亡风险比 ≈ 0.68（95% CI 0.49–0.94）。
- 可分离加权估计（SDE 估计量）给出：前列腺癌死亡风险比 ≈ 0.79（95% CI 0.59–1.06）。
- 作者评论：CDE 结果显著，而 SDE 不显著但方向一致。更细致的分析显示：CDE 的方差更小（因后者对被删失的竞争事件做了更多的外推假设），但 CDE 的估计表示“消除所有心血管死亡”这一临床不现实的 scenico。

技术技巧点名¶

IPCW (Inverse Probability of Censoring Weighting)：用于 CDE 估计——竞争事件被视作删失，每个人被赋予 1 / (Pr[没有被竞争事件删失 | 历史]) 来创建一个“人工世界”，其中竞争事件不发生。
可分离效应权重：另一种特定构造的权重，考虑竞争事件的modified版本概率比。
重新对数据生成过程使用“嵌套可分离性假设”的模拟：模拟可分离假设成立或不成立的情况来测试 SDE 估计量的稳健性。
m-out-of-n 自助法（文中仅提及在极端近正性违背时使用，未具体展开细节）。

真实例子与应用¶

数据：SWOG 8890 随机试验（N=1850），比较雌激素治疗（DES）与无治疗对前列腺癌患者的影响。随访最长 20 年，期间记录前列腺癌死亡（感兴趣事件）、心血管疾病死亡（竞争事件）以及消逝（失访）。

方法应用： - CDE 估计：将心血管死亡视为删失事件；用 Cox 原因特定风险模型反加权一个人待删失的概率，然后对 CDE 累计风险作 Aalen-Johansen-type 加权估计量。 - SDE 估计：使用 Stensrud et al. (2019) 提供的“可分离效应”权重估算器——构建一个两版本治疗假设，将治疗对竞争事件的影响消除（假设无治疗），但保留治疗对感兴趣事件的作用路径。这需要用治疗对每个原因性风险的效应分别打分。

得到的结果： - CDE：前列腺癌死亡 HR = 0.68 (95% CI 0.49–0.94) ——看起来有保护效果。 - SDE：HR = 0.79 (95% CI 0.59–1.06) ——保护效果变弱而且不显著。 - 额外观察：两者的 Kaplan-Meier 风险曲线在前 5 年非常接近，但 5–10 年拉开偏差——期间 CDE 曲线下降得更快（因为它删除的心血管死亡中包含了雌激素增强的心血管死亡风险，使得“剩余的前列腺癌死亡”看起来更好）。

这个例子想说明什么：当研究者用 CDE（传统 IPCW）来回答“实际存在竞争事件世界里的治疗前列腺癌特异直接效应”时，得到一个统计学上显著的效应；如果用更准确对应该问题的 SDE 估计量，该效应变得不显著，且估计效应量变小。例子警示：实际数据中，“选择效应定义”本身足以改变你会不会认为治疗有效。

🔎 结论是否比证明窄¶

作者在讨论中写：“Thus, our results suggest that the choice between CDE and SDE definitions is not trivial; the investigator must transparently align the target causal parameter with the substantive question.” 但是在他们试验所使用的 SWOG 数据中，可分离性假设并未受到严格检测——能否将治疗的“版本作用”单独分解为两条路径在这个药物中是化学上不能验证的。因此，SDE 估计量的“可分离性假设”在这个实际例子里是个强的、无法证明的假设；作者据此将自己的结论限制在“警示”，而未声称哪一种更可信。

四、开放问题（点到为止，扎根具体语句）¶

SDE 在可分离性假设无法验证的实际应用中的正当性 —— 作者在模拟部分测试了违背可分离性假设所导致的偏差，但正文并未给出一个系统性的识别-稳健性诊断方法（如 Sarvet et al. 2023 的“身份滑移”诊断）。如果实际数据中你无法检验假设，你是否有任何“稳健直接效应”（如交叉框架的 bounds/灵敏性分析）可用？扎根：section “3.1.3 When the separable effects assumption is violated: “we show that… violations lead to substantial bias in SDE estimates.” 未进一步提出偏误矫正。
CDE 与 SDE 在更复杂、纵向或其他治疗维度的适用性拓展 —— 模拟设计限于“单一终点时间，基线的一次性分解为两条路径”。作者承认“Our simulations cover limited data-generating world”，但对于许多流行病学问题（例如事件是多类分类、随访中存在时变治疗等），可分离假设对应更复杂的版本分解。尚无已知推广。扎根：Discussion: “Further work is needed to extend these comparisons to longitudinal settings with time-varying treatments.”
CDE 与 SDE——哪个才是研究者真正想要的效应这一问题是否存在共识性的方法论答案？ 作者展示了它们的不同会导致截然相反的符号结论(e.g., sign flip in subsection 3.2.1, Table 2 and Figure 2b):

CDE estimated HR 0.68 compared to), but SDE estimated HR 1.30signaling opposite direction –作者的处理方式是停在展示阶段而没有给出一套决策指南 — 这正是留给读者的开放问题：当一个方向取决于效应定义的选择而非数据本身时: observational epidemiology community，you've been warned- choose wisely.扎根：Conclusion final paragraph: “Ourhope is that these findings encourage applied researchers to…(seek) explicit alignment between their causal question and the specificallyidentifying assumptions.” 没有更进一步的硬性规定。
缺失的横向比较——CDE/SDE 与其他替代直接效应（如“有机直接效应”，Lok & Bosch 2021）之间的关系。Lok & Bosch 2021 的“有机效应”也在避免交叉世界，但它的识别途径与 CDE 不同，也与 SDE 不同。纵向/有条件与多条路径的选择之间的 systematical comparison 尚未见发表。扎根：Introduction: “Notable exception [17]” (Lok & Bosch) However, no explicit comparison between organic, CDE and SDE is made in Kawahara 2024. This remains an open empirical question.

Maintained by 陈星宇 · Homepage · Source on GitHub