Causal inference with competing events¶
讲者: Jessica Young
讨论人: Jacqueline Rudolph , Q&A moderator: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-03-21
主题: 因果推断
视频: https://youtu.be/vgNznhe4ofQ · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
子方向: 因果推断(causal inference)与生存分析(survival analysis)交叉的子领域——存在竞争风险(competing events)时的因果效应定义与识别。
这个方向在追问什么: 当事件分为“感兴趣事件”(如前列腺癌死亡)和“竞争事件”(如心血管死亡,一旦发生便使感兴趣事件在逻辑上不可能发生)时,研究者经常报告一些统计量(如cause-specific hazard ratio、subdistribution hazard ratio、cumulative incidence)。但这些统计量是否对应一个有意义的“因果效应”?如果对应,对应的是哪种因果效应? 当研究者说“我想知道治疗对前列腺癌死亡的效果”时,这句话其实可以翻译成多种不同的反事实目标,而其中有些目标在政策或临床意义上是可疑的。所以这个子方向的追问是:先想清楚你真正要回答的问题是什么,再去看能否从数据中识别并估计那个问题的答案。
奠基与主流路线: - 经典路线:Fine & Gray(1999)的subdistribution hazard 模型、cause-specific Cox model——这些方法提供统计估计量,但并未(或未明确)用反事实语言定义它们要估计的因果量。很多教学论文(如 textbook by Kalbfleisch & Prentice)建议用 cause-specific hazard 回答“病因学”(etiology)问题,用 cumulative incidence 回答“预测或干预”问题——但“病因学”一词在实际应用中含义模糊,常常被理解为一种“直接效应”,却未给定严谨的反事实定义。 - 反事实路线:Robins & Richardson(2010)、Pearl 等的因果中介分析框架已被尝试应用于竞争风险。具体地说,把竞争事件当作一个“中介变量”(mediator),然后考虑各种直接效应(controlled direct effect, natural direct effect, survivor average causal effect)。但这些经典直接效应均存在实际问题: - Controlled direct effect:需要能够人为“固定”竞争事件不发生(即消除死亡),这在绝大多数现实场景中是不可能的; - Natural direct effect:需要“反事实依赖”假设(cross-world independence),且不能直接通过物理干预实现; - Survivor average causal effect:只针对那些“无论如何都不会经历竞争事件”的亚群,这个亚群本身可能存在定义问题,且其政策相关性存疑。
当前前沿与这场报告的位置: - Young 的团队(与 Stensrud、Didelez 等)提出的 分离效应 (separable effects) 是这一方向近年来的一个重要分支(Stensrud et al., JASA 2020; Stensrud et al., Lifetime Data Analysis 2021; Young et al., Statistics in Medicine 2020)。核心思想:在因果图中把原治疗 A “分解”为两个假想的子治疗组分,\(A_Y\)(直接影响感兴趣事件 Y)和 \(A_D\)(直接影响竞争事件 D),使得这两个子治疗的联合分配与原治疗等价。然后定义新的反事实目标为“只改 \(A_Y\)、固定 \(A_D\)”下的总效应(或者反过来)。这些效应的诱人之处在于:(1) 具有可操作的干预诠释——假想的修改后的治疗方法(例如一种只对前列腺癌细胞有效、不会损害心血管的药物)是可以设想的未来试验干预;(2) 它来源于非常具体的 subject-matter 故事(如 Pearl 关于“修改型香烟”的四臂试验故事),而非纯粹的数学构造; - 这场报告属于该路线中偏向“定义与诠释” 的一类:重点是把各类已有或新定义的反事实目标摆出来,逐条讨论它们对应的物理故事是什么、能否用反事实语言写清楚、以及(在完美试验中)是否被观测数据识别。报告本身不深入具体识别公式或渐进理论,而是对“如何与领域专家对话从而澄清研究问题”给出了方法论指导。
点名关键工作(讲者与合作者): - Young et al., Statistics in Medicine, 2020:正式提出竞争风险中的因果 DAG 和反事实目标分类 [H:00:50]。 - Stensrud et al., JASA, 2020:首次将分离效应(separable effects)应用于竞争风险场景 [H:00:35]。 - Stensrud et al., Lifetime Data Analysis, 2021:拓展到治疗无法物理分解但可以以其他方式修改的情形,并深入讨论识别条件和可检验性 [H:00:35]。 - Robins & Richardson, 2010, in Causality and Psychopathology: 关于修改治疗的例子的最初形式,以及指出 Pearl 的香烟故事不是自然的直接效应(natural direct effect)的例子 [H:00:31]。 - Didelez 的延伸:将修改治疗思想扩展至生存结果与时间变中介 [H:00:34]。
注意: 转写中提到的“Marginal cumulative incidence (net risk)”与“controlled direct effect”等价(幻灯片第 29 页),研究者查原文时可特别注意这一点。
二、最小内核 / 一个最简例子¶
为了看清问题的核心,我用离散时间、二值治疗、一个竞争事件的最简设定。
符号与模型: - 观测到:治疗 \(A \in \{0,1\}\)(如雌激素vs安慰剂)。 - 时间离散化为 \(k = 0,1,\ldots, K+1\)(\(K+1\) 为管理审查时间)。 - 在每个 \(k\) 观测: - \(Y_k\):在时间 \(k\) 或之前是否发生感兴趣事件(前列腺癌死亡)。\(Y_k = 1\) 表示至 \(k\) 时已死于前列腺癌。约定 \(Y_0 \equiv 0\)。 - \(D_k\):在时间 \(k\) 或之前是否发生竞争事件(心血管死亡)。\(D_0 \equiv 0\)。 - 核心的决定性关系:对所有 \(k\),如果 \(D_k = 1\) 且 \(Y_{k-1}=0\),则后续所有 \(Y\) 都等于 0。这是因为一旦死于其他原因,就不可能再死于前列腺癌——这是竞争风险数据结构的本质特征(幻灯片第 11 页)。 - 反事实记号(潜在结果):\(Y^{a}_k\)、\(D^{a}_k\),表示在治疗 \(A=a\) 下每个人的潜在事件过程。
研究者想知道的(口头表述):“治疗对前列腺癌死亡的效果”。
出现的问题: 至少存在两种表面合理、但实际含义截然不同的反事实翻译。 - 翻译 A(总效应,total effect): \(\Pr(Y^{a=1}_{K+1}=1) - \Pr(Y^{a=0}_{K+1}=1)\)。这是直观的“如果所有人吃雌激素 vs 如果所有人吃安慰剂,到 5 年末有多少人会死于前列腺癌”。识别: 在完美随机试验中,直接用各组观测比例估计。 - 问题: 这个总量包含了“通过竞争事件”的路径。如果雌激素一方面抑制前列腺癌,另一方面增加心血管死亡,那么总效应的下降可能仅仅是因为患者死于心脏病更快,从而“没有机会”死于前列腺癌——而不是在生物学上抑制了癌细胞。总效应无法区分这两种机制(Hemingway 问题)。 - 翻译 B(分离效应的一种特例——只改变 \(A_Y\),固定 \(A_D\)): 想象一种“修改后的治疗”,其中仅改变与前列腺癌死亡相关的成分 \(A_Y\)(例如抑制癌细胞增殖),但不改变与心血管死亡相关成分 \(A_D\)(例如不会损害心脏)。这一治疗在现实物理上不一定存在,但是可以定义其反事实效应:
“一看就懂”的特例(二值治疗、离散时间、\(K=1\),只考虑从基线到第一个时间点: - 假设仅仅在基线(\(k=0\))到第一个时间点(\(k=1\))之间允许死亡。观测结构:\(A, D_1, Y_1\)。 - 总效应:\(\Pr(Y^{a=1}_1=1) - \Pr(Y^{a=0}_1=1)\)。估计:治疗组中死于前列腺癌的比例减去对照组比例。 - 如果治疗的真实机制是“雌激素使得死于前列腺癌的风险减半,但使得死于心脏病的风险加倍”,总效应可能接近于 0(因为两种效应互相抵消),但实际上大量死亡的原因被掩盖了。 - 把 \(A\) “分解”为 \(A_Y\)(作用在 \(Y_1\) 上)和 \(A_D\)(作用在 \(D_1\) 上),并强加“full isolation”(\(A_Y\) 不掉入 \(D_1\),\(A_D\) 不掉入 \(Y_1\) 不经过 \(D_1\) 的路径)。然后分离效应 \(\Pr(Y^{(1,0)}_1=1) - \Pr(Y^{(0,0)}_1=1)\) 回答的就是“只改变治疗对 Y 的直接成分,而让 D 部分的效应继续保持为 0 时的效果”,这对应一种只抑制癌细胞但不伤及心脏的假想药物。这个效应即使总效应为 0 也可以非零,但它需要关于 \(A_Y\) / \(A_D\) 作用的机制假设(由领域专家提供 story)来识别和诠释。
三、报告主体:讲者讲了什么¶
[0:00–0:05] 开场与定义:主持人介绍讲者 Jessica Young(Harvard)、讨论人 Jacqueline Rudolph(JHU)、Q&A 主持人 Mats Stensrud(EPFL)。定义:竞争事件/竞争风险是任何使得“感兴趣事件”不可能发生的事件(幻灯片第 1 页),并以雌激素疗法 vs 前列腺癌死亡的经典试验(Byar & Green, 1980)为贯穿例子。
[0:05–0:10] 观测数据结构:介绍离散时间符号 \((A, \bar{Y}_{K+1}, \bar{D}_{K+1})\),并强调这是比经典 T-tilde-J 表示更透明的形式,因为它明确承认时间变化的特性(幻灯片第 9–10 页)。关键特性:一旦 \(D_k=1\)(竞争事件发生),后续 Y 全部确定性为 0(幻灯片第 11 页)。
[0:10–0:15] 因果效应的定义:讲者给出因果效应的操作性定义——“同一个人在不同治疗下的反事实结果的对比”(幻灯片第 13 页)。然后从 cause-specific cumulative incidence(幻灯片第 14 页)出发:这是在已知的竞争风险文献中最常用的估计量,其反事实对比 \(\Pr(Y^{a=1}_{K+1}=1)\) vs \(\Pr(Y^{a=0}_{K+1}=1)\) 是一个总效应,它在完美随机试验中被识别。讲者强调:“不要误解——我并不是说不去估计总效应;我是说你需要知道总效应回答的是什么,以及它是否和你真正想问的一致”(幻灯片第 21 页)。
[0:15–0:20] 总效应的问题:用因果 DAG(特别是带有“蓝箭头”从 A 到 D 再到 Y 的路径,即“通过竞争事件的中介效应”)来说明总效应是如何捕获这些机制的。进而用解析后的试验数据显示:总效应显示雌激素“保护”前列腺癌死亡(幻灯片第 17 页),但同时也显示“增加”其他原因死亡(幻灯片第 19 页)。讲者提出问题:单从总效应,无法区分“真的是抑制癌细胞”还是“仅仅因为让人死得更快而没来得及得前列腺癌”(幻灯片第 20 页)。
[0:20–0:25] 流行估计量的因果缺陷:cause-specific hazard ratio。讲者指出它不是在定义意义下的因果效应,因为它对比的是在不同组中存活到时间 \(k\) 的人群(条件事件集不同),而不是相同的人。同样的问题适用于 subdistribution hazard ratio(幻灯片第 24 页)。只有在处理完全无效(\(A\) 无因果效应)或者能够测量并调节所有 Y 过程和 D 过程的共同原因的特殊情况下,才可能把这两种 hazard ratio 赋予某种因果诠释——但即便如此,它也比我们实际需要(用于定义和识别直接效应)的条件更强(幻灯片第 26–27 页)。
[0:25–0:28] 因果文献中已有的直接效应选项:讲者枚举了三个“经典”的直接效应——controlled direct effect、natural direct effect、survivor average causal effect(幻灯片第 29 页)。她指出,这三者的政策相关性(policy relevance)往往可疑:controlled direct effect 需要消除死亡(不可行),natural direct effect 需要“跨世界”假设,survivor average causal effect 的 target population 不明确且可能不存在。在报告的第 30–31 页,讲者指出此时进入“死胡同”——研究者说不清楚他们想要什么。
[0:28–0:33] 从故事出发:分离效应 (separable effects) 的来源:转述 Robins & Richardson(2010)对 Pearl 的“四臂试验故事”(吸烟&心肌梗死&血压)的分析——指出那不是一个自然直接效应的故事,而是一个“修改治疗”(modified treatment)的故事(幻灯片第 31–33 页)。从而引出关键思想:如果我们知道如何“分解”原治疗 \(A\) 的不同作用组分(分别影响 Y 和 D),就可以把 \(A\) 替换为两个假想治疗 \(A_Y\) 和 \(A_D\)。这个思想被 Didelez 扩展到时间变中介的生存结果,Stensrud 进一步应用于竞争事件(Stensrud et al., JASA 2020),即分离效应 (separable effects)(幻灯片第 34–35 页)。
[0:33–0:40] 分离效应的定义:modified treatment assumption(幻灯片第 37 页):联合分配 \(A_Y\) 和 \(A_D\) 到同一值 \(a\),会与原来分配 \(A=a\) 产生完全相同的未来事件过程。在此基础之上,定义:
[0:40–0:45] 识别结果:分离效应的识别需要比总效应更强的假设——需要测量并调整 \(Y\) 和 \(D\) 的共享原因 Z 或者相应代理变量,并满足“dismissible component conditions”(幻灯片第 45 页)。但讲者强调,它们不需要调整 \(U_Y\)、\(U_D\) 这些各事件进程特有的共同原因。这意味着,即使在完美的随机试验中,如果总效应不够,也必须像在观察性研究中那样收集额外的协变量。
[0:45–0:46] 总结与资源:讲者提到 Mats 和她的 workshop、Paloma Rojas Sañero(UCLA postdoc)维护的代码网页(slides 第 46 页)。
[0:47–1:00] 讨论人 Jacqueline Rudolph 发言:她是一位流行病学出身的应用研究者。她的发言从三个她自己研究的例子开始(HIV+人群癌症与痴呆;物质使用障碍用药与过量死亡;阿司匹林与妊娠结局),强调了竞争事件在应用中的普遍性。她对经典统计文献中的“病因学 vs 预测/干预”二分法的批评与讲者一致;她对总效应的偏好(认为政策相关)持开放态度,但同时也承认分离效应在理论上更让人满意。她提出两个关键挑战:(a) 如何证明研究者有足够的 subject-matter 知识来构思“分离”的故事?(b) 在仅使用二手数据时,identification condition 的合理性如何评估?(c) 竞争作为中介器的时序问题(spike timing)——讲者用“足够精细的时间离散化”和“连续时间模型”回应了这一点([\(0:58–1:00]\) 给出了具体分析)。
四、对应论文与开放问题¶
对应论文(以幻灯片为权威依据,标注不确定条目): 1. Stensrud, M.J., Young, J.G., Didelez, V., Robins, J.M., & Richardson, T.S. (2020). "Separable Effects for Causal Inference in the Presence of Competing Events." Journal of the American Statistical Association, 117(537), 175-190. —— 分离效应在竞争风险下首次发展。(确认,对应报告第35页)
-
Stensrud, M.J., et al. (2021). "A note on the interpretation of separable effects in the presence of competing events." Lifetime Data Analysis, 27, 531-546. —— 关于治疗无法物理分解但依然可定义分离效应的扩展,包括与既定效应(如truncated events)的联系。(确认,对应报告第35页)
-
Young, J.G., Stensrud, M.J., Tchetgen Tchetgen, E.J., & Hernán, M.A. (2020). "Causal inference with competing events." Statistics in Medicine, 39(12), 1573-1594. —— 这篇是报告概念基础,包含正式的因果 DAG、总效应与各种直接效应的类别讨论、用实例演示。(确认,对应报告第17、19、图片标题等)
-
Janvin, M., et al. (2023). "Separable effects for recurrent events." Lifetime Data Analysis. —— 是分离效应向复发事件的扩展。(确认,对应报告第35页)
注意: 转写中提到“truncated events”论文(Stensrud et al. JASA 2022),但幻灯片只列在相关扩展中(第35页),未给出确切标题。建议查 Stensrud 的工作论文直接核实。
开放问题(均来自转写中的讨论片段):
-
分离效应假设的可检验性(转写 [0:48:30–0:49:55] 讨论人 Rudolph 提问):虽然修改治疗假设(modified treatment assumption)原则上可以在六臂试验中检验/证伪,但在大多数现实应用中,这种假设常常是纯属基于领域知识的先验假设。这意味着:分离效应的“可信度”在很大程度上取决于 subject-matter 的细致程度和创想力,而不是纯统计条件。在只有二手数据时,如何为这些假设的合理性提供可信的论证?
-
低层级观测数据中的应用(转写 [0:55:00–0:56:30] Rudolph 提问):在许多应用环境中(如管理数据库、队列研究),协变量集是固定的,研究者无法针对分离效应的识别收集额外的共享原因 Z。在 Z 未完整测量的条件下,分离效应是否仍然可部分识别?还是必须直接放弃? 讲者及 Stensrud 等后续的工作(如 2021 LDA 论文)有部分对接。
-
分离效应的“隔离条件”可放松到什么程度?(转写 [0:56:00–0:57:30] 讨论人提到 partial isolation 可能在实际中更难满足)。Full isolation 要求 \(A_Y\) 不通过 D 影响 Y,\(A_D\) 不通过非 D 路径影响 Y。Partial isolation 允许更复杂的机制,但对应诠释的清晰度下降。什么时候(在哪种机制故事中)我们愿意接受 partial isolation 而仍然认为分离效应是有意义的?
-
竞争事件作为中介的“时序”问题([0:58:30–1:00:00] 讲者与 Mats 关于连续性时间的讨论):用 DAG 表示 D→Y 的路径时,隐式假定 Y 发生在 D 之后。但在接近连续时间下(或高度离散化时间下),“同时发生”的事件在现实中可能导致方向不明。Mats 提出一个简单的敏感性分析:随机化时序并重新估计。对于分离效应 —— 一个依赖于准确区分“通过 Y”和“通过 D”的效应类别 —— 这种时序不确定性的影响有多大?
-
总效应的“主导”地位与分离效应的定位([1:00:00–1:03:00] 讲者和讨论人的观点):两位都同意在典型应用中总效应是首要且常足以满足目标的。分离效应的定位更像是一种“补充”和“后续分析”。在学科实践(特别是在流行病学中)中,对于一个给定的研究,何时应考虑报告分离效应作为核心分析的一部分? 这似乎更多是一个学科规范问题而不是理论可解问题,但对研究者(特别是外部研究者)来说,理解这个“决策树”很重要——它可以帮助判断在与领域专家合作时在哪里进行概念的澄清。
Maintained by 陈星宇 · Homepage · Source on GitHub