Causal effects conditional on post-treatment variables¶
讲者: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-03-03
主题: 因果推断
视频: https://youtu.be/r9Y38RiZ51Y?si=2RcCvO4-VoNLVIZ2 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这条工作线位于因果推断中“处理后变量条件化效应”的子方向。核心追问是:当感兴趣的结局变量(如生活质量)仅在存活者中有定义,而处理同时影响存活概率时,如何定义与识别“处理对结局的因果效应”?这里的“存活”是一个典型的处理后变量(post-treatment variable)——既受处理影响,又截断结局的可观测性。
该子方向的奠基与主流路线包括: - 复合结局(composite outcome):将死亡赋值为0,Y与存活合并为单一变量Q= I(D=0)·Y,直接估计E[Q|A=1]–E[Q|A=0](例如,Murray et al., 2004)。缺点:解释性差,无法区分对存活与对生活质量的影响。 - 控制直接效应(Controlled Direct Effect, CDE):同时干预处理A与存活状态D,如E[Y^{a=1,d=0}]–E[Y^{a=0,d=0}](Robins & Greenland, 1992)。问题:“不让死亡”通常不可行,且与一致性常冲突。 - 幸存者平均因果效应(Survivor Average Causal Effect, SACE):对比仅在两种处理下都存活者的潜在结局差异,E[Y^{a=1}–Y^{a=0} | D^{a=1}=0, D^{a=0}=0](Robins, 1986 附录; Rubin & Frangakis, 2002 Biometrics)。该估量是跨世界的(cross-world),需要强假设(如单调性)才能识别;且该子群体在实际中无法标定。
当前frontier:报告站在 可分离效应(Separable Effects) 这一分支上。核心想法来自Robins & Richardson(2010, 回应Pearl的讨论):将实际处理A的概念分解为两个独立的因果组分——一个影响死亡(A_D),一个影响结局(A_Y),二者在观测数据中绑定(A=A_D=A_Y),但允许在思想实验中分别干预。这一路线近年由Stensrud et al.(2023, JASA)系统发展为条件可分离效应(Conditional Separable Effects, CSE),解决了在存在处理诱导的中间变量L(“recanting witness”)时SACE不可识别的问题。此后,Park, Stensrud & Tchetgen Tchetgen(2026, JRSS-B, 已接受)将其拓展至近端推断(Proximal Inference)以处理未测量混淆。当前报告的最新部分(Piccininni & Stensrud, 2026, forthcoming)进一步展示了在乘法生存模型(multiplicative survival model)下,SACE和CSE均可被最简单的可观测对比E[Y|A=1,D=0]–E[Y|A=0,D=0]识别——这一结果直接联系并解释了应用文献中著名的“出生体重悖论”(birth weight paradox, Yerushalmy 1971; Hernandez-Diaz et al. 2006)。同时,通过重新编码工具变量(IV)框架中的非依从性(non-adherence)为D,该框架也可用于IV场景,得到不同于传统IV(依从者平均因果效应CACE)的识别函数与假设。
可信引用(依据幻灯片中参考文献): - Stensrud et al. (2023, JASA) —— 条件可分离效应的基础论文。 - Robins & Richardson (2010) —— 分解思路的源头(“seminal decomposition idea”)。 - Park, Stensrud & Tchetgen Tchetgen (2026, JRSS-B, accepted) —— 近端推断扩展。 - Piccininni & Stensrud (2026, forthcoming) —— 乘法生存模型下的新识别结果。 - Wanis et al. (2025, Am. J. Epidemiol.) 与 Gonzalez-Perez et al. (2025, arXiv) —— 可分离效应在依从性中的应用。
二、最小内核 / 一个最简例子¶
记号与观测数据
- 处理变量 \(A\in\{0,1\}\)(如化疗DE vs 标准治疗MP),随机分配。
- 死亡指示 \(D\in\{0,1\}\)(1=死亡)。
- 生活质量 \(Y\in\mathbb{R}\);若 \(D=1\),Y未定义。
- 基线协变量 \(C\)(隐含条件化)。
- 潜在结局:\(Y^a\)(若A=a时的Y),\(D^a\)(若A=a时的D)。
核心困境:观测对比 \(E[Y|A=1,D=0]\) vs \(E[Y|A=0,D=0]\) 不是因果,因为两组存活者基线不同(治疗影响死亡率),且D是处理后变量,条件化引入了选择偏倚(collider bias)。
可分离效应(CSE)的核心思想:假设治疗A可以概念性拆分为两个独立组件——A_D(主要影响D)和A_Y(主要影响Y),且A_Y不对D产生因果影响(A_Y -isolation,幻灯片第11页)。则在四臂随机实验中(分别独立随机A_D与A_Y),可定义条件可分离效应:
这衡量的是“保持死亡机制(固定A_D)不变,仅改变影响生活质量的组件A_Y时,对那些在固定A_D下存活者的生活质量效应”。
最简例子(无混淆、无L,幻灯片第10-12页)
- 假设A随机分配,且满足“dismissible components”条件(幻灯片第16页)。
- 识别公式(幻灯片第18页)在无中间变量L时退化为:
当L不存在(或L被条件化为常数)时,分子简化为 \(E[Y|D=0, A=a_Y] \cdot \Pr(D=0|A=a_D)\),分母为 \(\Pr(D=0|A=a_D)\),因此
取 \(a_D=0\)(即控制组死亡机制),则CSE(0) = \(E[Y|A=1, D=0] - E[Y|A=0, D=0]\)。
这就是“对存活条件化的简单均值差”在可分离效应框架下的因果解释——它回答的是:“如果开发出一种新药,保留了原药对肿瘤进展/生存的影响(即A_D保持不变),但去除了脱靶毒性(A_Y),那么对那些原本在标准治疗下可以存活的患者,新药将如何改变他们的生活质量?” 这个估量是单世界的(single-world),可以在未来实验中检验(幻灯片第12-13页)。
三、报告主体:讲者讲了什么¶
[0:00–0:03] 开场与动机
- 介绍主题:处理“处理后变量条件化”的因果效应,关注实践中的具体问题(生活质量、COVID感染后严重程度、教育/经济项目的流失率)。
- 以NEJM 2004/JCO 2006的化疗DE vs MP为例:DE提高生存率但需评估生活质量,作者只报告了存活者的生活质量对比(幻灯片第1-4页)。
[0:03–0:06] 符号与候选估量
- 定义A, D, Y, 潜在结果 \(Y^a, D^a\)。
- 列出四种常见做法:
1. 朴素对比 \(E[Y|D=0,A=1]\) vs \(E[Y|D=0,A=0]\)——“苹果vs香蕉”。
2. 复合结局 \(Q = I(D=0)Y\),边际效应易识别但改变目标(幻灯片第5页)。
3. 控制直接效应 \(E[Y^{a=1,d=0} - Y^{a=0,d=0}]\)——干预死亡不可行。
4. SACE \(E[Y^{a=1}-Y^{a=0}|D^{a=1}=0,D^{a=0}=0]\)——跨世界,不可识别需强假设。
[0:06–0:09] SACE的历史
- Robins 1986附录中已提及,但Robins因“非传递性”而放弃(幻灯片第6页)。Rubin & Frangakis 2002重新提出(转录[0:08:11]处提及)。
[0:09–0:13] 实质性动机:治疗改进
- 化疗的“off-target effects”降低生活质量;投资开发靶向药物需量化“若去除毒性,可带来多少生活质量改善”。
- 通过一个药企与监管部门的对话故事,引出可分离效应(CSE)——用于形式化“新治疗版本”的效果评估(幻灯片第7-8页)。
[0:13–0:18] 治疗分解假设
- 正式假设A可分解为两个组件 \(A_Y, A_D\),且在观测数据中 \(A=A_Y=A_D\)。
- 关键:在思想实验中,可分别设置 \(A_Y, A_D\) 为不同值(幻灯片第9页)。
- 引入DAG(幻灯片第10页):原始图中A→D, A→Y;分解图中 \(A_D \to D, A_Y \to Y\),且 \(A_D \leftrightarrow A_Y\) 由U连接。
- 进一步引入癌症进展指标L(recanting witness),L同时被A_D影响且影响D、Y(幻灯片第11页)。提出 \(A_Y\)-isolation 假设:\(A_Y\) 不对D、L产生因果效应,从而拓扑序将 \(A_Y\) 排在D、L之后——这是CSE可识别且SACE不可识别的关键(幻灯片第12页)。
[0:18–0:23] CSE定义与SACE的关系
- CSE定义:\(E[Y^{a_Y=1,a_D} - Y^{a_Y=0,a_D} | D^{a_D}=0]\)。
- 在单调性(\(D^{a=1}\le D^{a=0}\))且无L时,可证明SACE等于某个CSE(幻灯片第14页),但讲者强调他关心的CSE是另一方向(\(a_Y=1,a_D=0\) 对比 \(a_Y=0,a_D=0\)),因为要评估主动靶向治疗vs无治疗。
- 转录[0:22]处提问澄清“recanting witness”即L。
[0:23–0:27] 识别挑战与dismissible components
- 观测数据中 \(A_Y=A_D\),只有两条臂(A=0/1),无四种组合——极端正性偏离(Caleb Miles昨天讲)。
- 通过想象四臂实验,提出dismissible components条件(幻灯片第16页):\(Y \perp A_D | A_Y, D=0, L\);\(D \perp A_Y | A_D, D=0, L\);\(L \perp A_Y | A_D, D=0\)。这些条件在有未测量U时也会被打破。
- 识别公式(幻灯片第18页):\(E[Y^{a_Y,a_D}|D^{a_D}=0] = \frac{\sum_l E[Y|D=0,L=l,A=a_Y] f_{L,D|A}(l,0|a_D)}{\Pr(D=0|A=a_D)}\),类似介导G公式。
- 注意分母\(\Pr(D=0|A=a_D)\) 依赖于 \(a_D\),而分子内条件于 \(A=a_Y\)——这是交叉臂加权,需要依赖dismissible components。
[0:27–0:34] 未测量混淆与近端推断
- 原始随机实验无法保证D与Y之间的无混淆(U缺失)。
- 报告近端推断扩展(Park, Stensrud & Tchetgen Tchetgen, 2026 JRSS-B)的简要提及(幻灯片第20页),使用代理变量Z、W处理U。
[0:34–0:36] 出生体重悖论(Birth Weight Paradox)
- 经典悖论:在低出生体重婴儿中,母亲吸烟反而与更低婴儿死亡率相关(Yerushalmy 1971)。
- Hernandez-Diaz et al. (2006) 用简单的DAG解释为条件于低出生体重(collider)带来的选择偏倚(幻灯片第23-24页)。
- 但仍有疑问:悖论为何只出现在低出生体重区间?且“偏倚”相对于什么估量?
- 引述VanderWeele (2014) 可能目标是自然间接效应,但受限于未测量混淆(幻灯片第25-26页)。
[0:36–0:42] 多元生存模型下的新识别
- 回顾文献中细化的DAG:\(G\) 引入“吸烟诱导低出生体重” \(D_A\),与U独立(Hernandez-Diaz et al. 2006; VanderWeele et al. 2014)(幻灯片第27-28页)。
- 关键假设:
1. \(D_A=1 \Rightarrow D=1\)(确定性);
2. \(D^{a=0}_A=1 \Rightarrow D^{a=1}_A=1\)(单调性);
3. \(Y^{a=0} \perp D^{a=1} | D^{a=0}=0, U\)(跨世界条件独立性)。
- 在这些假设及DAG G下,SACE可识别为 \(E[Y|A=1,D=0] - E[Y|A=0,D=0]\)(幻灯片第30-31页)。
- 证明依赖乘法生存模型:\(\Pr(D^{a}=0|U=u) = \Pr(D=0|U=u, D_A=0) \cdot \Pr(D_A=0|A=a)\),即分解为 \(f(u)g(a)\)。
- 同样的识别函数也适用于CSE,无需单调性及跨世界假设(幻灯片第32页)。
- 重要的局限性:该结果仅适用于低出生体重组(D=1)?不,实际上识别的是条件于D=0的效应(正常体重组),因此解释了为何悖论只在低出生体重组出现——在正常体重组中,朴素对比恰好等于因果效应(无选择偏倚)(幻灯片第33页,转录[0:44–0:46]提问讨论)。
[0:42–0:48] IV重新编码
- 传统IV:A为随机分配,M为实际接收治疗,Y结局,U为混淆A与Y的共同原因(幻灯片第34页)。
- 重新编码D = I(M ≠ A)(非依从性),则图形变成A→D和A→Y×D结构(幻灯片第35页)。
- 进一步细化非依从性原因为副作用 \(D_A\)(如ACE抑制剂引发干咳导致停药),则DAG G与前面出生体重悖论完全相同(幻灯片第36页)。
- 此时,CSE成为“在依从组件固定情况下,改变活性成分A_Y的作用”,识别函数仍为 \(E[Y|A=1,D=0] - E[Y|A=0,D=0]\)。
- 与常规IV识别CACE不同:这里假设“无 always-takers”(因为always-takers无法被分配影响),而经典IV假设“无 defiers”。两种假设不可互换(幻灯片第41页转录)。
[0:48–结束] 总结与讨论
- 呼吁“case-by-case”论证估量选择,强调形式化有助于明确假设与政策含义。
- 问答环节补充:乘法模型等价于加性风险模型(additive hazard model);识别本质是半参数(semiparametric)的,依赖结构性假设而非仅从图可读;关于“控制直接效应”与可分离效应在不同场景下的可行性。
四、对应论文与开放问题¶
(a) 对应论文(依据幻灯片参考文献,完全可靠):
1. Stensrud MJ, Robins JM, Sarvet A, Tchetgen Tchetgen E, Young JG. (2023, JASA). Conditional separable effects. —— CSE基础。
2. Piccininni M, Stensrud MJ. (2026, forthcoming). Effects conditional on post-treatment events generated by independent mechanisms. —— 乘法生存模型下的新识别结果(报告第二部分)。
3. Park S, Stensrud MJ, Tchetgen Tchetgen EJ. (2026, JRSS-B, accepted). Proximal causal inference for conditional separable effects. —— 近端推断扩展。
4. Wanis KN, Stensrud MJ, Sarvet AL. (2025, Am. J. Epidemiol. 194(4):1122–1130). Separable effects for adherence. —— IV重编码应用。
5. Gonzalez Perez I, Wanis KN, Sarvet AL, Stensrud MJ. (2025, arXiv:2508.10702). Encoding and inference on separable effects for sustained treatments. —— 持续治疗的可分离效应。
(b) 开放问题(每条扎根于转写/幻灯片的特定位置):
1. 乘法生存模型假设的现实合理性(幻灯片第29页,转录[0:34])。该假设本质上是“D风险在给定U下可分解为独立于A的函数g(a)与U的函数f(u)的乘积”——这在什么实际场景下合理?讲者承认其取自sufficient cause模型的“or”结构,并指出“cannot read off from the graph”。对于统计学家,如何检验或放宽该假设?
2. 无L假设与recanting witness场景的泛化(幻灯片第11页,转录[0:18–0:22])。当存在一个受处理影响的中间变量同时影响D和Y时,SACE不可识别,但CSE可识别。然而,CSE的识别仍依赖于A_Y -isolation(A_Y不影响D、L)。如果A_Y确实通过L间接影响D(例如副作用导致死亡延迟),则CSE识别失效。有无更弱的条件?
3. IV重新编码中的 “always-takers” 假设 vs “defiers” 假设(转录[0:41])。在传统IV中,识别CACE通常假设“无defiers”;在可分离效应框架下,隐含假设“无always-takers”。这两种假设在实证中如何权衡?能否在一个统一框架下同时处理?
4. CSE的政策可操作性(幻灯片第8页,转录[0:11])。CSE的动机是指导药物研发:在数据中估计 “去掉毒性组分” 的效果。但分解A成为A_Y与A_D在实际中往往不存在物理对应,估算结果能否真正预测未来新型药物的效果?是否需要额外的“干预等价性”假设?讲者提及“可在未来实验中验证”,但验证成本与识别条件之间的关系未展开。
5. 出生体重悖论中乘法模型与经验数据的兼容性(幻灯片第30-33页,转录[0:44–0:46])。识别结果说明在正常体重组(D=0)中朴素对比等于SACE/CSE,但悖论仅出现在低出生体重组(D=1)。那么乘法模型能否同样解释悖论出现的事实?是否可能通过非参数方法(如shape约束)检验这一预测?
Maintained by 陈星宇 · Homepage · Source on GitHub