Causal effects conditional on post-treatment variables¶

讲者: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-03-03
主题: 因果推断
视频: https://youtu.be/r9Y38RiZ51Y?si=2RcCvO4-VoNLVIZ2 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这条工作线位于因果推断中“处理后变量条件化效应”的子方向。核心追问是：当感兴趣的结局变量（如生活质量）仅在存活者中有定义，而处理同时影响存活概率时，如何定义与识别“处理对结局的因果效应”？这里的“存活”是一个典型的处理后变量（post-treatment variable）——既受处理影响，又截断结局的可观测性。

该子方向的奠基与主流路线包括： - 复合结局（composite outcome）：将死亡赋值为0，Y与存活合并为单一变量Q= I(D=0)·Y，直接估计E[Q|A=1]–E[Q|A=0]（例如，Murray et al., 2004）。缺点：解释性差，无法区分对存活与对生活质量的影响。 - 控制直接效应（Controlled Direct Effect, CDE）：同时干预处理A与存活状态D，如E[Y^{a=1,d=0}]–E[Y^{a=0,d=0}]（Robins & Greenland, 1992）。问题：“不让死亡”通常不可行，且与一致性常冲突。 - 幸存者平均因果效应（Survivor Average Causal Effect, SACE）：对比仅在两种处理下都存活者的潜在结局差异，E[Y^{a=1}–Y^{a=0} | D^{a=1}=0, D^{a=0}=0]（Robins, 1986 附录; Rubin & Frangakis, 2002 Biometrics）。该估量是跨世界的（cross-world），需要强假设（如单调性）才能识别；且该子群体在实际中无法标定。

当前frontier：报告站在 可分离效应（Separable Effects） 这一分支上。核心想法来自Robins & Richardson（2010, 回应Pearl的讨论）：将实际处理A的概念分解为两个独立的因果组分——一个影响死亡（A_D），一个影响结局（A_Y），二者在观测数据中绑定（A=A_D=A_Y），但允许在思想实验中分别干预。这一路线近年由Stensrud et al.（2023, JASA）系统发展为条件可分离效应（Conditional Separable Effects, CSE），解决了在存在处理诱导的中间变量L（“recanting witness”）时SACE不可识别的问题。此后，Park, Stensrud & Tchetgen Tchetgen（2026, JRSS-B, 已接受）将其拓展至近端推断（Proximal Inference）以处理未测量混淆。当前报告的最新部分（Piccininni & Stensrud, 2026, forthcoming）进一步展示了在乘法生存模型（multiplicative survival model）下，SACE和CSE均可被最简单的可观测对比E[Y|A=1,D=0]–E[Y|A=0,D=0]识别——这一结果直接联系并解释了应用文献中著名的“出生体重悖论”（birth weight paradox, Yerushalmy 1971; Hernandez-Diaz et al. 2006）。同时，通过重新编码工具变量（IV）框架中的非依从性（non-adherence）为D，该框架也可用于IV场景，得到不同于传统IV（依从者平均因果效应CACE）的识别函数与假设。

可信引用（依据幻灯片中参考文献）： - Stensrud et al. (2023, JASA) —— 条件可分离效应的基础论文。 - Robins & Richardson (2010) —— 分解思路的源头（“seminal decomposition idea”）。 - Park, Stensrud & Tchetgen Tchetgen (2026, JRSS-B, accepted) —— 近端推断扩展。 - Piccininni & Stensrud (2026, forthcoming) —— 乘法生存模型下的新识别结果。 - Wanis et al. (2025, Am. J. Epidemiol.) 与 Gonzalez-Perez et al. (2025, arXiv) —— 可分离效应在依从性中的应用。

二、最小内核 / 一个最简例子¶

记号与观测数据
- 处理变量 \(A\in\{0,1\}\)（如化疗DE vs 标准治疗MP），随机分配。
- 死亡指示 \(D\in\{0,1\}\)（1=死亡）。
- 生活质量 \(Y\in\mathbb{R}\)；若 \(D=1\)，Y未定义。
- 基线协变量 \(C\)（隐含条件化）。
- 潜在结局：\(Y^a\)（若A=a时的Y），\(D^a\)（若A=a时的D）。

核心困境：观测对比 \(E[Y|A=1,D=0]\) vs \(E[Y|A=0,D=0]\) 不是因果，因为两组存活者基线不同（治疗影响死亡率），且D是处理后变量，条件化引入了选择偏倚（collider bias）。

可分离效应（CSE）的核心思想：假设治疗A可以概念性拆分为两个独立组件——A_D（主要影响D）和A_Y（主要影响Y），且A_Y不对D产生因果影响（A_Y -isolation，幻灯片第11页）。则在四臂随机实验中（分别独立随机A_D与A_Y），可定义条件可分离效应：

\[\text{CSE}(a_D) = E\big[ Y^{a_Y=1, a_D} - Y^{a_Y=0, a_D} \;\big|\; D^{a_D}=0 \big], \quad a_D\in\{0,1\}\]

这衡量的是“保持死亡机制（固定A_D）不变，仅改变影响生活质量的组件A_Y时，对那些在固定A_D下存活者的生活质量效应”。

最简例子（无混淆、无L，幻灯片第10-12页）
- 假设A随机分配，且满足“dismissible components”条件（幻灯片第16页）。
- 识别公式（幻灯片第18页）在无中间变量L时退化为：

\[E[Y^{a_Y, a_D} | D^{a_D}=0] = \frac{\sum_{l} E[Y|D=0, L=l, A=a_Y] \; f_{L,D|A}(l,0|a_D)}{\Pr(D=0|A=a_D)}\]

当L不存在（或L被条件化为常数）时，分子简化为 \(E[Y|D=0, A=a_Y] \cdot \Pr(D=0|A=a_D)\)，分母为 \(\Pr(D=0|A=a_D)\)，因此

\[E[Y^{a_Y, a_D} | D^{a_D}=0] = E[Y|D=0, A=a_Y].\]

取 \(a_D=0\)（即控制组死亡机制），则CSE(0) = \(E[Y|A=1, D=0] - E[Y|A=0, D=0]\)。

这就是“对存活条件化的简单均值差”在可分离效应框架下的因果解释——它回答的是：“如果开发出一种新药，保留了原药对肿瘤进展/生存的影响（即A_D保持不变），但去除了脱靶毒性（A_Y），那么对那些原本在标准治疗下可以存活的患者，新药将如何改变他们的生活质量？” 这个估量是单世界的（single-world），可以在未来实验中检验（幻灯片第12-13页）。

三、报告主体：讲者讲了什么¶

[0:00–0:03] 开场与动机
- 介绍主题：处理“处理后变量条件化”的因果效应，关注实践中的具体问题（生活质量、COVID感染后严重程度、教育/经济项目的流失率）。
- 以NEJM 2004/JCO 2006的化疗DE vs MP为例：DE提高生存率但需评估生活质量，作者只报告了存活者的生活质量对比（幻灯片第1-4页）。

[0:03–0:06] 符号与候选估量
- 定义A, D, Y, 潜在结果 \(Y^a, D^a\)。
- 列出四种常见做法： 1. 朴素对比 \(E[Y|D=0,A=1]\) vs \(E[Y|D=0,A=0]\)——“苹果vs香蕉”。 2. 复合结局 \(Q = I(D=0)Y\)，边际效应易识别但改变目标（幻灯片第5页）。 3. 控制直接效应 \(E[Y^{a=1,d=0} - Y^{a=0,d=0}]\)——干预死亡不可行。 4. SACE \(E[Y^{a=1}-Y^{a=0}|D^{a=1}=0,D^{a=0}=0]\)——跨世界，不可识别需强假设。

[0:06–0:09] SACE的历史
- Robins 1986附录中已提及，但Robins因“非传递性”而放弃（幻灯片第6页）。Rubin & Frangakis 2002重新提出（转录[0:08:11]处提及）。

[0:09–0:13] 实质性动机：治疗改进
- 化疗的“off-target effects”降低生活质量；投资开发靶向药物需量化“若去除毒性，可带来多少生活质量改善”。
- 通过一个药企与监管部门的对话故事，引出可分离效应（CSE）——用于形式化“新治疗版本”的效果评估（幻灯片第7-8页）。

[0:13–0:18] 治疗分解假设
- 正式假设A可分解为两个组件 \(A_Y, A_D\)，且在观测数据中 \(A=A_Y=A_D\)。
- 关键：在思想实验中，可分别设置 \(A_Y, A_D\) 为不同值（幻灯片第9页）。
- 引入DAG（幻灯片第10页）：原始图中A→D, A→Y；分解图中 \(A_D \to D, A_Y \to Y\)，且 \(A_D \leftrightarrow A_Y\) 由U连接。
- 进一步引入癌症进展指标L（recanting witness），L同时被A_D影响且影响D、Y（幻灯片第11页）。提出 \(A_Y\)-isolation 假设：\(A_Y\) 不对D、L产生因果效应，从而拓扑序将 \(A_Y\) 排在D、L之后——这是CSE可识别且SACE不可识别的关键（幻灯片第12页）。

[0:18–0:23] CSE定义与SACE的关系
- CSE定义：\(E[Y^{a_Y=1,a_D} - Y^{a_Y=0,a_D} | D^{a_D}=0]\)。
- 在单调性（\(D^{a=1}\le D^{a=0}\)）且无L时，可证明SACE等于某个CSE（幻灯片第14页），但讲者强调他关心的CSE是另一方向（\(a_Y=1,a_D=0\) 对比 \(a_Y=0,a_D=0\)），因为要评估主动靶向治疗vs无治疗。
- 转录[0:22]处提问澄清“recanting witness”即L。

[0:23–0:27] 识别挑战与dismissible components
- 观测数据中 \(A_Y=A_D\)，只有两条臂（A=0/1），无四种组合——极端正性偏离（Caleb Miles昨天讲）。
- 通过想象四臂实验，提出dismissible components条件（幻灯片第16页）：\(Y \perp A_D | A_Y, D=0, L\)；\(D \perp A_Y | A_D, D=0, L\)；\(L \perp A_Y | A_D, D=0\)。这些条件在有未测量U时也会被打破。
- 识别公式（幻灯片第18页）：\(E[Y^{a_Y,a_D}|D^{a_D}=0] = \frac{\sum_l E[Y|D=0,L=l,A=a_Y] f_{L,D|A}(l,0|a_D)}{\Pr(D=0|A=a_D)}\)，类似介导G公式。
- 注意分母\(\Pr(D=0|A=a_D)\) 依赖于 \(a_D\)，而分子内条件于 \(A=a_Y\)——这是交叉臂加权，需要依赖dismissible components。

[0:27–0:34] 未测量混淆与近端推断
- 原始随机实验无法保证D与Y之间的无混淆（U缺失）。
- 报告近端推断扩展（Park, Stensrud & Tchetgen Tchetgen, 2026 JRSS-B）的简要提及（幻灯片第20页），使用代理变量Z、W处理U。

[0:34–0:36] 出生体重悖论（Birth Weight Paradox）
- 经典悖论：在低出生体重婴儿中，母亲吸烟反而与更低婴儿死亡率相关（Yerushalmy 1971）。
- Hernandez-Diaz et al. (2006) 用简单的DAG解释为条件于低出生体重（collider）带来的选择偏倚（幻灯片第23-24页）。
- 但仍有疑问：悖论为何只出现在低出生体重区间？且“偏倚”相对于什么估量？
- 引述VanderWeele (2014) 可能目标是自然间接效应，但受限于未测量混淆（幻灯片第25-26页）。

[0:36–0:42] 多元生存模型下的新识别
- 回顾文献中细化的DAG：\(G\) 引入“吸烟诱导低出生体重” \(D_A\)，与U独立（Hernandez-Diaz et al. 2006; VanderWeele et al. 2014）（幻灯片第27-28页）。
- 关键假设：
1. \(D_A=1 \Rightarrow D=1\)（确定性）；
2. \(D^{a=0}_A=1 \Rightarrow D^{a=1}_A=1\)（单调性）；
3. \(Y^{a=0} \perp D^{a=1} | D^{a=0}=0, U\)（跨世界条件独立性）。
- 在这些假设及DAG G下，SACE可识别为 \(E[Y|A=1,D=0] - E[Y|A=0,D=0]\)（幻灯片第30-31页）。
- 证明依赖乘法生存模型：\(\Pr(D^{a}=0|U=u) = \Pr(D=0|U=u, D_A=0) \cdot \Pr(D_A=0|A=a)\)，即分解为 \(f(u)g(a)\)。
- 同样的识别函数也适用于CSE，无需单调性及跨世界假设（幻灯片第32页）。
- 重要的局限性：该结果仅适用于低出生体重组（D=1）？不，实际上识别的是条件于D=0的效应（正常体重组），因此解释了为何悖论只在低出生体重组出现——在正常体重组中，朴素对比恰好等于因果效应（无选择偏倚）（幻灯片第33页，转录[0:44–0:46]提问讨论）。

[0:42–0:48] IV重新编码
- 传统IV：A为随机分配，M为实际接收治疗，Y结局，U为混淆A与Y的共同原因（幻灯片第34页）。
- 重新编码D = I(M ≠ A)（非依从性），则图形变成A→D和A→Y×D结构（幻灯片第35页）。
- 进一步细化非依从性原因为副作用 \(D_A\)（如ACE抑制剂引发干咳导致停药），则DAG G与前面出生体重悖论完全相同（幻灯片第36页）。
- 此时，CSE成为“在依从组件固定情况下，改变活性成分A_Y的作用”，识别函数仍为 \(E[Y|A=1,D=0] - E[Y|A=0,D=0]\)。
- 与常规IV识别CACE不同：这里假设“无 always-takers”（因为always-takers无法被分配影响），而经典IV假设“无 defiers”。两种假设不可互换（幻灯片第41页转录）。

[0:48–结束] 总结与讨论
- 呼吁“case-by-case”论证估量选择，强调形式化有助于明确假设与政策含义。
- 问答环节补充：乘法模型等价于加性风险模型（additive hazard model）；识别本质是半参数（semiparametric）的，依赖结构性假设而非仅从图可读；关于“控制直接效应”与可分离效应在不同场景下的可行性。

四、对应论文与开放问题¶

(a) 对应论文（依据幻灯片参考文献，完全可靠）：
1. Stensrud MJ, Robins JM, Sarvet A, Tchetgen Tchetgen E, Young JG. (2023, JASA). Conditional separable effects. —— CSE基础。
2. Piccininni M, Stensrud MJ. (2026, forthcoming). Effects conditional on post-treatment events generated by independent mechanisms. —— 乘法生存模型下的新识别结果（报告第二部分）。
3. Park S, Stensrud MJ, Tchetgen Tchetgen EJ. (2026, JRSS-B, accepted). Proximal causal inference for conditional separable effects. —— 近端推断扩展。
4. Wanis KN, Stensrud MJ, Sarvet AL. (2025, Am. J. Epidemiol. 194(4):1122–1130). Separable effects for adherence. —— IV重编码应用。
5. Gonzalez Perez I, Wanis KN, Sarvet AL, Stensrud MJ. (2025, arXiv:2508.10702). Encoding and inference on separable effects for sustained treatments. —— 持续治疗的可分离效应。

(b) 开放问题（每条扎根于转写/幻灯片的特定位置）：
1. 乘法生存模型假设的现实合理性（幻灯片第29页，转录[0:34]）。该假设本质上是“D风险在给定U下可分解为独立于A的函数g(a)与U的函数f(u)的乘积”——这在什么实际场景下合理？讲者承认其取自sufficient cause模型的“or”结构，并指出“cannot read off from the graph”。对于统计学家，如何检验或放宽该假设？
2. 无L假设与recanting witness场景的泛化（幻灯片第11页，转录[0:18–0:22]）。当存在一个受处理影响的中间变量同时影响D和Y时，SACE不可识别，但CSE可识别。然而，CSE的识别仍依赖于A_Y -isolation（A_Y不影响D、L）。如果A_Y确实通过L间接影响D（例如副作用导致死亡延迟），则CSE识别失效。有无更弱的条件？
3. IV重新编码中的 “always-takers” 假设 vs “defiers” 假设（转录[0:41]）。在传统IV中，识别CACE通常假设“无defiers”；在可分离效应框架下，隐含假设“无always-takers”。这两种假设在实证中如何权衡？能否在一个统一框架下同时处理？
4. CSE的政策可操作性（幻灯片第8页，转录[0:11]）。CSE的动机是指导药物研发：在数据中估计 “去掉毒性组分” 的效果。但分解A成为A_Y与A_D在实际中往往不存在物理对应，估算结果能否真正预测未来新型药物的效果？是否需要额外的“干预等价性”假设？讲者提及“可在未来实验中验证”，但验证成本与识别条件之间的关系未展开。
5. 出生体重悖论中乘法模型与经验数据的兼容性（幻灯片第30-33页，转录[0:44–0:46]）。识别结果说明在正常体重组（D=0）中朴素对比等于SACE/CSE，但悖论仅出现在低出生体重组（D=1）。那么乘法模型能否同样解释悖论出现的事实？是否可能通过非参数方法（如shape约束）检验这一预测？

Maintained by 陈星宇 · Homepage · Source on GitHub

Causal effects conditional on post-treatment variables¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论