Addressing an extreme positivity violation to distinguish the causal effects of surgery and anesthesia via separable effects¶
讲者: Caleb Miles
讨论人: James Robins and Thomas Richardson
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-11-18
主题: 因果推断
视频: https://youtu.be/L37UkHqzv6Y · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2504.01171 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
报告的核心工作线是如何利用可分离效应(separable effects)框架,在一个极端正定性(positivity)被违反的情境下,将两个观测上完全等同的暴露(手术和麻醉)的因果效应分离开。
1. 背景与核心追问: - 追问目标:区分“孕期接受麻醉和手术对儿童神经发育的联合效应”中,究竟是麻醉本身还是手术本身导致了风险增加(这是FDA关注的真实问题)。 - 经典困难:在观察性研究中,对于接受手术的孕妇,手术和麻醉是同时发生的(A=1表示手术,A_A表示麻醉,A_S表示手术);对于未接受手术的孕妇,两者均未发生。两者在观测上完全等同(A = A_A = A_S),这导致当试图通过常规后门调整(adjusting for surgery)来估计麻醉的单独效应时,面临极端正定性违反:Pr(A_A=1 | A_S=1) = 1, Pr(A_A=1 | A_S=0) = 0。没有方法可以基于观测数据“看到”仅接受麻醉但未接受手术的人群。
2. 奠基与主流路线: - 正定性违反的常规处理:外推(extrapolation)、截断/剪枝(trimming extreme propensity scores)、重叠权重(overlap weights)、增量倾向得分干预(Kennedy 2019)——这些方法都要求存在某个子总体,在其中正定性成立。本报告的极端的违法情况(所有子总体都不满足)使得这些方法全部失效。 - 可分离效应框架:这是Robins和Richardson(2010,Causality and Psychopathology)提出的,将处理(A)拆解为两个“组分组合”(component),通过对组分而非原处理的干预来定义可操作性因果参数。该框架已被用于处理溢出效应(Shpitser et al. 2017)、纵向中介分析等。关键假设要求存在一组中介变量M,完全中介了A_S到Y的路径,且不被A_A影响。 - 介入式自然直接/间接效应:VanderWeele(2011)等提出的估计方法(通过比例风险模型)被报告直接借用。
3. 当前Frontier与报告立场: - 大量工作聚焦于已经知道处理A可以拆成有意义的组分(如香烟的尼古丁成分 vs. 其他成分),然后以中介变量M作为“思考实验”的媒介(Robins & Richardson 2010的原始框架)。报告的核心反转在于:先有想要分开的两个暴露(麻醉和手术),然后逆向寻找一组中介变量M,这些M能完全“隔离”(block)手术的效应。这种“先从组分出发,再找M”的应用视角是报告的方法论贡献(讲者Thomas Richardson在讨论中也特别强调了这一点)。 - 相关前沿:Stensrud et al. (2021, 2022) 在生存分析中处理竞争风险和并发事件的可分离效应;van der Laan & Rose (2011, Targeted Learning) 虽有目标最大似然估计(TMLE),但此报告未深入;报告的方法论更靠近“如何在对识别假设做敏感性分析的同时,用于一个极端困难的观测数据”。
4. 报告站在的位置: - 报告是一个应用问题驱动的方法论展示。它将自己定位为“一个可以让对可分离效应不了解甚至怀疑的人接受它的应用案例”(讲者原话)。它没有提出全新的统计理论(无新的高效影响函数、无新的半参数效率界),而是在强假设(图形排除限制 + 无M-Y混杂)下,展示可分离效应框架如何打破看起来无解的识别僵局,并给出了实际的估计和敏感性分析。 - 报告的主要技术贡献在于:(a) 提出“反转视角”——先有组分再找M;(b) 针对麻醉和手术这一极端场景,开发了一个标量可解释的敏感性参数γ(基于Stensrud et al. 2021,但做成了可解释的比值形式);(c) 展示该方法可扩展到没那么极端的正定性违反(通过滥用条件密度,如幻灯片26-27所示)。该方法论贡献新颖度一般(属于很干净的应用),适合作为理解可分离效应实际应用和落地细节的入门材料。
二、最小内核 / 一个最简例子¶
1. 核心数据与符号定义:
- 可观测数据:一个独立同分布的样本。对于每个母亲i,观察到:
- A(0/1):是否决定接受阑尾切除/胆囊切除手术(包含手术和麻醉)。
- C(高维基线协变量,如孕产妇年龄、既往就医史等)。
- Y(时间到诊断):从手术时间/伪手术时间到被诊断为行为障碍(DIBD)所需的时间(存在删失,但核心不涉及)。
- M(一组中介变量,列于幻灯片19):包括围手术期并发症、是否需要再次手术、疼痛(阿片类药物处方超过7天+补药)、围手术期住院时间>7天、剖宫产、早产和低出生体重、血栓、与产前护理无关的急诊就诊。
- 潜在不可观测量:
- A_A(0/1):接受麻醉的指示变量(观测上恒等于A)。
- A_S(0/1):接受手术的指示变量(观测上恒等于A)。
- 反事实Y(a_S, a_A):将手术强制设为a_S、麻醉强制设为a_A时的Y值。我们感兴趣的因果目标是:
- 联合效应ψ_joint = Pr(Y(1,1)≤t) / Pr(Y(0,0)≤t)
- 麻醉效应ψ_anes. = Pr(Y(0,1)≤t) / Pr(Y(0,0)≤t)
- 手术效应ψ_surg. = Pr(Y(1,1)≤t) / Pr(Y(0,1)≤t)
- 关键因果模型(DAG):幻灯片17给出。图中A→A_A和A→A_S是确定性的(A_A=A_S=A)。核心假设:
1. A_S到Y没有直接路径,必须完全通过M(排除限制——手术对Y的影响只通过M)。
2. A_A对M无任何效应(隔离条件——麻醉不影响M)。
3. M和Y之间无未测量的混杂(已充分调整C)。
- 待估计参数:Ψ_{a*,a}(t) = Pr(Y(a_S=a*, a_A=a) ≤ t),其识别式为(依据DAG下的g-formula):
Ψ_{a*,a}(t) = Σ_{m,c} Pr(Y ≤ t | A=a, m, c) · f(m | A=a*, c) · f(c)
这正是经典的中介公式(mediation formula),但其中A同时扮演了两种角色(在结局模型中用a,在M的模型中用a)。
- a* vs a的含义:a*是“我们强制为手术的值”,a是“我们强制为麻醉的值”。当我们想估计“只有麻醉、没有手术”的效果(即Ψ_{0,1})时,这个公式意味着:我们在观测到的手术状态为“已手术”(A=1)的个体中,去观察他们的M和Y,但在结局模型里用A=a=1(即手术状态,对应于麻醉状态),在M的模型里用A=a*=0(即无手术状态)。由于正定性,我们不能在个体层面同时观测到这两种状态(没有人有A=1的M和A=0的手术),但g-formula通过边缘化M*跨越了这一点:我们可以用A=1个体的结局模型(代表有麻醉的情况),但只将M的边缘分布“借用”成了A=a*的(因此M体现了没有手术时的效应模式)。
2. 最简例子(d=1,单个中介,单个基线协变量):
- 假设M是二值的“早产/否”。
- 我们想要估计Ψ_{0,1}(麻醉、无手术)。
- 识别公式变为:
Ψ_{0,1}(t) = Σ_{m∈{0,1}} Σ_c Pr( Y ≤ t | A=1, m, c) · Pr( M=m | A=0, c) · Pr(c)
- 关键步骤:我们观测到的是(A=1, m,即手术且早产)与Pr(Y≤t|A=1,m,c)的联合分布;但我们需要的Pr(M=m|A=0,c)却是从未手术的人群中看M的概率分布。由于M(如早产)在未手术人群中几乎不可能发生(Pr(M=1|A=0)=0),报告特别指出(幻灯片29),这个概率为0导致Ψ_{0,1}无法被识别!这解释了为什么报告只能估计“麻醉效应(无手术)”而绝对不能估计“手术效应(无麻醉)”——因为后者的M(手术特有的并发症)在未手术人群中发生概率为0。
- 核心洞见:虽然我们从未观察到“无手术但发生了手术特有并发症”的人(这在物理世界不可能),但g-formula在数学上要求我们去估计这个条件概率。如果这个概率为0,因果参数就退化到无法计算。这解释了报告为何选择Ψ_{01}作为麻醉效应(无手术)的有效识别,而避免估计Ψ_{10}。
三、报告主体:讲者讲了什么¶
- [0:00:00 – 0:01:38]:开场与背景问题
- 讲者Caleb Miles介绍合作者(Amy Pitts, Caleb Ing, Ling Guo)。
- [0:01:38 – 0:04:00]:讲述FDA在2016年对孕期和儿童早期麻醉药的警示(神经毒性可能性;动物实验强,人类研究混合)。介绍Ing et al. (2024)的匹配研究结果:产前暴露于麻醉与手术的儿童,发展DIBD(ADHD、抑郁等)的风险显著升高。
- [0:05:27 – 0:08:00]:核心困难:无法区分手术 vs. 麻醉
- 指出暴露同时含手术和麻醉,观测上完全等同,当试图调整手术时导致极端正定性违反。明确描述正定性公式(幻灯片6),并强调不存在任何子总体满足的条件。
- [0:08:00 – 0:11:04]:常见方法的失效
- 列举常规正定性补救方法(外推、剪枝、重叠权重等),并指出它们均不适用。讲者说:“在因果推断中,难问题通常需要强假设”(caveat)。
- 引出“C匹配”(后暴露变量的匹配,如早产和术后并发症)作为该团队在Ing et al. (2024)中的早期尝试,并指出其直觉是为了“阻断手术的效应”。
- [0:11:04 – 0:14:00]:引入可分离效应框架
- 定义可分离效应(或“分治处理”),以Pearl的香烟-尼古丁例子介绍。关键在于Robins & Richardson (2010)的扩展DAG(N→…,O→…),可以识别
E[Y(a=1, M(a=0))]。 - 强调即使
(O=1, N=0)从未在任一观测个体中出现,g-formula仍可识别。列出该框架后续的应用(生存分析、非依从性等)。
- 定义可分离效应(或“分治处理”),以Pearl的香烟-尼古丁例子介绍。关键在于Robins & Richardson (2010)的扩展DAG(N→…,O→…),可以识别
- [0:14:00 – 0:15:00]:问题符号化
- 定义
A(手术决定)、A_A(麻醉)、A_S(手术),且A = A_A = A_S。 - 定义Y(DIBD诊断时间),C(基线协变量)。
- 定义
- [0:15:00 – 0:20:54]:定义因果 estimands 与选择方向
- 定义联合效应、麻醉效应、手术效应。
- 讨论医学政策含义:联合效应(推迟手术的决策)、麻醉效应(优化麻醉方案)。
- 明确选择估计麻醉在无手术情况下的效果(而非在有手术情况下),理由是在有手术时麻醉还有镇痛有益效应,难以隔离。
- 此时讲者暂停并接受问题。
- [0:21:27 – 0:24:00]:可分离效应DAG与识别公式
- 展示幻灯片17的DAG(A→A_A, A→A_S, A_S→M→Y, A_A→Y)。核心假设:M完全中介手术效应,且不受麻醉影响。
- 讲者强调“反转视角”:通常可分离效应先有A,再设想组分;这里先有组分(麻醉和手术),再找M。M的角色纯粹是辅助识别。
- [0:24:00 – 0:26:37]:候选M变量与识别挑战
- 列出候选M(幻灯片19)。明确提到未测量的潜在中介,如炎症和醋氨酚使用。
- 给出
Ψ_{a*,a}(t)的中介公式表达式。指出由于某些M(如早产)在未手术人群中从不发生,Pr(M=m|A=0,c)=0,因此无法识别Ψ_{10}(即手术效应、无麻醉)。
- [0:26:37 – 0:28:33]:敏感性分析
- 介绍对一个排除限制(手术对Y的直接效应)的敏感性分析,采用Stensrud et al. (2021)的“部分隔离”策略,但简化成一个标量参数γ(幻灯片22-23):当手术→Y的直接路径违反隔离条件时,估计
Ψ_{01}(t)/Ψ_{00}(t)会识别一个控制直接效应,而非纯麻醉效应。
- 介绍对一个排除限制(手术对Y的直接效应)的敏感性分析,采用Stensrud et al. (2021)的“部分隔离”策略,但简化成一个标量参数γ(幻灯片22-23):当手术→Y的直接路径违反隔离条件时,估计
- [0:28:33 – 0:31:42]:直觉:后门调整连接
- 提供了一个直观的推导:在DAG下,
E[Y(a_A=1)]可以通过M做后门调整。然后利用一个分解公式(含Pr(AS=0)等)导出需要识别的混合干预(E[Y(a_A=1, a_S=0)])。这种推导“揭示了后门调整为何可行,即使正定性被违反”。 - 进一步扩展到更一般的、不那么极端的正定性违反(幻灯片26-27:通过加入决定性的C0变量)。
- 提供了一个直观的推导:在DAG下,
- [0:31:42 – 0:34:36]:估计方法
- 介绍VanderWeele (2011)的比例风险中介估计方法:拟合一个PH模型用于结局,用Nelson-Aalen估计基线累积风险,并通过对M边缘化(用估计的M模型)。
- 指出M建模需要小心:许多M只在手术暴露组发生,因此在未暴露组中概率应设为0(识别限制)。
- [0:34:36 – 0:41:41]:数据分析和结果
- 数据来自Medicaid Analytic eXtract (MAX) 1999–2013:31,494名暴露儿童 vs 14,307,152名未暴露儿童。
- 展示生存曲线(幻灯片31):蓝色(二者都有)、绿色(无手术&有麻醉)、粉色(二者都无),结果提示麻醉效应占主导。
- 点估计(10岁时):
ψ_joint=1.157 (1.124,1.192),ψ_anes.=1.133 (1.098,1.162),ψ_surg.=1.021 (1.005,1.039)。虽手术效应也显著,但麻醉效应明显更大。
- [0:41:41 – 0:44:48]:敏感性分析结果
- 展示敏感性图(幻灯片33):横轴为γ(手术直接效应的倍数),纵轴为调整后的麻醉效应估计。当γ≈1.13时,麻醉效应不再显著。讲者认为结果为“中等敏感”,但所需直接效应必须大于通过M的累积效应。
- [0:44:48 – 0:47:00]:局限性与未来方向
- 讨论主要局限:强假设、大量删失(可能为信息删失)、比例风险假定、混淆指征(indication)——即未能控制的潜在炎症(I,如阑尾炎/胆囊炎本身)。事实上
I几乎完全预测了A,又导致另一个极端的正定性问题。 - 解决方案(未来方向):利用抗生素替代手术的新趋势(I锁定了阑尾炎,A是手术/抗生素的选择)。若新数据可区分I和A,则基础联合效应可识别;再结合M,可进一步分离麻醉效应。
- 讨论主要局限:强假设、大量删失(可能为信息删失)、比例风险假定、混淆指征(indication)——即未能控制的潜在炎症(I,如阑尾炎/胆囊炎本身)。事实上
- [0:47:32 – 0:48:37]:总结与讨论
- 强调该方法对“包装式干预”(bundle intervention)问题的可推广性。
讨论环节(Richardson & Robins): - [0:49:00 – 1:01:00]:Thomas Richardson的讨论 - 用三数据集思想重建可分离效应:数据集1(原始数据: X, M, Y);数据集2(假想的四臂实验:N×O);数据集3(只在N=O的臂上观测到的数据)。识别问题等价于:仅从数据集1(只有N=O的两个臂)能否重建数据集2的另外两个臂(N≠O)。所需假设正是DAG中缺失的边(形如(Y ⊥ N | M) 和 (M ⊥ O)),这些是在四个臂的假想世界里的条件独立性,而非原始数据可检验的。 - 强调Caleb的关键直觉(后门调整 + 分解)依赖了这些独立性,且这些独立性成立的前提是在假想四臂实验中才成立。 - 讨论了M-Y混杂和共中间变量L(post-treatment confounder)。Robins举了恶性高热(malignant hyperthermia)的例子:麻醉本身会引起L(恶性高热),L又会影响M和Y,这对应数据集B,其识别公式不同于标准g-formula。 - [1:01:00 – 1:07:04]:Jamie Robins的补充 - 强调数据集B在可分离效应中对应一个更复杂的识别场景,幻灯片A(M+L合并)和幻灯片B(L由麻醉引起)代表两种可能的世界。若两种分量的都影响L,识别失败。 - [1:07:04 – 1:11:24]:Miles的总结回应 & 组织结束 - Miles承认L的引入很重要,并将自己的M视作包含L后的汇总变量。对敏感性分析涉及M-Y混杂,认为可以使用现有中介敏感性分析方法推广。 - 指出他们的研究无需纵向测量中介(M时间上发生在结局之前)。
四、对应论文与开放问题¶
(a)对应论文: - 这场报告的核心工作,对应一篇arXiv预印本:2504.01171,标题为 Addressing an extreme positivity violation to distinguish the causal effects of surgery and anesthesia via separable effects。作者为Amy J. Pitts, Ling Guo, Caleb Ing, Caleb H. Miles。 - 报告还引用了两个自身的关键应用研究:Ing et al. (2024, British Journal of Anaesthesia),题为 Behavioural disorders after prenatal exposure to anaesthesia for maternal surgery,其中采用了“C匹配”(被报告认为是不正式的可分离效应版本)。 - 技术框架归功于:Robins & Richardson (2010),Causality and Psychopathology中的章节;敏感性分析部分改编自Stensrud et al. (2021)。估计方法参考VanderWeele (2011)的PH中介模型。
(b)开放问题(每条扎根于转写): 1. 如何系统处理后处理混杂变量L(即受暴露影响的额外中介)的识别? - 来源:Robins和Richardson的讨论(约 [1:01:00 – 1:07:04]),特别是Robins以恶性高热的例子。报告仅将其归类为“更多场景M”;但Robins指出,如果L由麻醉引起(而非仅是手术引起),标准g-formula会失效,需要一个更复杂的识别公式。报告未提出系统性处理此类L的敏感性分析或估计方法。
-
如何将对M-Y混杂的敏感性分析纳入框架(而非仅对排除限制做敏感性分析)?
- 来源:Richardson和Robins的讨论(约 [1:04:00 – 1:06:00]),Robins指出在四臂假想实验里,M-Y混杂会导致(Y ⊥ N | M)条件独立失效。Miles回应(约 [1:07:04 – 1:08:00])时承认,当前敏感性分析只针对排除限制(手术对Y的直接效应),而未开发对M-Y混杂的敏感性参数。
-
当M在某些人群中为0(如手术特有并发症在未手术人群中不发生)时,能否通过其他识别策略(如外推或先验信息)来估计Ψ_10?
- 来源:幻灯片29及转写 [0:34:36 – 0:35:43]。报告明确指出
Ψ_10因Pr(M_k=1|A=0)=0而无法识别。这是知识上的一个空白:如何(若有办法)在这种结构零下仍可估计“手术而无麻醉”的效应?这可能依赖于对M概率不为零的子总体的某种外推假设,但报告没提。
- 来源:幻灯片29及转写 [0:34:36 – 0:35:43]。报告明确指出
-
如何将类似思路扩展到非极端但程度更轻的正定性违反(除了幻灯片26-27的简单构想外,给出具体的识别/估计算法)?
- 来源:幻灯片26-27及转写 [0:31:42 – 0:32:50]。讲者口头表述“由于这种方法对最极端违反有效,所以也对不太极端的违反有效”,但并未给出一般化的估计程序或效率结果。这个问题可以转化为:对于部分违反(如Pr(A=1|C)在[0.05, 1]),如何采用M来权重(似想法)而非直接后门调整?
-
能否开发一个完整的半参数有效估计器(如目标最大似然估计/聚合双稳健估计)用于此类“极端正定性违反 + 中介公式”场景?
- 来源:报告用了简单的PH模型和中介公式的点估计(VanderWeele 2011)。没有讨论效率理论或双稳健性。对于动力学治疗的DEC,现代因果推断(如DML、TMLE)可以给出更好的性能和有效性。这可以是扎实的方法论拓展。
Maintained by 陈星宇 · Homepage · Source on GitHub