Recanting twins: addressing intermediate confounding in mediation analysis¶
讲者: Iván Díaz
讨论人: Daniel Malinsky
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-02-20
主题: 因果推断
视频: https://youtu.be/9hAUwC6Ecnw · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告位于 「中介分析(mediation analysis)」 这个子方向的核心争论点上:当存在中间混杂(intermediate confounding)时,如何定义、识别并分解因果效应沿不同路径(路径特异性效应, path-specific effects)的作用。
方向背景:中介分析的标准目标是分解处理 A 对 Y 的总效应(ATE)为间接效应(通过 M)与直接效应(其他所有路径)。奠基性工作(Pearl, 2001; Robins & Greenland, 1992)提出了自然直接/间接效应(natural direct/indirect effects, NDE/NIE),但其识别需要极强的交叉世界(cross-world)独立性假设,且它们在有变量 Z 同时影响 M 和 Y、且 Z 本身受 A 影响时不可识别——这个问题被称为“recanting witness”(Avin, Shpitser & Pearl, 2005)。一个流行的替代方案是随机干预直接/间接效应(interventional direct/indirect effects)(VanderWeele, 2009 等),它在更弱假设下可识别,但(1)它分解的不是 ATE 而是另一个总效应,(2)Miles (2023, JRSS-B) 指出它不满足“中介尖锐零准则”(mediational sharp null criterion),即当个体层面完全无中介时,该效应仍可非零。
这场报告的站位:讲者 Díaz 试图提出一种新的路径特异性效应分解,能同时满足以下三个要求:
1. 分解的是 ATE 本身(而非某个替代总效应);
2. 满足路径特异性尖锐零准则(path-specific sharp null criterion);
3. 在有中间混杂 Z 时仍然可识别(解决 recanting witness 问题)。
二、最小内核 / 一个最简例子¶
符号与模型:标准中介情境(DAG 如幻灯片 p.3):
W → A → Z → M → Y
↓ ↗
- 可观测:
W(基前协变量),A(二值处理),Z(中间混杂变量),M(中介变量),Y(结局)。 - SCM(M₁):
W = f_W(U_W),A = f_A(W, U_A),Z = f_Z(W, A, U_Z),M = f_M(W, A, Z, U_M),Y = f_Y(W, A, Z, M, U_Y)。这里U_·是外生误差。
关键估 then / 参数:
- ATE ψ = E[Y(1) - Y(0)],其中 Y(a) 是 A=a 时的反事实结局。
- 想要分解 ψ 为四条路径的贡献:
- P₁: A → Y(直接)
- P₂: A → Z → Y(通过 Z 到 Y)
- P₃: A → Z → M → Y(通过 Z 和 M)
- P₄: A → M → Y(通过 M,不经过 Z)
最简特例(二值 Z,二值 M,一个时间点):
- 自然路径特异性效应的构造思路:定义一组嵌套的反事实(p.10),例如
- Y_{S0} = Y(1, Z(1), M(1, Z(1)))
- Y_{S1} = Y(0, Z(1), M(1, Z(1)))(将 A→Y 路径的输入改为 0)
- Y_{S2} = Y(0, Z(0), M(1, Z(1)))(再将 A→Z→Y 路径的输入改为 0,但 A→Z→M→Y 路径仍用 Z(1))
- 依此类推直到 Y_{S4}。
- 问题:Y_{S2} 中 Z(1) 同时出现于 A→Z→Y 路径(需置为 Z(0))和 A→Z→M→Y 路径(需保留为 Z(1))。这种“一个变量要同时说两种不同故事”的状态就是 recanting witness,导致 Y_{S2} 的分布不可识别。
Díaz 的解决方案(recanting twins):
- 定义“recanting twin” T(a) 为从条件分布 Z(a) | W 中做一次随机抽样的变量(即 Z(a) 的随机副本)。
- 在对比 Y_{S1} 与 Y_{S2}(用于定义 P₂ 效应)时,在两个反事实中将 recanting witness Z(1) 用其 twin T(1) 替换。类似地,在 P₃ 的对比中用 T(0) 替换 Z(0)。
- 结果:因为 T(a) 是随机变量,Z(a) 与 T(a) 的结合效应被解耦,新的对比变得可识别。
最终分解(p.13):
ψ = ψ_{P1} + ψ_{P2} + ψ_{P3} + ψ_{P4} + ψ_{P2_P3}
ψ_{P2_P3} 度量中间混杂的程度(当无中间混杂时此项为零,且所有 ψ 退化为自然路径效应)。
三、报告主体:讲者讲了什么¶
[0:00-0:05] 导入 - 报告基于与 Tat-Thang Vo, Nicholas Williams, Richard Liu, Kara E. Rudolph 的合作。大部分内容概念性,估计/数值/应用见论文。
[0:05-0:12] 动机与方法回顾
- 讲者快速回顾 DAG(p.3)与例:吸烟(A)→ 血管加压素(Z)→ 高血压(M)→ 心肌梗死(Y)(改编自 Robins & Richardson, 2010)。
- 定义 SCM M₁(p.4),引出两类反事实解释(p.5):
1. 干预主义解释(政策相关,需可操纵原因);
2. 非能动解释(科学相关,可处理不可操纵原因如 race;引用 Malinsky, 2018)。
- 介绍 NDE/NIE(p.6)的两个问题:
- 假设不可实验验证;
- 有中间混杂 Z 时不可识别(Avin, Shpitser & Pearl, 2005)。
[0:12-0:18] 随机干预效应及其不足
- 介绍随机干预效应(p.7):定义 G(a) 为从 M(a) | W 的随机抽样;分解为 E[Y(1, G(1)) - Y(1, G(0))](间接)+ E[Y(1, G(0)) - Y(0, G(0))](直接)。
- 问题:
- 不分解 ATE(而是一个替代总效应);
- 不满足中介尖锐零准则(Miles, 2023)。
- 讲者重点解释尖锐零准则(p.8-9):定义“通过 M 的因果影响”为个体水平 sup_{·}|⋯| > 0;随机干预效应可能在无个体经历中介时仍然非零,故作为中介指标不可靠。
- 推广到路径特异性尖锐零准则(p.9 表):四条路径各有定义,理想的分解应满足:若某路径无个体水平因果影响,则其对应效应为零。
[0:18-0:22] Recanting witness 与现有分解的不可识别性
- 自然路径特异性效应的定义(p.10):五个嵌套反事实 Y_{S0} ∼ Y_{S4},效应为各相邻对的期望差值。
- Y_{S2} 的分布不可识别,因 Z(1) 需同时对 A→Z→Y 与 A→Z→M→Y 路径承担不同角色(recanting witness 命名来自 Pearl & Avin)。
[0:22-0:30] Recanting twins 的定义与分解
- 核心定义(p.11-12):
- T(a) ∼ Z(a) | W,称为 Z(1-a) 的 recanting twin(术语由 Eric Tchetgen 建议)。
- 对 P₂:用 T(1) 替代 Z(1)(变量 Y^1_{S1} = Y(0, Z(1), M(1, T(1)));
- 对 P₃:用 T(0) 替代 Z(0)(变量 Y^2_{S2} = Y(0, T(0), M(1, Z(1)))。
- 得到五个参数分解(p.13):
- ψ_{P1} ∼ ψ_{P4}:路径效应;
- ψ_{P2_P3}:中间混杂度量(若要估计中间混杂,可直接估计此项并检验其为零)。
- 定理 1(p.13):所有 ψ 满足路径特异性尖锐零准则,且与自然路径效应同号。
- 中间混杂的精确定义(p.14):无中间混杂 = 误差空间可划分为子集,使得 A→Z, Z→M, Z→Y 不同时激活于任一单位。
- 定理 2(p.15):在无中间混杂时 ψ_{P2_P3}=0 且所有 ψ 退化(个体水平)为自然路径效应。
[0:30-0:35] 识别假设与公式
- 识别条件(p.16):
- 连续可忽略性:Y(a,z,m) ⟂ (A,Z,M) | W 等;
- 关键交叉世界假设:Y(a,z,m) ⟂ M(a',z') | Z, W(不同于 NDE/NIE 的交叉世界,干预的是 Z)。
- 注意(讲者强调):该交叉世界假设在中间混杂存在时可满足,不排除中间混杂。
- 识别公式(p.17):给出了各 E[Y_{Si} | W] 的显式表达式,涉及 E[Y|a,z,m,W] 与 P(z,m|a,W) 等。讲者称“ugly looking”但可估计。
[0:35-0:40] 未满足的目标与 separable effects 模型
- 回顾三项目标(p.18):
- ✅ 分解 ATE
- ✅ 路径特异性尖锐零准则
- ❌ 识别假设可实验验证(当前仍需交叉世界假设)
- 引入 可分离效应模型(Robins & Richardson, 2010; Stensrud et al., 2023)(p.19-21):
- 将 A 分解为 (A_Z, A_M, A_Y),分别作用于 Z, M, Y 的路径(如:烟中尼古丁作用于下丘脑(AZ)、尼古丁作用于其他器官(AM)、其他毒素(AY))。
- 进一步将 Z 分解为 (Z_M, Z_Y)(如:释放入循环系统的加压素(ZM)、释放入脑的加压素(ZY))。
- 在此模型 M₃ 下,交叉世界假设可替换为一系列 单一世界反事实独立性(单世界干预图可检验),从而可实验验证(p.22-23)。
[0:40-45] 实际建议与总结
- 实用建议(p.24):若无可分离知识,最佳选择是确保测量所有已知 (A,Z,M,Y) 的共同起因(U_A ⟂ (U_Y, U_M, U_Z) | W 等)。
- 结束语引用 Vo et al. (2024, arXiv:2401.04450) 与 Díaz (2023, JRSS-B)。
[0:45-1:06] 讨论者 Daniel Malinsky 的评论
- 总结贡献:满足三项理想性质(分解ATE、尖锐零准则、无中间混杂时退化为自然效果)。
- 讨论点 1(个体水平解释):随机干预(recanting twin)导致个体水平反事实难以解释——T(1) 对某个体是随机抽取值,可能意外匹配或偏离其原 Z(1),使个体对比含义模糊。讲者回应:这是随机干预的普遍“feature”;应仅在总体水平解释(作为对因果依赖关系的度量)。
- 讨论点 2(效应量可比性):两个非零路径效应的大小是否可直接比较未知;与自然效应之间的缩放因子不可识别。讲者同意需研究序关系保持性(若新效应用于排序,是否与自然效应顺序一致?),认为是开放问题。
- 讨论点 3(实用流程):建议先检验 ψ_{P2_P3} 是否零;若不可拒绝,才用自然效应(可识别)。讲者回应:其实可直接估计新效应,检验只用于解释(中间混杂是否存在)。
四、对应论文与开放问题¶
对应论文: - 核心论文:Vo, T. T., Williams, N., Liu, R., Rudolph, K. E., & Díaz, I. (2024). “Recanting twins: addressing intermediate confounding in mediation analysis.” arXiv:2401.04450. (讲者口头确认 p.25) - 前期基础:Díaz, I. (2023). “Non-agency interventions for causal mediation in the presence of intermediate confounding.” Journal of the Royal Statistical Society Series B. (讲者引用 p.25)—— 提出了 recanting twins 的雏形(针对总效应分解,部分定义)。
开放问题(基于报告与讨论,按时间与来源列出):
- [Díaz 讨论,~1:04:00] 序关系保持性:在新与自然路径效应之间,是否保持“哪一个更大”的顺序?若无此性质,新效应在相对效应大小比较中的解释力受限。
- [Malinsky 讨论点 1,~0:55-0:57] 个体水平解释:recanting twin 是随机变量,个体水平反事实含义模糊(讲者也承认此为“feature”)。能否构建既满足所有理想性质(分解ATE、尖锐零准则、可验证假设)又保持个体水平解释的估计?
- [Malinsky 讨论点 2,~0:57-0:59] 效应量标度:新效应与自然效应之间的缩放因子不可识别。是否存在无识别假设的有界标尺(如上下界),使其大小具有绝对意义?
- [Malinsky 讨论点 3,~0:59-1:02] 假设检验与选择后的推断:先生成与检验
ψ_{P2_P3}=0,然后选择用新效应或自然效应——这会导致后选择推断的问题(如置信区间覆盖率的偏差)。如何规避或量化此影响? - [slides 13-14,未在讨论展开但显式未答]
ψ_{P2_P3}的估计与推断性质:此参数是否容易估计(如是否可构造稳健且高效的倍减机器学习?其收敛率是多少?)——报告仅给出识别公式(p.17)与文本陈述(p.25),但未给估计策略的详细理论。
Maintained by 陈星宇 · Homepage · Source on GitHub