What is causality? How to express it? And why it matters¶
讲者: Rodrigo Pinto
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-05-28
主题: 因果推断
视频: https://youtu.be/fz4ZWsCiM6Q · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2211.08209 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这场报告不是在讲述一条具体的因果推断方法论文,而是在对比和反思三种最主流的因果框架,并旨在推出一个更简洁、更形式化的替代方案:“假设模型 (Hypothetical Model)”。
1. 该子方向的核心追问:
因果推断的基础是什么?如何从数学上表达“干预”或“修复”这个操作?我们现有的形式化语言(潜在结果框架、结构方程模型/do-演算)有什么固有的盲点和局限性?
2. 奠基与主流路线:
- 潜在结果框架 (Rubin, 1974-2005): 以个体水平的反事实 Y_i(t) 为核心对象,用独立性假设(如无混杂、排他性)描述因果模型。简洁直观,是经济学和流行病学的主流。
- 结构因果模型 (SCM) / do-演算 (Pearl, 1995-2009): 以有向无环图(DAG)和结构方程为底层,用 do(t) 操作模拟干预,并通过d-分离和后门/前门准则进行识别。在计算机科学和部分统计学领域影响深远。
3. 当前前沿与“教学争论”的边界:
最近十年,涌现出一系列统一或对比框架的工作,核心是证明潜在结果框架与SCM在表达能力上是等价的,但不同框架在特定问题上有不同的便利性。这场报告站在这个“统一/对比”的学术对话中,试图用一个更简单的框架(假设模型)来桥接二者。
4. 这场报告的特定站位: - 它不是提出新的因果效应识别方法(如IV、DiD),而是讨论如何形式化“干预”这个概念本身。 - 它将“假设模型”定位为一种教学上更清晰、计算上更直观的工具。核心主张:在假设模型中,“干预”被转化为一个外生的假设变量,使得修复操作退化为标准统计操作(条件作用),从而简化识别分析。 - 关键的对比点:报告声称,do-演算的三个规则可以被假设模型的两个简单规则替代,且两者产生等价的但形式上不同的识别公式。这直接挑战了do-演算作为通用识别工具的复杂性。
5. 相关经典工作: - Haavelmo (1943),Frisch (1930): 早期关于“假设性变化”的经济学思想基础。 - Heckman & Pinto (2015): 报告提到的假设模型的具体文献。 - Pearl (1995, 2009): 提出 d-分离和 do-演算的奠基性工作。 - Imbens & Angrist (1994): 在潜在结果框架下用单调性识别LATE。 - Vytlacil (2002): 证明分离性与单调性等价,桥接了IV模型用结构方程与LPO的描述。 - Shpitser & Pearl (2006): 提出 ID 算法,给出在任意DAG上识别因果效应的完整算法,解决了do-演算作为纯推理规则缺乏显式算法的问题。
6. 对你(研究者)的用处:
报告的核心是方法论的认识论讨论,与你对“因果推断识别理论”的兴趣高度相关。它提供了一个“假设模型”的视角,该视角将所有因果识别问题转化为一个交替条件作用的模式,可能为你在处理复杂图模型(如存在前门路径、多个中介变量)时,提供一种新的、有规律的推导路径。
二、最小内核 / 一个最简例子¶
核心思想: “修复”一个变量(如将治疗设为特定值)在传统统计中没有对应操作。报告提出的“假设模型”通过在模型中引入一个外生假设变量(\tilde{T})来 “模拟”修复,使修复的效果可以简单地通过条件作用来计算。
符号与数据:
- 可观测数据:(T_i, Y_i, Z_i, V_i) 独立同分布,i=1,...,n。其中 T_i 是处理变量(取值为 t),Y_i 是结果变量,Z_i 是工具变量,V_i 是(可能是潜变量的)混杂变量。
- 结构方程模型: Z_i = f_Z(\epsilon_Z_i), V_i = f_V(\epsilon_V_i), T_i = f_T(Z_i, V_i, \epsilon_T_i), Y_i = f_Y(T_i, V_i, \epsilon_Y_i)。该模型定义了变量间的因果方向。
- 目标参量: 平均处理效应 (ATE): E[Y_i(1) - Y_i(0)],其中 Y_i(t) 是当 T_i 被“修复”为 t 时的反事实结果。
- 潜在不可观测量: 反事实值 Y_i(t) 和潜在混杂 V_i。
最简特例(d=1, 二值处理, IV模型):
考虑最简单的 IV 模型,其中处理 T_i 只有0或1,工具 Z_i 也是二值。目标:识别 E[Y_i(1)]。
-
传统方法 (潜在结果/do-演算):
需要证明在控制了V_i后,反事实Y_i(t)与T_i独立,即Y_i(t) ⊥⊥ T_i | V_i。然后使用 back-door 公式:E[Y_i(1)] = E_V[E[Y_i | T_i=1, V_i]]。 -
假设模型方法(报告的核心思想):
-
步骤1:构建假设模型。 引入一个外生的假设变量
\tilde{T}(无父节点,与\epsilon独立),并用它替换掉结果方程中T_i的位置。假设模型的结构方程为:
\tilde{T} = f_{\tilde{T}}(\epsilon_{\tilde{T}})
Y_i = f_Y(\tilde{T}, V_i, \epsilon_Y_i)(注意:假设模型中T_i不再直接影响Y_i)。
所有其他变量的方程保持不变。这样,T_i的作用就被划分给了\tilde{T}。 -
步骤2:关键步——修复变成了条件作用。
在假设模型中,将\tilde{T}固定为t(即考虑E[Y | \tilde{T}=t])不再是一个“修复”操作,而是一个标准条件作用,因为它仅仅是一个外生变量。
此时,假设模型中的E[Y | \tilde{T}=t]完全等价于 原结构模型中的E[Y(t)](反事实均值)。 -
步骤3:桥接假设模型与真实数据。
现在问题变成:如何在假设模型中用可观测数据(T, Z, V)表达E[Y | \tilde{T}=t]?
报告提出两个简单规则(以条件独立性为前提)将假设模型与实证模型桥接。对于 IV 模型,需要Y ⊥⊥ T | (\tilde{T}, V)和\tilde{T} ⊥⊥ T等条件。
通过代入和分解(如幻灯片中前门模型的分解方式),最终得到:
E[Y | \tilde{T}=t] = E_V [E[Y | T=t, V] ]。 (与 back-door 公式一模一样,但推导过程不同,且无需人为的“修复”操作。)
总结: 这个例子说明,假设模型通过引入一个外生假设变量,将因果概念上的“干预/修复”转化为统计上的“条件作用”,从而可以在概率论框架内完成识别分析,而无需引入“do”算子或潜在的“反事实”概念。
三、报告主体:讲者讲了什么¶
本次报告是 Ricardo Pinto 于 2024 年 5 月 28 日在 OCIS 上所做,Ilya Shpitser 担任评议人。报告主要是一场关于因果推断方法论的“比较教学演讲”。
[0:00] - [0:07] 开场与框架设定¶
- [0:00]-[0:02]: 主持人介绍讲者与主题。 [0:08]-[0:18] 讲者 Pinto 开场,指出为时45分钟的演讲,将从三篇论文中提炼核心,内容是关于“对比不同因果框架的优缺点”。
- 核心论点:“因果关系存在于头脑中”。讲者引用了 Frisch (1930) 和 Haavelmo 的见解,强调因果效应不是对现实世界的原样描述,而是关于假设性情景、思想实验的思考。这是整个演讲的哲学起点。
[0:07] - [0:38] 核心概念与三大对比¶
- [0:07]-[0:12]: 通过一个简单线性例子
Y = α + βT + U引出核心问题:修复 (Fixing) 与条件作用 (Conditioning) 的区分。E[Y(T=t)](通过修复T得到)和E[Y|T=t](通过统计条件作用得到)在数学上相同,但在概念上根本不同:前者需要假设因果方向,后者仅基于联合分布、不假设方向。 - [0:12]-[0:16]: 批评经济学教材中常将因果性“绑定”于OLS等估计量的描述方式。讲者用一个三模型对比强调:即使
Cov(T, U) ≠ 0导致OLS估计有偏,剩下的参数β是否还具有“因果解释”,完全取决于T和U之间的因果方向(DAG结构),而这在OLS的统计表述中没有体现。因果模型应优先于估计。 - [0:16]-[0:31]: 定义了一个通用的结构因果模型 (SCM):
(随机变量, 结构方程, 独立误差)。在此基础上引入了local Markov condition (LMC) 和 graphoid axioms,将DAG转化为条件独立性声明。以IV模型为例,展示了结构方程、DAG和LMC这三种等价表示。 - [0:31]-[0:38]: 详细对比了处理因果推断的三种不同的“操作”:
- 修复 (Fixing, Haavelmo/Frisch): 移除T的输入,设定其值为t,Y只依赖V和误差。
- do算子 (do-calculus, Pearl): 从系统中“关闭”T变量。
- 假设模型 (Hypothetical Model, Heckman & Pinto): 引入外生假设变量
\tilde{T},替代T在结果Y方程中的输入。这是本报告的核心概念,提出后者的简化优势。
[0:38] - [0:53] 语言与方法的深入对比¶
- [0:38]-[0:47]: 介绍潜在结果 (Potential Outcomes, PO) 框架。讲者承认其主要好处是 “简洁” 和 “直观” ,尤其适合经济学中的RCT、匹配和IV模型。没有结构方程,缺少 DAG 的全局图景。
- [0:47]-[0:53]: 深度剖析 PO 的缺陷与局限(这是报告的关键部分):
- 缺陷1:难以挖掘更深层结构。 匹配假设
Y(t) ⊥⊥ T|X通常被误解为“只要包含所有前处理变量就成立”。讲者用一个 DAG 反例(含后处理变量K的模型)说明,即便控制了前处理变量X,独立性可能不成立;而控制了后处理变量K,独立性反而成立。结论:PO 缺乏 DAG 的结构性,容易导致对识别假设的误读。 - 缺陷2:难以处理复杂模型。 以验证工具变量外生性条件
Z ⊥⊥ Y(t)|W为例,这种条件的推导在 PO 中极其困难,但在 DAG 中一目了然。 - 关键对比:单调性与分离性。 用 IV 模型举例:潜在结果框架下的单调性假设(单位响应函数方向一致)可以识别 LATE,但仅限于连续变量的处理和某一种因果效应;而 SCM 中的分离性假设可以推导出
MTE(u)(边际处理效应),并指出几乎所有因果效应(ATE, TT, LATE, IV...)都可以表示为MTE(u)的加权平均。结论:在探索性和理论性任务上,包含潜在变量的结构方程模型更具“求证威力”。
- 缺陷1:难以挖掘更深层结构。 匹配假设
[0:53] - [1:00] 展示“假设模型”的优势与对比¶
-
[0:53]-[1:00]: 重点介绍 假设模型 (Hypothetical Model) 这一形式化工具。
规则: (1) 定义“实证模型”(生成可观测数据DAG)。 (2) 定义“假设模型”(引入外生假设变量\tilde{T})。 (3) 利用 LMC 或 graphoid 从假设模型中推导出条件独立性。 (4) 通过两条简单规则桥接两个模型: - 规则1:Y ⊥⊥ T | (\tilde{T}, W)⇒PH(Y|\tilde{T}=t, T, W) = PE(Y|T=t, W)。 - 规则2:Y ⊥⊥ \tilde{T} | (T, W)⇒PH(Y|\tilde{T}, T, W) = PE(Y|T, W)。关键结论:在假设模型中,反事实均值
EH(Y|\tilde{T}=t)可以表达为一个交替出现的条件作用模式(如∑ PE(Y|M, T=t' ) × PE(M|T=t) × P(T=t'))。这个模式与 do-演算产生的公式形式上非常不同,但完全等价,且更简单,更容易推导。讲者用前门模型 (Front-door) 推广到包含三个中介变量的复杂图模型来演示该模式的普适性。
[1:00] - [1:07] 评议与讨论¶
- [1:00]-[1:07]: Ilya Shpitser 作为评议人发言。他精准点出报告的核心观念,并提出了自己的补充和挑战:
- 关于“等价性”: 如果 PO 和 SCM 是等价的,那么“不同论证威力”的说法需要更精确的定义。
- 关于“do算子的批判”: 他指出 Pearl 的 do 算子并非在“实证模型”上操作;它始终在 SCM 上操作,是语义层面的,报告中的批评有争议。但他认可对 无干预版本的异质性版本处理(如“所得受益者的待遇”)在原始 do 演算中的表征困难,并指出 SWIGs (Single World Intervention Graphs) 可以很好地解决这一问题,它允许同时表示自然值和干预后的变量。
- 关于“假设模型与 SWIGs”: Shpitser 强调 SWIGs 与报告中的假设模型高度相似,且已被广泛研究和应用(自2013年起)。SWIGs 将 do-演算的三个规则简化为三个更标准、更易理解的图形条件(例:条件无关性 -> 干预排除)。
- 最终观点: Shpitser 引用“语言的界限就是我的世界的界限”,强调掌握多种因果语言(框架)的重要性,而不是绑定于某一种。他呼吁不同社区间(经济学、计算机科学、流行病学)进行更多的智力合成。
四、对应论文与开放问题¶
(a) 对应论文¶
- 主要论文:
2211.08209,标题:"On counterfactual inference with unobserved confounding"。
作者: Abhin Shah, Raaz Dwivedi, Devavrat Shah, Gregory W. Wornell。
注意: 你的“对应论文摘要”(2211.08209)是一个不同的、非常统计技术性的论文(关于利用指数族和稀疏性进行异质性估计)。讲者的幻灯片标题和摘要与这场报告的“方法论对比”内容和哲学取向完全不符,很可能是匹配错误或版本错误。 - 报告中引用的自工作: 幻灯片和转写清晰表明,Pinto 在报告其与 Heckman 的合作工作:Heckman & Pinto (2015)。这是最直接对应的论文。 可以尝试搜索 "Heckman, J. J., & Pinto, R. (2015). Causal analysis after Haavelmo. Econometric Theory, 31(1), 1-43." 或其他相关论文。
(b) 开放问题(扎根于转写)¶
-
假设模型与SWIGs的完全桥接。([1:03]-[1:05] Shpitser 提出)
具体问题: 演讲中提出的“假设模型”与 Shpitser 等人提出的 SWIGs(Single World Intervention Graphs)看起来非常相似。这两种框架在表达力上是否完全等价?是否存在 SWIGs 能处理但假设模型不能处理的场景,或者反过来?如何将假设模型的“交替模式”推导方法与现有的 ID 算法(Shpitser & Pearl, 2006)调和? -
因果发现与假设模型的结合。(隐含在 [0:47] 的批评中)
具体问题: 报告批判了 PO 无法轻易验证外生性等图形条件。假设模型在 DAG 明确(由理论给出)时推导简单,但在因果结构未知、需要从数据中探索性发现时,假设模型是否提供了任何新的帮助?它能否与因果发现算法(如 PC 算法)自然地结合? -
更复杂的模型(如循环图/非递图)。(Shpitser 在 [0:53] 提及)
具体问题: 幻灯片中提到,SCM 可以处理非递归或循环模型。在存在双向箭头或循环结构时,假设模型(以及其基于 LMC 的 DAG 属性)还能否适用?其简单的“交替模式”是否会失效,或者需要更复杂的图论工具(如无循环图分解)? -
假设模型在识别异质性处理效应(如 Conditional ATE)时的“交替模式”计算。
具体问题(基于你的兴趣): 报告的推导过程中出现了求和公式∑ PE(...) × PE(...) × ...。这看起来像是在计算一个类似条件概率加权平均的表达式。这种固有的“嵌套条件作用”公式是否自然对应于一个高维的、计算复杂度较高的求和问题? 这是否会引发一个统计计算权衡(statistical-computational tradeoff)?在大型图(很多中介/混淆变量)中,这个求和是否退化为一个 NP-hard 问题?你的 einsum/张量网络复杂度 知识在这里是否可以派上用场?
Maintained by 陈星宇 · Homepage · Source on GitHub