What is causality? How to express it? And why it matters¶

讲者: Rodrigo Pinto
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-05-28
主题: 因果推断
视频: https://youtu.be/fz4ZWsCiM6Q · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2211.08209 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告不是在讲述一条具体的因果推断方法论文，而是在对比和反思三种最主流的因果框架，并旨在推出一个更简洁、更形式化的替代方案：“假设模型 (Hypothetical Model)”。

1. 该子方向的核心追问：
因果推断的基础是什么？如何从数学上表达“干预”或“修复”这个操作？我们现有的形式化语言（潜在结果框架、结构方程模型/do-演算）有什么固有的盲点和局限性？

2. 奠基与主流路线： - 潜在结果框架 (Rubin, 1974-2005): 以个体水平的反事实 Y_i(t) 为核心对象，用独立性假设（如无混杂、排他性）描述因果模型。简洁直观，是经济学和流行病学的主流。 - 结构因果模型 (SCM) / do-演算 (Pearl, 1995-2009): 以有向无环图（DAG）和结构方程为底层，用 do(t) 操作模拟干预，并通过d-分离和后门/前门准则进行识别。在计算机科学和部分统计学领域影响深远。

3. 当前前沿与“教学争论”的边界：
最近十年，涌现出一系列统一或对比框架的工作，核心是证明潜在结果框架与SCM在表达能力上是等价的，但不同框架在特定问题上有不同的便利性。这场报告站在这个“统一/对比”的学术对话中，试图用一个更简单的框架（假设模型）来桥接二者。

4. 这场报告的特定站位： - 它不是提出新的因果效应识别方法（如IV、DiD），而是讨论如何形式化“干预”这个概念本身。 - 它将“假设模型”定位为一种教学上更清晰、计算上更直观的工具。核心主张：在假设模型中，“干预”被转化为一个外生的假设变量，使得修复操作退化为标准统计操作（条件作用），从而简化识别分析。 - 关键的对比点：报告声称，do-演算的三个规则可以被假设模型的两个简单规则替代，且两者产生等价的但形式上不同的识别公式。这直接挑战了do-演算作为通用识别工具的复杂性。

5. 相关经典工作： - Haavelmo (1943)，Frisch (1930)：早期关于“假设性变化”的经济学思想基础。 - Heckman & Pinto (2015)：报告提到的假设模型的具体文献。 - Pearl (1995, 2009)：提出 d-分离和 do-演算的奠基性工作。 - Imbens & Angrist (1994)：在潜在结果框架下用单调性识别LATE。 - Vytlacil (2002)：证明分离性与单调性等价，桥接了IV模型用结构方程与LPO的描述。 - Shpitser & Pearl (2006)：提出 ID 算法，给出在任意DAG上识别因果效应的完整算法，解决了do-演算作为纯推理规则缺乏显式算法的问题。

6. 对你（研究者）的用处：
报告的核心是方法论的认识论讨论，与你对“因果推断识别理论”的兴趣高度相关。它提供了一个“假设模型”的视角，该视角将所有因果识别问题转化为一个交替条件作用的模式，可能为你在处理复杂图模型（如存在前门路径、多个中介变量）时，提供一种新的、有规律的推导路径。

二、最小内核 / 一个最简例子¶

核心思想： “修复”一个变量（如将治疗设为特定值）在传统统计中没有对应操作。报告提出的“假设模型”通过在模型中引入一个外生假设变量（\tilde{T}）来 “模拟”修复，使修复的效果可以简单地通过条件作用来计算。

符号与数据： - 可观测数据：(T_i, Y_i, Z_i, V_i) 独立同分布，i=1,...,n。其中 T_i 是处理变量（取值为 t），Y_i 是结果变量，Z_i 是工具变量，V_i 是（可能是潜变量的）混杂变量。 - 结构方程模型： Z_i = f_Z(\epsilon_Z_i), V_i = f_V(\epsilon_V_i), T_i = f_T(Z_i, V_i, \epsilon_T_i), Y_i = f_Y(T_i, V_i, \epsilon_Y_i)。该模型定义了变量间的因果方向。 - 目标参量：平均处理效应 (ATE): E[Y_i(1) - Y_i(0)]，其中 Y_i(t) 是当 T_i 被“修复”为 t 时的反事实结果。 - 潜在不可观测量：反事实值 Y_i(t) 和潜在混杂 V_i。

最简特例（d=1, 二值处理, IV模型）： 考虑最简单的 IV 模型，其中处理 T_i 只有0或1，工具 Z_i 也是二值。目标：识别 E[Y_i(1)]。

传统方法 (潜在结果/do-演算):
需要证明在控制了 V_i 后，反事实 Y_i(t) 与 T_i 独立，即 Y_i(t) ⊥⊥ T_i | V_i。然后使用 back-door 公式：E[Y_i(1)] = E_V[E[Y_i | T_i=1, V_i]]。
假设模型方法（报告的核心思想）：
步骤1：构建假设模型。 引入一个外生的假设变量 \tilde{T}（无父节点，与 \epsilon 独立），并用它替换掉结果方程中 T_i 的位置。假设模型的结构方程为：
\tilde{T} = f_{\tilde{T}}(\epsilon_{\tilde{T}})
Y_i = f_Y(\tilde{T}, V_i, \epsilon_Y_i) （注意：假设模型中 T_i 不再直接影响 Y_i）。
所有其他变量的方程保持不变。这样，T_i 的作用就被划分给了 \tilde{T}。
步骤2：关键步——修复变成了条件作用。
在假设模型中，将 \tilde{T} 固定为 t（即考虑 E[Y | \tilde{T}=t]）不再是一个“修复”操作，而是一个标准条件作用，因为它仅仅是一个外生变量。
此时，假设模型中的 E[Y | \tilde{T}=t] 完全等价于 原结构模型中的 E[Y(t)] （反事实均值）。
步骤3：桥接假设模型与真实数据。
现在问题变成：如何在假设模型中用可观测数据 (T, Z, V) 表达 E[Y | \tilde{T}=t]？
报告提出两个简单规则（以条件独立性为前提）将假设模型与实证模型桥接。对于 IV 模型，需要 Y ⊥⊥ T | (\tilde{T}, V) 和 \tilde{T} ⊥⊥ T 等条件。
通过代入和分解（如幻灯片中前门模型的分解方式），最终得到：
E[Y | \tilde{T}=t] = E_V [E[Y | T=t, V] ]。（与 back-door 公式一模一样，但推导过程不同，且无需人为的“修复”操作。）

总结： 这个例子说明，假设模型通过引入一个外生假设变量，将因果概念上的“干预/修复”转化为统计上的“条件作用”，从而可以在概率论框架内完成识别分析，而无需引入“do”算子或潜在的“反事实”概念。

三、报告主体：讲者讲了什么¶

本次报告是 Ricardo Pinto 于 2024 年 5 月 28 日在 OCIS 上所做，Ilya Shpitser 担任评议人。报告主要是一场关于因果推断方法论的“比较教学演讲”。

[0:00] - [0:07] 开场与框架设定¶

[0:00]-[0:02]: 主持人介绍讲者与主题。 [0:08]-[0:18] 讲者 Pinto 开场，指出为时45分钟的演讲，将从三篇论文中提炼核心，内容是关于“对比不同因果框架的优缺点”。
核心论点：“因果关系存在于头脑中”。讲者引用了 Frisch (1930) 和 Haavelmo 的见解，强调因果效应不是对现实世界的原样描述，而是关于假设性情景、思想实验的思考。这是整个演讲的哲学起点。

[0:07] - [0:38] 核心概念与三大对比¶

[0:07]-[0:12]: 通过一个简单线性例子 Y = α + βT + U 引出核心问题：修复 (Fixing) 与条件作用 (Conditioning) 的区分。 E[Y(T=t)]（通过修复T得到）和 E[Y|T=t]（通过统计条件作用得到）在数学上相同，但在概念上根本不同：前者需要假设因果方向，后者仅基于联合分布、不假设方向。
[0:12]-[0:16]: 批评经济学教材中常将因果性“绑定”于OLS等估计量的描述方式。讲者用一个三模型对比强调：即使 Cov(T, U) ≠ 0 导致OLS估计有偏，剩下的参数 β 是否还具有“因果解释”，完全取决于 T 和 U 之间的因果方向（DAG结构），而这在OLS的统计表述中没有体现。因果模型应优先于估计。
[0:16]-[0:31]: 定义了一个通用的结构因果模型 (SCM)：(随机变量, 结构方程, 独立误差)。在此基础上引入了local Markov condition (LMC) 和 graphoid axioms，将DAG转化为条件独立性声明。以IV模型为例，展示了结构方程、DAG和LMC这三种等价表示。
[0:31]-[0:38]: 详细对比了处理因果推断的三种不同的“操作”：
1. 修复 (Fixing, Haavelmo/Frisch): 移除T的输入，设定其值为t，Y只依赖V和误差。
2. do算子 (do-calculus, Pearl): 从系统中“关闭”T变量。
3. 假设模型 (Hypothetical Model, Heckman & Pinto): 引入外生假设变量 \tilde{T}，替代T在结果Y方程中的输入。这是本报告的核心概念，提出后者的简化优势。

[0:38] - [0:53] 语言与方法的深入对比¶

[0:38]-[0:47]: 介绍潜在结果 (Potential Outcomes, PO) 框架。讲者承认其主要好处是 “简洁” 和 “直观” ，尤其适合经济学中的RCT、匹配和IV模型。没有结构方程，缺少 DAG 的全局图景。
[0:47]-[0:53]: 深度剖析 PO 的缺陷与局限（这是报告的关键部分）：
- 缺陷1：难以挖掘更深层结构。 匹配假设 Y(t) ⊥⊥ T|X 通常被误解为“只要包含所有前处理变量就成立”。讲者用一个 DAG 反例（含后处理变量 K 的模型）说明，即便控制了前处理变量 X，独立性可能不成立；而控制了后处理变量 K，独立性反而成立。结论：PO 缺乏 DAG 的结构性，容易导致对识别假设的误读。
- 缺陷2：难以处理复杂模型。 以验证工具变量外生性条件 Z ⊥⊥ Y(t)|W 为例，这种条件的推导在 PO 中极其困难，但在 DAG 中一目了然。
- 关键对比：单调性与分离性。 用 IV 模型举例：潜在结果框架下的单调性假设（单位响应函数方向一致）可以识别 LATE，但仅限于连续变量的处理和某一种因果效应；而 SCM 中的分离性假设可以推导出 MTE(u) （边际处理效应），并指出几乎所有因果效应（ATE, TT, LATE, IV...）都可以表示为 MTE(u) 的加权平均。结论：在探索性和理论性任务上，包含潜在变量的结构方程模型更具“求证威力”。

[0:53] - [1:00] 展示“假设模型”的优势与对比¶

[0:53]-[1:00]: 重点介绍 假设模型 (Hypothetical Model) 这一形式化工具。
规则： (1) 定义“实证模型”（生成可观测数据DAG）。 (2) 定义“假设模型”（引入外生假设变量 \tilde{T}）。 (3) 利用 LMC 或 graphoid 从假设模型中推导出条件独立性。 (4) 通过两条简单规则桥接两个模型： - 规则1: Y ⊥⊥ T | (\tilde{T}, W) ⇒ PH(Y|\tilde{T}=t, T, W) = PE(Y|T=t, W)。 - 规则2: Y ⊥⊥ \tilde{T} | (T, W) ⇒ PH(Y|\tilde{T}, T, W) = PE(Y|T, W)。

关键结论：在假设模型中，反事实均值 EH(Y|\tilde{T}=t) 可以表达为一个交替出现的条件作用模式（如 ∑ PE(Y|M, T=t' ) × PE(M|T=t) × P(T=t')）。这个模式与 do-演算产生的公式形式上非常不同，但完全等价，且更简单，更容易推导。讲者用前门模型 (Front-door) 推广到包含三个中介变量的复杂图模型来演示该模式的普适性。

[1:00] - [1:07] 评议与讨论¶

[1:00]-[1:07]: Ilya Shpitser 作为评议人发言。他精准点出报告的核心观念，并提出了自己的补充和挑战：
- 关于“等价性”： 如果 PO 和 SCM 是等价的，那么“不同论证威力”的说法需要更精确的定义。
- 关于“do算子的批判”： 他指出 Pearl 的 do 算子并非在“实证模型”上操作；它始终在 SCM 上操作，是语义层面的，报告中的批评有争议。但他认可对 无干预版本的异质性版本处理（如“所得受益者的待遇”）在原始 do 演算中的表征困难，并指出 SWIGs (Single World Intervention Graphs) 可以很好地解决这一问题，它允许同时表示自然值和干预后的变量。
- 关于“假设模型与 SWIGs”： Shpitser 强调 SWIGs 与报告中的假设模型高度相似，且已被广泛研究和应用（自2013年起）。SWIGs 将 do-演算的三个规则简化为三个更标准、更易理解的图形条件（例：条件无关性 -> 干预排除）。
- 最终观点： Shpitser 引用“语言的界限就是我的世界的界限”，强调掌握多种因果语言（框架）的重要性，而不是绑定于某一种。他呼吁不同社区间（经济学、计算机科学、流行病学）进行更多的智力合成。

四、对应论文与开放问题¶

(a) 对应论文¶

主要论文： 2211.08209，标题："On counterfactual inference with unobserved confounding"。
作者： Abhin Shah, Raaz Dwivedi, Devavrat Shah, Gregory W. Wornell。
注意： 你的“对应论文摘要”（2211.08209）是一个不同的、非常统计技术性的论文（关于利用指数族和稀疏性进行异质性估计）。讲者的幻灯片标题和摘要与这场报告的“方法论对比”内容和哲学取向完全不符，很可能是匹配错误或版本错误。
报告中引用的自工作： 幻灯片和转写清晰表明，Pinto 在报告其与 Heckman 的合作工作：Heckman & Pinto (2015)。这是最直接对应的论文。 可以尝试搜索 "Heckman, J. J., & Pinto, R. (2015). Causal analysis after Haavelmo. Econometric Theory, 31(1), 1-43." 或其他相关论文。

(b) 开放问题（扎根于转写）¶

假设模型与SWIGs的完全桥接。（[1:03]-[1:05] Shpitser 提出）
具体问题： 演讲中提出的“假设模型”与 Shpitser 等人提出的 SWIGs（Single World Intervention Graphs）看起来非常相似。这两种框架在表达力上是否完全等价？是否存在 SWIGs 能处理但假设模型不能处理的场景，或者反过来？如何将假设模型的“交替模式”推导方法与现有的 ID 算法（Shpitser & Pearl, 2006）调和？
因果发现与假设模型的结合。（隐含在 [0:47] 的批评中）
具体问题： 报告批判了 PO 无法轻易验证外生性等图形条件。假设模型在 DAG 明确（由理论给出）时推导简单，但在因果结构未知、需要从数据中探索性发现时，假设模型是否提供了任何新的帮助？它能否与因果发现算法（如 PC 算法）自然地结合？
更复杂的模型（如循环图/非递图）。（Shpitser 在 [0:53] 提及）
具体问题： 幻灯片中提到，SCM 可以处理非递归或循环模型。在存在双向箭头或循环结构时，假设模型（以及其基于 LMC 的 DAG 属性）还能否适用？其简单的“交替模式”是否会失效，或者需要更复杂的图论工具（如无循环图分解）？
假设模型在识别异质性处理效应（如 Conditional ATE）时的“交替模式”计算。
具体问题（基于你的兴趣）： 报告的推导过程中出现了求和公式 ∑ PE(...) × PE(...) × ...。这看起来像是在计算一个类似条件概率加权平均的表达式。这种固有的“嵌套条件作用”公式是否自然对应于一个高维的、计算复杂度较高的求和问题？ 这是否会引发一个统计计算权衡（statistical-computational tradeoff）？在大型图（很多中介/混淆变量）中，这个求和是否退化为一个 NP-hard 问题？你的 einsum/张量网络复杂度 知识在这里是否可以派上用场？

Maintained by 陈星宇 · Homepage · Source on GitHub