ocis-2020-11-17-interview-with-judea-pearl¶

讲者: Interview with Judea Pearl
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-11-17
主题: 因果推断
视频: https://www.youtube.com/watch?v=hB9xDcumnHY&feature=youtu.be · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2007.12702 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

报告性质与定位： 这不是一篇针对特定技术问题的研究报告，而是 一场思想性的访谈——讲者 Judea Pearl 与主持人（Dominik Rothenhäusler、Thomas Richardson）以及在线观众的对话，覆盖 Pearl 的个人学术历程、图形因果模型（DAGs）的诞生、与统计学和计量经济学传统范式（Rubin 因果模型、可操控性要求）的辩论，以及他对因果推断未来方向的个人展望。

所属子方向（思想史 / 方法论立场辩论）： 这场报告不是“解答一个技术问题”的工作，而是回顾和重申一个已经存在约 25 年的方法论立场。它所处的“工作线”是：

追问： 图形化的因果模型（SCM / DAGs）相比于以潜在结果（potential outcomes）和可操控性（manipulability）为核心的反事实框架，在哪些根本性层面提供了不同的、更“自然”的因果理解？哪种框架更适合作为科学理论的普遍基础？
奠基与主流路线（两条对立路线）：
1. Pearl / 图形学派（DAG + do-演算）： 以结构性因果模型（SCM）为核心，从图结构定义独立性，用 do-算子形式化干预，强调因果层级（联想→干预→反事实）的不可约性。代表工作：Pearl (2000, 2009) 《Causality》；Spirtes, Glymour & Scheines (1993) 《Causation, Prediction, and Search》。
2. Rubin / 潜在结果学派（可操控性 + 分配机制）： 因果效应定义在干预（assignment mechanism）之上，强调每个单位有潜在结果，因果推断的核心是估计缺失的潜在结果。代表工作：Rubin (1974, 2005)；Holland (1986, Statistics & Science)——“无操纵则无因果”（"no causation without manipulation"）。
当前的 Frontier / 辩论点：
- 可操控性要求是否过于狭窄：批评者认为该要求导致对种族、性别、基因、地震等非可操控变量的因果问题“自动放弃”——这是 Pearl 在访谈中反复攻击的核心论点。
- 非参数识别与图形条件：DAG 学派提供了障碍集后门/前门准则、do-演算，而潜在结果学派则依赖各种分配机制假设（弱处理分配、工具变量条件、单调性等）。两者经常在特定问题（如 IV、中介分析）上达到等价，但哲学基础极难调和。
- 从识别到估计的桥接：近年来的工作（如去偏机器学习 / DML、半参数效率理论）大量依赖影响函数（influence function）和交叉拟合，这实质上是对 Rubin 框架或 Pearl 框架识别出来的 estimand 做高效估计——两个学派在实际方法层面已经逐步融合，但底层哲学讨论仍然活跃。
这场报告站在哪： Pearl 站在 DAG / SCM 的立场，全盘否定潜在结果学派加诸“可操控性”要求的合理性，将其描绘为一种历史上从随机试验不恰当地外推到一般科学推理的“人为禁锢”。他主张反事实思维是人类最自然的认知方式，且 SCM 为这种认知提供了首个计算模型。报告不提供新定理或新方法，但明确宣示了个人下一步的研究兴趣（个性化医学、注意力与好奇心计算、分解估计问题）。

可查的关键工作（听准的名称，但无确切年份/页码，需对照视频或原文核对）： - Pearl 批评的“可操控性”出处：Holland (1986, Journal of the American Statistical Association)——无操纵无因果；Rubin (2005, Journal of the American Statistical Association)——因果推断的基础框架。 - Pearl 的回应：Pearl (2009, Causality, 2nd ed., Ch. 5-7)；Pearl (2018, Journal of Causal Inference)——“Does obesity shorten life? Or is it the soda?”。 - Pearl 提到的“epidemiology 有成员抱怨 DAG 是 tyranny”：引用 2014 年 BMC Medical Research Methodology 的一篇争议文（Krueger & Davey Smith, “The tail wagged by the dog”）。

二、最小内核 / 一个最简例子¶

核心思想： 图形因果模型认为“因果”是变量之间自主的、物理的机制化关系（谁来听谁的），与实验者对变量的计算干预无关；而潜在结果学派要求每个因果陈述都关联到一个可想象（甚至可执行）的干预，这是从随机试验过度推广到一般科学的禁锢。

最简例子（依据 Pearl 在转写中反复使用的“法庭”与“地震”类比，但将其简化为一个二值处理场景）：

变量与符号：
- \(X\) 是二值的：一场暴风雨是否来临？(\(X=1\) 表示暴风雨来，无条件概率 \(P(X=1) = 0.01\))。
- \(Y\) 是二值的：花园是否被水淹？(\(Y=1\) 表示水淹)。
- \(U\) 是不可观测的潜在变量：花园排水系统的状况（好 / 坏）。\(U\) 既影响暴风雨的观测（气旋路径受地形影响）又影响水淹的易感性。
数据生成机制（DAG 结构）： \(X \to Y\)（暴风雨直接导致水淹），\(U\) 同时指向 \(X\) 和 \(Y\)（混淆：排水差的小区更容易爆发暴风雨？——气象局观测记录会偏向这些地点——但这不是重点，重点是 \(U\) 让 \(X\) 和 \(Y\) 在观测数据中产生关联）。
科学家（像古代历史学家修昔底德）（历史学）的因果问题： “若非这场地震，水灾还会发生吗？” (If not for the earthquake, would the flood still happen?) — 这是 Pearl 讨论的反事实核心。答案：不会——地震导致山体滑坡，堵塞了河流，是水灾的直接原因。
潜在结果框架的困境（如 Holland 1986 的标准）：
- 要定义 \(X=0\) 与 \(X=1\) 对 \(Y\) 的因果效应，必须为“暴风雨”的定义域提供一个“可干预”的解释。对于 Pearl 来说，这太荒谬了——暴风雨本身就是一个物理过程，你可以通过气象控制干预它，但那不改变“暴风雨导致水淹”这个因果机制。强行要求“可操控性”将导致人们无法谈论非人控事件的因果，这正是 Pearl 激烈反对的。
Pearl 的立场：
- 因果陈述的基础是 SCM 中的结构方程：\(Y = f_Y(X, U_Y; \theta_Y)\) 直接表达“X 的变化直接导致 Y 的变化”。不需要假设 \(X\) 是“可被干预”的。f_Y 就是物理机制（地震→山体滑坡→水灾）。可操控性（或者说 do-算子）是一种特殊情况（当你想问“如果我强制 X=0 会怎样？”），而非必要条件。

结构对比：

维度	图形 / SCM 立场	潜在结果 / 可操控性立场
因果效应的定义	结构方程：修复所有其他变量，强制改变 X，看 Y 如何反应	比较单位水平的潜在结果：Y(1) 与 Y(0)
对非可操控变量	自然接受	自动放弃（如 Holland 1986 的声明）
反事实的基础	模型隐式定义所有层次的干预	分配机制 / 随机化
常数“可操控”的维度	do-算子使可操控性问题变的明确且标准化	必须指定干预机制，否则认为因果无意义

总结： 这场访谈的最简例子就是“暴风雨、地震、水灾”——一个自然事件与物理过程的因果链条，它不受人类可操控性限制，但在图形模型里照样可以被形式化。Pearl 认为“机械要求在解释任何反事实陈述之前必须先说明怎么操作它”无异于思维枷锁。

三、报告主体：讲者讲了什么¶

由于这是访谈，不是单一技术线，按时间顺序分主题整理讲者观点。时间戳 [H:MM:SS] 为基于转写的估计，需对照视频校正。

3.1 个人背景与早期学术道路 [0:00–0:10]¶

[0:00–0:03] 开场与幽默：
- 主持人（Dominik Rothenhäusler、Thomas Richardson）欢迎观众，介绍这是该系列第三次访谈。
- 提醒观众可将问题提交到 Q&A，award 提到采访将围绕 Pearl 个人与学术发展展开。
[0:03–0:08] 高中学业与移民背景：
- Pearl 顺从地流动、不信任权威；强调他高中时期遇到从纳粹德国流亡到以色列的教授们。这些教授被迫从事中等教育，把毕生未竟的科研梦想寄托在 Pearl 这样优秀的学生身上。高中学到的核心是“发现自己能做”（do it yourself or else it won't be done）以及“不怕权威”（don't be intimidated by authorities）。
- 解释自己从以色列农庄（kibbutz）转向工程学习：有人建议喜欢数学就应该读电气工程。于是他进入 Technion（以色列理工学院），受益匪浅。
[0:08–0:10] 从工程到计算机科学的转变：
- 1960 年代是计算机时代的起点，他发现“计算机将取代人类”的时代氛围。他早期的工作是超导存储（superconducting memory），但因为半导体兴起而失业，之后才加入 UCLA。当时贝尔实验室、仙童相机才是创新中心，学术界不受重视。

3.2 从启发式游戏算法到 Bayesian 网络 [0:10–0:20]¶

[0:10–0:12] 关于博弈搜索（game playing）：
- 他认为博弈搜索是“系统 1（直觉/知觉） vs 系统 2（逻辑/推理）”相互作用的绝佳实验场所。特别是在看板评分（position evaluation）和对搜索树的剪枝（如 Alpha-beta 算法）交互上。他自己做过一些工作，表明 Alpha-beta 的截断是最优的。
[0:12–0:16] 从专家系统的不确定性处理到概率论：
- 在 1980 年代，AI 界的共识是：概率论不适用于专家系统，因为一个 1000 个变量概率表的大小超过宇宙中分子数。人们发明了各种逻辑（模糊逻辑、Dempster-Shafer 理论、信念函数等）来处理不确定性。
- Pearl 自己因为教授过决策分析（Raffa, Frankie, Howard, Ferguson、Savage 的影响），对概率论有极大偏好（"bias"）：不仅因为它提供了一个解释不确定性的形式，更因为它包含了链式和解释（explaining away）推理的一致规则——而这正是其他逻辑所欠缺的（他给出“草地湿→下雨；草地湿→喷水；喷水开启→下雨”的错误推理例子）。
- 他的关键洞见：概率表虽然是 \(2^n\) 指数级，但若利用图结构表示的独立性（Bayesian 网络），传递不确定性不需要全局表，可以通过局部消息传递（message propagation）在树上 \(O(n)\) 完成。
- 这导致他 1980 年代的工作：Bayesian 网络 + 信念传播（belief propagation）。

3.3 从 Bayesian 网络到因果推理 [0:20–0:30]¶

[0:22–0:24] 因果推理的“意外出现”：
- 起初 Pearl 相信：因果（causality）不过是独立模式的缩写符号（shorthand notation），仅是一种方便的语言。比如，说“X 导致 Y”等价于“有特定的独立性模式”。
- 但是，后来与 Spirtes 等人的合作（观察他们用图形来捕捉干预：图切边），使 Pearl 意识到“干预”不是一个在贝叶斯网络中容易表示的概念。一经加入“切边操作”，图形模型就变成了一个全新的计算对象（do-calculus）。
- 这个转折点让他与统计学的传统（Rubin 框架）面对面。
[0:24–0:26] 统计界 vs. 计算机科学界对外推性接收的差异：
- 计算机科学家“习惯换语言”，对 do-calculus 的接受极为热情。例如 Niels Nielsen、Vladimir Lifschitz 等人迅速实现或扩展（用缺省逻辑、Prolog）。
- 统计界则冷淡甚至敌视。他在 1993 年佛罗伦萨的一次会议上尝试将 back-door 准则与 Rubin 的基础理论联系，得到的是“茫然面孔”；听众不理解其内容。更关键的是 Rubin（他本人）视 DAG 为一种威胁。
- 突破口是 1995 年在 Biometrika 发表论文（标题大概对应“Causal Diagrams for Empirical Research”）。这项发表得益于编辑 Philip Dawid 的胆识，尽管审稿人给出了负面意见。Pearl 将这一事件视为使图形因果为更广泛统计学界所知的关键历史时刻。
[0:26–0:30] 关于“可操控性” (manipulability) 的激烈辩论：
- 这是访谈的核心哲学冲突。主持人 Richardson 尝试用两个论点反驳 Pearl：
  1. 实际中政策制定者关心的就是与干预相关的效果，可操控性是很直接的。
  2. 即使谈论诸如地震这样的非可干预原因，不同种类的干预（浅层/深层地震）产生不同后果；不细致化干预会导致“变量”定义不清（如“胆固醇”后来分裂为“好/坏”胆固醇）。因此细节的干预必须指定。
- Pearl 的回应：
  1. 可操控性是“人为桎梏”（most oppressive & stifling idea）。他认为，人类思维在记载的最早文献（《圣经》中“若城中有 50 个义人我就不毁灭它”、修昔底德讨论地震—海啸的关系）里就已具备反事实能力——那会儿可没人想怎么操控地震。
  2. 变量（如胆固醇）的定义：独立的环境属性是科学理论的目标；不同的干预方式（改变饮食 vs. 服药）只是侧面影响（side effects），跟变量本身的因果效应是不同层次的问题。为了发展可迁移的科学理论，需要一个“标准化”的 do-算子定义目标效应，而不是淹没在具体干预的细节中。
  3. 对“侧脸”干预的争论：Pearl 坚持结构方程自然隔离的效应（如 \(Y = Ax + C\)）是稳定的；不同操控路径的副作用不能用 do-算子概括时，可以通过在 SCM 中添加更多的节点（如加一个表示“给药方式”的变量）来建模。而非因为“没有完美可控的操纵”就放弃整个因果问题。

3.4 识别 vs. 估计的分离、网络干扰及敏感性分析 [0:30–0:42]¶

[0:30–0:34] 识别（identification）与估计（estimation）的独立性：
- Pearl 坚定地认为两个问题是正交的：识别是在获取任何数据前，根据假设推导出一个可写为观测数据分布的唯一函数（estimand）。这个过程只需要基于图论的准则（back-door, front-door, do-calculus），跟采样规模、收敛率无关。估计（由最大的 variablity 决定）则可以将那个函数交予统计学家用任意高效方法处理。
- 主持人提出网络干扰（network interference，如 Facebook 上的相互影响）让这两个问题不再可分割，因为存在“分布是什么”的疑点时，识别也需要考虑有限样本结构。Pearl 承认自己没有专门研究过干扰情况下的识别，但坚信 graphical approach 一定能延伸过去（提及 Mansky 等人）。
[0:34–0:40] 没有完全已知的图怎么办？
- 回答：图的不确定性本身就意味着无法识别。这时研究者有两条路：
  1. 因果发现（causal discovery）：尝试用数据推断图结构，但这需要弱于完备知识的假设。
  2. 敏感性分析（sensitivity analysis）：先暂定一个（或几个）图结构，然后检验最关键的那个箭头假设错误时，结果会怎样偏移。这点 DAG 提供了清晰的解释：你可以说“若你相信某节点是混淆，结果如此；若不信，结果如彼”。
- 他还提倡“临时建议（provisional recommendation）”：向决策者提供一系列条件性的因果声明（例如“如果你相信没有不可观测的混杂，你应该……”），让决策者自己评估领域的可信度，而非强求单一点估计。
[0:42] 对目标学习（targeted learning）的批评（简短提及）：
- 他认为，即使简单如马尔科夫链的分解估计（估计乘积的第一或乘积的估计）的必要性仍未解决，这是统计推断未被充分探索的方向。

3.5 未来方向与开放问题 [0:42–0:56]¶

[0:42–0:52] 他计划研究的三个方向：
1. 个性化医学（personalized medicine）：利用反事实逻辑，在给定群体数据的条件下缩小对个体的预测区间。
2. 注意力与好奇心（attention & curiosity）：用 SCM 的形式定义“理解状态”，以此决定计算机系统应将测量资源倾斜到哪些待解决问题的特征上。这本质上是主动实验设计的终极形式。
3. 分解估计问题（如上 0.42 提及）。
[0:52–0:56] 针对机器学习界 / 教育的劝诫性演讲：
- 他认为 DAG / SCM 应该成为教育的基本组成部分（已有高中教学的正面反馈）。
- Pearl 警告：“只做数据拟合的人将会失去就业岗位”，因为“下一个技术跃迁是从数据拟合转向数据解释（science）”。数据拟合到因果推理的转变是一个“范式转移”，不是补充一两个因果组件就能实现；这需要彻底重思假说生成、实验设计、统计推断的基础。工业界已经开始注意到这一点，但学术界课程尚未跟上。

四、对应论文与开放问题¶

4.1 对应论文¶

直接对应的论文（访谈无标题，但转写和用户提供材料中无一篇论文为主体，整个访谈是对话而非方法学展示）：
- 无单一论文可一一对应。但 Pearl 多次提到的图形因果理论基础可见于：
  - Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.), Cambridge University Press.
  - Pearl, J. (1995). Causal diagrams for empirical research, Biometrika, 82(4), 669-688. 这是 interview 中提到的“与统计界的突破口”论文。
- 访谈中引用的一些对抗性观点：
  - Holland, P.W. (1986). Statistics and Causal Inference, Journal of the American Statistical Association, 81(396), 945-960. (含“无操纵无因果”陈述)
  - Krueger, J.I. & Davey Smith, G. (2014). The tail wagged by the dog:... BMC Medical Research Methodology, 该论文批评 DAG 的“暴政”——Pearl 幽默以此作为成果被引用的标志。
演讲提供的候选论文（materials 中的 arXiv 2007.12702）：
- 核心结论完全与这场访谈不相关但用作背景：Grimmer, Knox & Stewart 的这篇论文是对 deconfounder（Wang & Blei, 2019）的严苛批评，指出其使用图因子模型替代不可观测的混淆 Z 存在识别和估计上的深层问题，最后发现简单回归有时一样好甚至更好。这与 Pearl 访谈的主题偏离——但无意中验证了 Pearl 的一贯立场：仅靠观测数据的图形主义不能解决未建模报道的混杂，需要引入 SCM 层更严格的结构约束。

4.2 开放问题（源自转写的具体语句）¶

识别与干扰分离的问题：当数据存在于复杂网络（如 Facebook 社交网络）中，识别与估计的分离是否仍然成立？ [约 0:33–0:34] 讲者承认自己未充分研究，但坚信图扩展可行。
马尔科夫链分解估计的争议：“在一条马尔科夫链中，是估计乘积更准确，还是分解估计更有效？” [0:42] 讲者认为这个问题至今没有充分论述。联系到用户（陈星宇）在高阶 U-statistics 浓度理论方面的积累——这很可能是一个可攻克的明确的点：将分解估计的不确定性与“链路”的结构等价，转化为“估计树的乘积 vs 树积的估计”的偏差-方差分析。
个性化医学的界限：“如何才能从群体数据缩小到个体的因果效应界限？” [0:42–0:44] 讲者说是他接下来 30 多年的兴趣，但未具体化技术路线。
注意力分配的最优实验设计：“下一个测量安排在哪个变量上以最快提升科学理解？” 讲者提出需要基于 SCM 来决定计算机的注意力（active learning）。

对研究者（陈星宇）的开放问题建议：从转写内容及其长期积累来看，最直接匹配您“半参数理论 + 高阶统计量”背景的点是 “估计乘积 vs. 乘积的估计” 问题。它在 Pearl 看来只是简单 Markov 链；但若将该链扩展为“图（结构方程）”，将每个边视为一个独立参数或函数，则转化为“高维半参数下 estimateur à plusieurs étapes (multi-step estimator) 的偏差-方差权衡”——这正是您的因果推断（Debiased ML, cross-fitting）和高阶影响函数（HOIF）之擅长领域。如需进一步深入，可对比系统研究“在 SCM 有图结构时，估计 E[Y|do(x)] 的分解策略（用目标学习 vs naïve product of factor fits）”的不同统计与计算性质。

Maintained by 陈星宇 · Homepage · Source on GitHub