跳转至

ocis-2020-11-17-interview-with-judea-pearl

讲者: Interview with Judea Pearl
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-11-17
主题: 因果推断
视频: https://www.youtube.com/watch?v=hB9xDcumnHY&feature=youtu.be · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2007.12702 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

报告性质与定位: 这不是一篇针对特定技术问题的研究报告,而是 一场思想性的访谈——讲者 Judea Pearl 与主持人(Dominik Rothenhäusler、Thomas Richardson)以及在线观众的对话,覆盖 Pearl 的个人学术历程、图形因果模型(DAGs)的诞生、与统计学和计量经济学传统范式(Rubin 因果模型、可操控性要求)的辩论,以及他对因果推断未来方向的个人展望。

所属子方向(思想史 / 方法论立场辩论): 这场报告不是“解答一个技术问题”的工作,而是回顾和重申一个已经存在约 25 年的方法论立场。它所处的“工作线”是:

  • 追问: 图形化的因果模型(SCM / DAGs)相比于以潜在结果(potential outcomes)和可操控性(manipulability)为核心的反事实框架,在哪些根本性层面提供了不同的、更“自然”的因果理解?哪种框架更适合作为科学理论的普遍基础?
  • 奠基与主流路线(两条对立路线):
    1. Pearl / 图形学派(DAG + do-演算): 以结构性因果模型(SCM)为核心,从图结构定义独立性,用 do-算子形式化干预,强调因果层级(联想→干预→反事实)的不可约性。代表工作:Pearl (2000, 2009) 《Causality》;Spirtes, Glymour & Scheines (1993) 《Causation, Prediction, and Search》
    2. Rubin / 潜在结果学派(可操控性 + 分配机制): 因果效应定义在干预(assignment mechanism)之上,强调每个单位有潜在结果,因果推断的核心是估计缺失的潜在结果。代表工作:Rubin (1974, 2005);Holland (1986, Statistics & Science)——“无操纵则无因果”("no causation without manipulation")。
  • 当前的 Frontier / 辩论点:
    • 可操控性要求是否过于狭窄:批评者认为该要求导致对种族、性别、基因、地震等非可操控变量的因果问题“自动放弃”——这是 Pearl 在访谈中反复攻击的核心论点。
    • 非参数识别与图形条件:DAG 学派提供了障碍集后门/前门准则、do-演算,而潜在结果学派则依赖各种分配机制假设(弱处理分配、工具变量条件、单调性等)。两者经常在特定问题(如 IV、中介分析)上达到等价,但哲学基础极难调和。
    • 从识别到估计的桥接:近年来的工作(如去偏机器学习 / DML、半参数效率理论)大量依赖影响函数(influence function)和交叉拟合,这实质上是对 Rubin 框架或 Pearl 框架识别出来的 estimand 做高效估计——两个学派在实际方法层面已经逐步融合,但底层哲学讨论仍然活跃。
  • 这场报告站在哪: Pearl 站在 DAG / SCM 的立场,全盘否定潜在结果学派加诸“可操控性”要求的合理性,将其描绘为一种历史上从随机试验不恰当地外推到一般科学推理的“人为禁锢”。他主张反事实思维是人类最自然的认知方式,且 SCM 为这种认知提供了首个计算模型。报告不提供新定理或新方法,但明确宣示了个人下一步的研究兴趣(个性化医学、注意力与好奇心计算、分解估计问题)。

可查的关键工作(听准的名称,但无确切年份/页码,需对照视频或原文核对): - Pearl 批评的“可操控性”出处:Holland (1986, Journal of the American Statistical Association)——无操纵无因果;Rubin (2005, Journal of the American Statistical Association)——因果推断的基础框架。 - Pearl 的回应:Pearl (2009, Causality, 2nd ed., Ch. 5-7);Pearl (2018, Journal of Causal Inference)——“Does obesity shorten life? Or is it the soda?”。 - Pearl 提到的“epidemiology 有成员抱怨 DAG 是 tyranny”:引用 2014 年 BMC Medical Research Methodology 的一篇争议文(Krueger & Davey Smith, “The tail wagged by the dog”)。


二、最小内核 / 一个最简例子

核心思想: 图形因果模型认为“因果”是变量之间自主的、物理的机制化关系(谁来听谁的),与实验者对变量的计算干预无关;而潜在结果学派要求每个因果陈述都关联到一个可想象(甚至可执行)的干预,这是从随机试验过度推广到一般科学的禁锢。

最简例子(依据 Pearl 在转写中反复使用的“法庭”与“地震”类比,但将其简化为一个二值处理场景):

  • 变量与符号:
    • \(X\) 是二值的:一场暴风雨是否来临?(\(X=1\) 表示暴风雨来,无条件概率 \(P(X=1) = 0.01\))。
    • \(Y\) 是二值的:花园是否被水淹?(\(Y=1\) 表示水淹)。
    • \(U\) 是不可观测的潜在变量:花园排水系统的状况(好 / 坏)。\(U\) 既影响暴风雨的观测(气旋路径受地形影响)又影响水淹的易感性。
  • 数据生成机制(DAG 结构): \(X \to Y\)(暴风雨直接导致水淹),\(U\) 同时指向 \(X\)\(Y\)(混淆:排水差的小区更容易爆发暴风雨?——气象局观测记录会偏向这些地点——但这不是重点,重点是 \(U\)\(X\)\(Y\) 在观测数据中产生关联)。
  • 科学家(像古代历史学家修昔底德)(历史学)的因果问题: “若非这场地震,水灾还会发生吗?” (If not for the earthquake, would the flood still happen?) — 这是 Pearl 讨论的反事实核心。答案:不会——地震导致山体滑坡,堵塞了河流,是水灾的直接原因。
  • 潜在结果框架的困境(如 Holland 1986 的标准):
    • 要定义 \(X=0\)\(X=1\)\(Y\) 的因果效应,必须为“暴风雨”的定义域提供一个“可干预”的解释。对于 Pearl 来说,这太荒谬了——暴风雨本身就是一个物理过程,你可以通过气象控制干预它,但那不改变“暴风雨导致水淹”这个因果机制。强行要求“可操控性”将导致人们无法谈论非人控事件的因果,这正是 Pearl 激烈反对的。
  • Pearl 的立场:
    • 因果陈述的基础是 SCM 中的结构方程:\(Y = f_Y(X, U_Y; \theta_Y)\) 直接表达“X 的变化直接导致 Y 的变化”。不需要假设 \(X\) 是“可被干预”的。f_Y 就是物理机制(地震→山体滑坡→水灾)。可操控性(或者说 do-算子)是一种特殊情况(当你想问“如果我强制 X=0 会怎样?”),而非必要条件。

结构对比:

维度 图形 / SCM 立场 潜在结果 / 可操控性立场
因果效应的定义 结构方程:修复所有其他变量,强制改变 X,看 Y 如何反应 比较单位水平的潜在结果:Y(1) 与 Y(0)
对非可操控变量 自然接受 自动放弃(如 Holland 1986 的声明)
反事实的基础 模型隐式定义所有层次的干预 分配机制 / 随机化
常数“可操控”的维度 do-算子使可操控性问题变的明确且标准化 必须指定干预机制,否则认为因果无意义

总结: 这场访谈的最简例子就是“暴风雨、地震、水灾”——一个自然事件与物理过程的因果链条,它不受人类可操控性限制,但在图形模型里照样可以被形式化。Pearl 认为“机械要求在解释任何反事实陈述之前必须先说明怎么操作它”无异于思维枷锁。


三、报告主体:讲者讲了什么

由于这是访谈,不是单一技术线,按时间顺序分主题整理讲者观点。时间戳 [H:MM:SS] 为基于转写的估计,需对照视频校正。

3.1 个人背景与早期学术道路 [0:00–0:10]

  • [0:00–0:03] 开场与幽默:
    • 主持人(Dominik Rothenhäusler、Thomas Richardson)欢迎观众,介绍这是该系列第三次访谈。
    • 提醒观众可将问题提交到 Q&A,award 提到采访将围绕 Pearl 个人与学术发展展开。
  • [0:03–0:08] 高中学业与移民背景:
    • Pearl 顺从地流动、不信任权威;强调他高中时期遇到从纳粹德国流亡到以色列的教授们。这些教授被迫从事中等教育,把毕生未竟的科研梦想寄托在 Pearl 这样优秀的学生身上。高中学到的核心是“发现自己能做”(do it yourself or else it won't be done)以及“不怕权威”(don't be intimidated by authorities)。
    • 解释自己从以色列农庄(kibbutz)转向工程学习:有人建议喜欢数学就应该读电气工程。于是他进入 Technion(以色列理工学院),受益匪浅。
  • [0:08–0:10] 从工程到计算机科学的转变:
    • 1960 年代是计算机时代的起点,他发现“计算机将取代人类”的时代氛围。他早期的工作是超导存储(superconducting memory),但因为半导体兴起而失业,之后才加入 UCLA。当时贝尔实验室、仙童相机才是创新中心,学术界不受重视。

3.2 从启发式游戏算法到 Bayesian 网络 [0:10–0:20]

  • [0:10–0:12] 关于博弈搜索(game playing):
    • 他认为博弈搜索是“系统 1(直觉/知觉) vs 系统 2(逻辑/推理)”相互作用的绝佳实验场所。特别是在看板评分(position evaluation)和对搜索树的剪枝(如 Alpha-beta 算法)交互上。他自己做过一些工作,表明 Alpha-beta 的截断是最优的。
  • [0:12–0:16] 从专家系统的不确定性处理到概率论:
    • 在 1980 年代,AI 界的共识是:概率论不适用于专家系统,因为一个 1000 个变量概率表的大小超过宇宙中分子数。人们发明了各种逻辑(模糊逻辑、Dempster-Shafer 理论、信念函数等)来处理不确定性。
    • Pearl 自己因为教授过决策分析(Raffa, Frankie, Howard, Ferguson、Savage 的影响),对概率论有极大偏好("bias"):不仅因为它提供了一个解释不确定性的形式,更因为它包含了链式和解释(explaining away)推理的一致规则——而这正是其他逻辑所欠缺的(他给出“草地湿→下雨;草地湿→喷水;喷水开启→下雨”的错误推理例子)。
    • 他的关键洞见:概率表虽然是 \(2^n\) 指数级,但若利用图结构表示的独立性(Bayesian 网络),传递不确定性不需要全局表,可以通过局部消息传递(message propagation)在树上 \(O(n)\) 完成
    • 这导致他 1980 年代的工作:Bayesian 网络 + 信念传播(belief propagation)

3.3 从 Bayesian 网络到因果推理 [0:20–0:30]

  • [0:22–0:24] 因果推理的“意外出现”:
    • 起初 Pearl 相信:因果(causality)不过是独立模式的缩写符号(shorthand notation),仅是一种方便的语言。比如,说“X 导致 Y”等价于“有特定的独立性模式”。
    • 但是,后来与 Spirtes 等人的合作(观察他们用图形来捕捉干预:图切边),使 Pearl 意识到“干预”不是一个在贝叶斯网络中容易表示的概念。一经加入“切边操作”,图形模型就变成了一个全新的计算对象(do-calculus)。
    • 这个转折点让他与统计学的传统(Rubin 框架)面对面。
  • [0:24–0:26] 统计界 vs. 计算机科学界对外推性接收的差异:
    • 计算机科学家“习惯换语言”,对 do-calculus 的接受极为热情。例如 Niels Nielsen、Vladimir Lifschitz 等人迅速实现或扩展(用缺省逻辑、Prolog)。
    • 统计界则冷淡甚至敌视。他在 1993 年佛罗伦萨的一次会议上尝试将 back-door 准则与 Rubin 的基础理论联系,得到的是“茫然面孔”;听众不理解其内容。更关键的是 Rubin(他本人)视 DAG 为一种威胁。
    • 突破口是 1995 年在 Biometrika 发表论文(标题大概对应“Causal Diagrams for Empirical Research”)。这项发表得益于编辑 Philip Dawid 的胆识,尽管审稿人给出了负面意见。Pearl 将这一事件视为使图形因果为更广泛统计学界所知的关键历史时刻。
  • [0:26–0:30] 关于“可操控性” (manipulability) 的激烈辩论:
    • 这是访谈的核心哲学冲突。主持人 Richardson 尝试用两个论点反驳 Pearl:
      1. 实际中政策制定者关心的就是与干预相关的效果,可操控性是很直接的。
      2. 即使谈论诸如地震这样的非可干预原因,不同种类的干预(浅层/深层地震)产生不同后果;不细致化干预会导致“变量”定义不清(如“胆固醇”后来分裂为“好/坏”胆固醇)。因此细节的干预必须指定。
    • Pearl 的回应:
      1. 可操控性是“人为桎梏”(most oppressive & stifling idea)。他认为,人类思维在记载的最早文献(《圣经》中“若城中有 50 个义人我就不毁灭它”、修昔底德讨论地震—海啸的关系)里就已具备反事实能力——那会儿可没人想怎么操控地震。
      2. 变量(如胆固醇)的定义:独立的环境属性是科学理论的目标;不同的干预方式(改变饮食 vs. 服药)只是侧面影响(side effects),跟变量本身的因果效应是不同层次的问题。为了发展可迁移的科学理论,需要一个“标准化”的 do-算子定义目标效应,而不是淹没在具体干预的细节中。
      3. 对“侧脸”干预的争论:Pearl 坚持结构方程自然隔离的效应(如 \(Y = Ax + C\))是稳定的;不同操控路径的副作用不能用 do-算子概括时,可以通过在 SCM 中添加更多的节点(如加一个表示“给药方式”的变量)来建模。而非因为“没有完美可控的操纵”就放弃整个因果问题。

3.4 识别 vs. 估计的分离、网络干扰及敏感性分析 [0:30–0:42]

  • [0:30–0:34] 识别(identification)与估计(estimation)的独立性:
    • Pearl 坚定地认为两个问题是正交的:识别是在获取任何数据前,根据假设推导出一个可写为观测数据分布的唯一函数(estimand)。这个过程只需要基于图论的准则(back-door, front-door, do-calculus),跟采样规模、收敛率无关。估计(由最大的 variablity 决定)则可以将那个函数交予统计学家用任意高效方法处理。
    • 主持人提出网络干扰(network interference,如 Facebook 上的相互影响)让这两个问题不再可分割,因为存在“分布是什么”的疑点时,识别也需要考虑有限样本结构。Pearl 承认自己没有专门研究过干扰情况下的识别,但坚信 graphical approach 一定能延伸过去(提及 Mansky 等人)。
  • [0:34–0:40] 没有完全已知的图怎么办?
    • 回答:图的不确定性本身就意味着无法识别。这时研究者有两条路:
      1. 因果发现(causal discovery):尝试用数据推断图结构,但这需要弱于完备知识的假设。
      2. 敏感性分析(sensitivity analysis):先暂定一个(或几个)图结构,然后检验最关键的那个箭头假设错误时,结果会怎样偏移。这点 DAG 提供了清晰的解释:你可以说“若你相信某节点是混淆,结果如此;若不信,结果如彼”。
    • 他还提倡“临时建议(provisional recommendation)”:向决策者提供一系列条件性的因果声明(例如“如果你相信没有不可观测的混杂,你应该……”),让决策者自己评估领域的可信度,而非强求单一点估计。
  • [0:42] 对目标学习(targeted learning)的批评(简短提及):
    • 他认为,即使简单如马尔科夫链的分解估计(估计乘积的第一或乘积的估计)的必要性仍未解决,这是统计推断未被充分探索的方向。

3.5 未来方向与开放问题 [0:42–0:56]

  • [0:42–0:52] 他计划研究的三个方向:
    1. 个性化医学(personalized medicine):利用反事实逻辑,在给定群体数据的条件下缩小对个体的预测区间。
    2. 注意力与好奇心(attention & curiosity):用 SCM 的形式定义“理解状态”,以此决定计算机系统应将测量资源倾斜到哪些待解决问题的特征上。这本质上是主动实验设计的终极形式。
    3. 分解估计问题(如上 0.42 提及)。
  • [0:52–0:56] 针对机器学习界 / 教育的劝诫性演讲:
    • 他认为 DAG / SCM 应该成为教育的基本组成部分(已有高中教学的正面反馈)。
    • Pearl 警告:“只做数据拟合的人将会失去就业岗位”,因为“下一个技术跃迁是从数据拟合转向数据解释(science)”。数据拟合到因果推理的转变是一个“范式转移”,不是补充一两个因果组件就能实现;这需要彻底重思假说生成、实验设计、统计推断的基础。工业界已经开始注意到这一点,但学术界课程尚未跟上。

四、对应论文与开放问题

4.1 对应论文

  • 直接对应的论文(访谈无标题,但转写和用户提供材料中无一篇论文为主体,整个访谈是对话而非方法学展示)
    • 无单一论文可一一对应。但 Pearl 多次提到的图形因果理论基础可见于:
      • Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.), Cambridge University Press.
      • Pearl, J. (1995). Causal diagrams for empirical research, Biometrika, 82(4), 669-688. 这是 interview 中提到的“与统计界的突破口”论文。
    • 访谈中引用的一些对抗性观点:
      • Holland, P.W. (1986). Statistics and Causal Inference, Journal of the American Statistical Association, 81(396), 945-960. (含“无操纵无因果”陈述)
      • Krueger, J.I. & Davey Smith, G. (2014). The tail wagged by the dog:... BMC Medical Research Methodology, 该论文批评 DAG 的“暴政”——Pearl 幽默以此作为成果被引用的标志。
  • 演讲提供的候选论文(materials 中的 arXiv 2007.12702)
    • 核心结论完全与这场访谈不相关但用作背景:Grimmer, Knox & Stewart 的这篇论文是对 deconfounder(Wang & Blei, 2019)的严苛批评,指出其使用图因子模型替代不可观测的混淆 Z 存在识别和估计上的深层问题,最后发现简单回归有时一样好甚至更好。这与 Pearl 访谈的主题偏离——但无意中验证了 Pearl 的一贯立场:仅靠观测数据的图形主义不能解决未建模报道的混杂,需要引入 SCM 层更严格的结构约束。

4.2 开放问题(源自转写的具体语句)

  1. 识别与干扰分离的问题:当数据存在于复杂网络(如 Facebook 社交网络)中,识别与估计的分离是否仍然成立? [约 0:33–0:34] 讲者承认自己未充分研究,但坚信图扩展可行。
  2. 马尔科夫链分解估计的争议:“在一条马尔科夫链中,是估计乘积更准确,还是分解估计更有效?” [0:42] 讲者认为这个问题至今没有充分论述。联系到用户(陈星宇)在高阶 U-statistics 浓度理论方面的积累——这很可能是一个可攻克的明确的点:将分解估计的不确定性与“链路”的结构等价,转化为“估计树的乘积 vs 树积的估计”的偏差-方差分析。
  3. 个性化医学的界限:“如何才能从群体数据缩小到个体的因果效应界限?” [0:42–0:44] 讲者说是他接下来 30 多年的兴趣,但未具体化技术路线。
  4. 注意力分配的最优实验设计:“下一个测量安排在哪个变量上以最快提升科学理解?” 讲者提出需要基于 SCM 来决定计算机的注意力(active learning)。

对研究者(陈星宇)的开放问题建议:从转写内容及其长期积累来看,最直接匹配您“半参数理论 + 高阶统计量”背景的点是 “估计乘积 vs. 乘积的估计” 问题。它在 Pearl 看来只是简单 Markov 链;但若将该链扩展为“图(结构方程)”,将每个边视为一个独立参数或函数,则转化为“高维半参数下 estimateur à plusieurs étapes (multi-step estimator) 的偏差-方差权衡”——这正是您的因果推断(Debiased ML, cross-fitting)和 高阶影响函数(HOIF)之擅长领域。如需进一步深入,可对比系统研究“在 SCM 有图结构时,估计 E[Y|do(x)] 的分解策略(用目标学习 vs naïve product of factor fits)”的不同统计与计算性质。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论