跳转至

Interviewer: Vanessa Didelez

讲者: Interview with Philip Dawid
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-04-04
主题: 因果推断
视频: https://youtu.be/0uFmoytcjHU

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

1.1 宏观追问

这场访谈(而非传统学术报告)追踪的是 Philip Dawid 在因果推断与数理统计基础方向近半个世纪的学术轨迹。整个访谈的底层追问是:

如何用最少的、不依赖反事实/潜在结果的假设,从(主要是观察性)数据推导出可支持决策的因果结论?

这与当前因果推断主流——潜在结果框架(Rubin 因果模型)和结构因果模型(Pearl do-calculus)——形成了鲜明对照。Dawid 终生坚持的替代方案是:基于“无扰动决策论”(Decision-theoretic approach, often called the “regime” or “decision-theoretic” approach),核心工具是他本人于 1979 年系统引入的条件独立性记号与演算

1.2 奠基与主流路线

  • 潜在结果框架(Rubin 因果模型):1970s 由 Rubin 发展,假设每个个体存在一对潜在结果 (Y(0), Y(1)),因果效应定义为二者的对比,识别依赖于不可检验的联合分布假设(如 SUTVA、一致性、可忽略性)。Dawid 自 1970 年第一次听 Rubin 演讲起就持根本性怀疑,认为潜在结果提供了不必要且难以捍卫的超结构
  • 结构因果模型(SCM)与 do-calculus(Pearl):1995 年 Pearl 在 Biometrika 发表标志性论文引入 do-calculus,使用有向无环图和结构性干预来识别因果效应。Dawid 作为该刊编辑力排众议发表了它,但在个人观点上认为 SCM 的“外生误差变量”不必要,且会将图论标记与实际因果结构混淆(“reification”)
  • 更近的折衷路线:单世界干预图(SWIGs,Richardson & Robins):试图在潜在结果框架内保留图形直觉。Dawid 认为 SWIGs 在精神上已非常接近他的决策论方法,但仍然保留了潜在结果这一“多余装饰”。

1.3 这场访谈站在哪

Dawid 的立场是一种极简的基础性挑战:他主张用两个情境下的单一响应分布(对应两种干预策略)替代潜在结果框架的双变量联合分布,并通过引入非随机“情境指示变量” 来建模干预与观察的差别。这个立场在 2000 年 JASA 论文“Causal inference without counterfactuals”中完整阐述,但至今未被主流采纳——正如访谈中 Vanessa Didelez 所言,讨论者几乎 100% 反对(除 Glenn Shafer 认为他“走不够远”)。

1.4 报告中具名的重要工作与人物(部分条目需核实人名拼写)

  • Dawid (1979) Conditional Independence in Statistical Theory, JRSS B——引入记号 “X ⟂⟂ Y | Z” 及代数演算。
  • Dawid (1984) 对 Pratt & Schlaifer 论文的讨论——首次在因果语境下使用条件独立性。
  • Dawid (2000) Causal Inference Without Counterfactuals, JASA——最完整的系统性论述。
  • Pearl (1995) Causal diagrams for empirical research, Biometrika——do-calculus 的奠基(Dawid 时任主编)。
  • Rubin (1974) Estimating causal effects of treatments in randomized and nonrandomized studies.
  • Pratt & Schlaifer (1984) On the nature and discovery of structure.
  • Richardson & Robins, Single World Intervention Graphs (SWIGs) ——Dawid 提到他们认为很接近。
  • Fisher (1935) The Design of Experiments——Dawid 建议学生从这里开始。

二、最小内核 / 一个最简例子

2.1 符号、模型与可观测数据

考虑一个个体 \( i \)(可以是未来的自己、也可以是过去的受试者)面对二值处理 \( A \in \{0,1\} \),关心结局 \( Y \)

Dawid 的决策论框架(无潜在结果)

定义两个情境(regime),由非随机指示变量 \( \sigma \) 标记: - \( \sigma = a \) 表示“我对该个体实施处理 \( A = a \)(这是一个决策或干预,非观测自然产生)”; - 在每个情境 \( \sigma = a \) 下,\( Y \) 有自己的概率分布:

\[P(Y \mid \sigma = a).\]

  • 因果 estimand(决策目标):比较两个情境下的期望损失:
    \[\text{Choose A=1 if } \mathbb{E}[L(Y) \mid \sigma = 1] < \mathbb{E}[L(Y) \mid \sigma = 0].\]
  • 可观测数据:来自研究(第三方数据),其中每个数据点有观测到的处理 \( A^{\text{obs}} \in \{0,1\} \) 和对应的结局 \( Y^{\text{obs}} \)。关键是,这些数据可能来自不同的“机制”(例如随机实验或观察性研究)。

关键假设(核心可转移条件): 1. 可交换性(Conditional Exchangeability):存在可观测协变量 \( X \),使得

\[Y \perp\!\!\!\perp A^{\text{obs}} \mid X, \sigma.\]
该假设在决策论框架下直接通过条件独立性陈述,而不需要定义潜在变量。 2. 一致性(Consistency / Stability):在每个情境 \( \sigma = a \) 下,观测值 \( Y^{\text{obs}} \)\( Y \) 同分布。即“如果我的干预恰好与数据中某个个体的实际处理一致,则该个体的结局可以代表我决策情境下的分布”。

对比潜在结果框架: - 潜在结果:需要假定 \( Y^{(\text{obs})} = Y(A^{\text{obs}}) \)(一致性),还需要假定不可检验的联合分布 \( \big(Y(0), Y(1)\big) \)。 - Dawid 框架:只涉及两个边缘分布 \( P(Y \mid \sigma = 0) \)\( P(Y \mid \sigma = 1) \),没有跨情境的联合结构。

2.2 最简特例:戴维的新冠药丸决策

  • 场景:你头痛,想决定是否吃两片阿司匹林(\( A=1 \) 吃, \( A=0 \) 不吃)。
  • 情境 1: \( \sigma = 1 \)(吃)。你认为如果吃下药,头痛在一小时内消失的概率是 0.9。
  • 情境 2: \( \sigma = 0 \)(不吃)。如果不吃,一小时内自然消失的概率是 0.3。

决策论:比较两个情境下的期望损失(假设损失函数是“是否消失”)。很自然地,吃药胜出。

  • 问题:你怎么知道 \( P(Y \mid \sigma = 1) = 0.9 \)?你只能依赖数据。但数据中,那些吃了药的人之所以吃了,可能是因为他们头痛更严重(混淆)。令 \( X = \) 头痛初始强度。若你能找到条件 \( X \) 下吃药与否是可交换的(例如,部分数据来自“随机的室友分配实验”),则可以用条件独立性写出:
    \[Y \perp\!\!\!\perp A^{\text{obs}} \mid X, \sigma.\]
    然后通过观测吃药组在条件 \( X \) 下的 \( Y \) 分布来估计 \( P(Y \mid \sigma = 1) \)不需要定义“如果吃了药的人当时不吃会怎样”这样的反事实

2.3 与工具变量 / 纵向分析的关系

Dawid 在访谈中 [0:23:05-0:23:32] 声称,许多通常需要用潜在结果 + 复杂独立性假设的问题(如 G-computation、工具变量估计)可以用同样但更直接的决策论条件独立性来解释,并称潜在结果是“枯木(dead wood)”。


三、报告主体:讲者讲了什么

以下按时间顺序标注关键内容,口语整理为结构化笔记。

[0:03:49 – 0:06:17] 条件独立性的起源

  • 动机:1970s 初参与一个医生与统计学家的联合会议,关注诊断过程中的选择性偏倚(医生诊所中患者不是随机样本)。发现选择性偏误会破坏某些依赖关系,但不会破坏另一些——这指向条件独立性。
  • 第一篇文章:Properties of Diagnostic Data Distributions(1976?),附录中首次形式化操作条件独立性,但尚未引入记号
  • [0:05:59 – 0:06:17] 关键创新:让条件独立性不限于随机变量——可以把参数、指标等非随机量放入条件中。这使得它可以用来刻画充分性、辅助性、预测充分性等统计概念,也为后来说“情境(regime)变量”预埋了基础。

[0:07:50 – 0:08:09] 理论 vs 符号的传播

  • 符号 \( \perp\!\!\perp \) 被广泛采用(节点记号,Dawid 1979)。但背后的演算理论(图学属性、分解规则等) 未被广泛接受。Dawid 感觉大多数人只在图形模型语境下用到它(作为图切分解),而忽略了纯代数/非图形语境下的威力。Vanessa 补充:Pearl 后来独立发展出“graphoids”。

[0:08:51 – 0:10:47] 为什么没更早出现?

  • 之前只有 T. Fine 等人讨论过边缘独立性的抽象性质,但边缘独立性本身太弱无法产生丰富理论。条件独立性让代数演算变得有意义和丰富。Dawid 认为这是一个“时机问题”。

[0:10:49 – 0:14:07] 踏入因果推断:1970 年遇 Rubin 演讲

  • Rubin 演讲潜在结果(1970 年,发表前 3 年)。Dawid 当场觉得这是错的——这是一种“古怪的思考方式”。此后终身争辩。
  • [0:11:59 – 0:12:43] 1984 年对 Pratt & Schlaifer 论文的讨论——首次有条件独立性地使用这些概念处理因果问题。
  • [0:13:03 – 0:14:07] 通过与 Pearl 的个人互动(图模型工作)逐步深入因果推断,同时持钦佩与怀疑:钦佩图论与 do-calculus 的精确性,怀疑外生误差变量和结构因果模型的必要性。

[0:14:14 – 0:16:14] 作为 Biometrika 主编与 Pearl 1995 论文

  • Guido Imbens(不能到现场)通过主持人提问:Dawid 在审稿意见几乎全部负面(审稿人包括 Imbens)情况下,仍决定发表 Pearl 1995 Biometrika 论文,并邀请审稿人写评论与论文同时刊登——这在 Biometrika 历史上是第一次。Dawid 认为这是“高光时刻”,理由是内容非常出色,负面意见恰恰是讨论的一部分,而非拒绝的原因。

[0:16:15 – 0:17:27] 编辑轶事:摆纸质校样安排卷期叙事流

  • 在电子投稿出现前,Dawid 会把每一期所有论文的纸版校样铺在地板上反复排列顺序,使整卷顺序形成一条连贯的叙述流。他认为在线出版破坏了这种“上下文叙事”。

[0:17:42 – 0:23:33] 「无反事实的因果推断」核心

  • 起点:Dawid 和 Rubin 唯一共识是“反事实”一词的误用;大多数所谓“反事实”实际是“潜在响应”,而真正的反事实要求已知事实相反。
  • [0:19:11 – 0:21:33] 决策论视角:因果推断是为辅助决策。决策所需的只是两个情境下个体结局 Y 的边缘分布\( P(Y \mid \sigma = \text{treat}) \)\( P(Y \mid \sigma = \text{control}) \)。不需要 bivariate 潜在结果分布。
  • [0:21:35 – 0:23:33] 潜在结果框架提供了“不必要的额外结构”——你不需要知道“这个特定治疗个体如果没接受治疗会怎样”,只需要知道接受治疗的那些人的结果(来估计 \( \sigma = \text{treat} \) 的分布)与未接受治疗的那些人的结果(来估计 \( \sigma = \text{control} \) 的分布)。
  • [0:22:48 – 0:23:33] 声称许多方法(如 Robins G-computation、工具变量)所用的大量复杂假设,在其框架下可由更直接的路径获得——潜在结果是“枯木”。主持人提及 SWIGs,Dawid 说它与自己很近,但仍保留潜在结果这一“额外装饰”。

[0:25:36 – 0:28:05] 贝叶斯与因果推断的关系

  • Dawid 是主观贝叶斯学派(受 de Finetti 直接影响),但承认贝叶斯方法与因果推断“有点正交”——贝叶斯自然地条件于一切,而因果推断需要明确建模处理分配机制,这两者冲突。而且因果推断常是半/非参数的,贝叶斯处理非参数模型困难(虽已有贝叶斯半参数方法)。他谨慎地说“或许会有人破解这个难题”。

[0:28:15 – 0:34:50] 决策论图模型 vs 传统因果图

  • 核心主张:用同一个 DAG 来做纯联想表示因果表示会导致混淆(“reification”)。
  • Dawid 的解决方案:在 DAG 中显式添加非随机的干预指示器节点。这些节点直接指出哪些变量被干预、哪些自然发生。这样图一眼就能看出是因果还是联想。
  • 在扩展图上应用标准 d-separation 语义(普通条件独立性),即可直接读出可识别性条件——不需要 do-算子。
  • 不要求每个变量都可干预(这是与 Pearl SCM 的重要差异:未干预节点不需要对应一个可操作的干预)。
  • [0:31:52 – 0:32:45] 对 Pearl SCM 中外生误差的批评:认为这些误差变量“没有意义”——对分析没有贡献,且导致反事实推理时的歧义。
  • [0:32:50 – 0:34:50] reification 警告:因果发现算法从协方差结构学到的 DAG 本质上只是条件独立性关系的无方向表征(所有概率关系是对称的),但画出来的箭头有方向,人们很自然地会赋予它因果含义——这是把地图描绘的便捷工具当成了实际地形(contour lines 类比)。

[0:34:53 – 0:36:54] Knightian 不确定性 / 无数据时的决策

  • 立场:单一概率类型论(所有不确定性都是概率。频率概率是主观概率在极限(大规模可交换数据)下的特例)。没有数据时,我们只能依赖主观意见——但理想情况下应使用与决策情境可交换的数据库。

[0:36:54 – 0:38:55] 思想的演变 vs 坚持

  • 基本方向早在年轻时已定(在 UCL Lindley / de Finetti 影响下)。因果推断方面从纯实验场景扩展到观察性数据,但核心框架(决策论 + 条件独立性)没变。

[0:38:55 – 0:43:55] 法医 / 法律问题与“原因的结果”(Causes of Effects)

  • [0:40:22 – 0:41:41] 因缘进入法律统计:UCL 法学教授 Twining 出席其就职讲座后寻求合作。
  • [0:41:50 – 0:43:55] 核心区分:通常科学因果关心“效应的原因”(EoC, 评估干预对群体的平均效应),法律因果关心“原因的结果”(CoE, 对某一具体个体回溯:是否【但-因】这个药造成了副作用)。CoE 涉及真正的反事实(已知该个体服药且发生了副作用,问如果没有会发生什么)。Dawid 认为这是完全不同的、远困难的问题,目前理解很差。

[0:43:55 – 0:45:39] CoE 的识别困难

  • 即使有大量实验数据,个体水平的 CoE 也无法点识别,只能得到边界。Dawid 做过相关边界工作,Pearl 组也做过,但这是一个“理解极不充分”的领域。

[0:45:39 – 0:48:14] 对机器学习与大数据在因果推断中作用的看法

  • 谨慎乐观。因果发现(大规模扫描结构)是个好假设生成工具——但必须与实验/干预数据结合才能真正得出因果理解。纯粹观察性数据的大规模因果发现有 reification 风险。

[0:48:14 – 0:50:15] 最喜欢的贡献 & 因果推断的最大成功故事

  • 最爱:1979 条件独立性论文,因为它奠定了他几乎所有后续工作的基础。
  • 最成功因果应用:Doll & Hill 证明吸烟导致肺癌(1950s)。它没有使用任何现代的因果推断理论,靠的是多项研究的三角验证(triage of evidence)。Dawid 以此反问:现代因果理论有无大成功?他说应该有,但第一个想到的还是 Doll & Hill。

[0:50:16 – 0:51:11] 给学生的建议

  • 警惕“花车(bandwagons)”。热点方向虽诱人,但大量的人在做,很难留下大印记,而且有可能突然“脱离正道”。他建议有主见、保持个人独特视角。
  • [0:50:28 – 0:50:53] 首选阅读:Fisher(1935),从实验设计开始。实验是一切因果推断的基础;如果对实验环境下的因果理解不扎实,不应过早跳入观察性研究的复杂问题。

[0:51:42 – 0:53:34] 对当前的怀疑 & 与 “effects of causes” 方向

  • 对将个人水平效益/危害用反事实术语(如个体治疗效应分布)来指导医疗决策的趋势持怀疑——这是花车,认为这会“出轨”。他认为简单的决策论工具已经足够,添加额外结构无益。

[0:55:05 – 0:56:07] 选择性推理(Selective Inference)

  • 贝叶斯(条件于“已选择的事实”)与频率方法(需建模选择过程)有根本差异。贝叶斯方法在原理上简单,但对先验极其敏感,尤其在高选择压力下,实际操作困难。

[0:56:18 – 0:57:30] 导师建议

  • 导师不必是官方指派的。他本人的正式导师是 Lindley,但真正影响他的是 Mervyn Stone。

四、对应论文与开放问题

4.1 对应论文(这场访谈中没有 README 单篇论文,但它回顾了多条工作线)

工作/年份 标题 / 标识 与访谈对应时间点
Dawid (1979) 及 companion Conditional Independence in Statistical Theory, JRSS B [0:05:59 – 0:06:17]
Dawid (2000) Causal Inference Without Counterfactuals, JASA [0:17:42 – 0:23:33]
Dawid (若干) Properties of Diagnostic Data Distributions(早期论文) [0:05:35 – 0:05:51]
Pearl (1995) Causal diagrams for empirical research, Biometrika [0:14:30 – 0:16:14]
Pratt & Schlaifer (1984) On the nature and discovery of structure(含 Dawid 讨论) [0:12:00 – 0:12:43]
Richardson & Robins (2013) Single World Intervention Graphs (SWIGs) [0:24:56 – 0:25:36]
未有具体引用 关于“causes of effects”边界的文章(Dawid, 可能与 Pearl/ Tian / Ramsahai) [0:43:55 – 0:45:39]

注意:可能有个别论文标题/合作者被 ASR 听错。上述标注基于领域常识。建议研究者以“Philip Dawid” + 上述年份搜索确认。

4.2 开放问题(每条根植于转写中的具体陈述)

  1. “原因的结果”(CoE)的精确识别与界问题

    • 来源:[0:44:15 – 0:45:28] Dawid 称“这是一个极不理解的领域”;即使有大型实验数据,个体 CoE 也只能得到边界。粗的经验边界已知(如 bounds by Dawid, 或 by Pearl 等),但在什么样的半参数/非参数假设下可以得到更紧的界或部分识别?如何将多个来源的证据整合到 CoE 估计中? 这与研究者对识别理论的兴趣直接相关。
  2. 决策论框架(无潜在结果)在全非参数模型下的效率理论

    • 来源:[0:23:05 – 0:23:33] Dawid 声称许多现有方法可以用更直接的路径实现,但他没有给出机器学习时代的标准半参数效率分析(如 TMLE、DML 使用的 IF、交叉拟合)。是否存在移植了“情境变量”条件独立性的高效估计量?它的 eficient influence function 会简化还是复杂化?这直接关联到研究者对“debiased ML, semiparametric efficiency bounds”的兴趣。
  3. 贝叶斯因果推断中的先验敏感性

    • 来源:[0:25:36 – 0:28:05] Dawid 说贝叶斯在因果推断中用起来“正交”,且易受先验影响。具体哪些因果估量对先验最敏感?是否可以发展出influence function类的贝叶斯后验稳健性诊断(类似 frequentist sensitivity analysis)? 这对研究者的“sensitivity analysis”兴趣形成跨界对话。
  4. 条件独立性演算在非图模型(如 U-statistic 估计量)中的潜在利用

    • 来源:[0:07:50 – 0:08:09] Dawid 说符号很流行但理论(代数演算)未被广泛采纳。研究者的高阶 U 统计量 / 张量积计算中经常需要处理多项式形式的条件期望结构——条件独立性的代数演算(分解、收缩、消除规则)能否系统化地用于降低高阶 U 统计量的计算复杂度(类似于图切树宽对张量收缩的加速)? 这几乎是研究者技术军火库的直接匹配(einsum + 树宽 vs 条件独立性代数)。
  5. “决策论”重构长期推断(Longitudinal / sequential treatment)

    • 来源:[0:23:15 – 0:23:33] Dawid 说一切用潜在结果做的(G-computation, IV, etc.)他的框架都能做。但目前主流纵向因果推断(G-formula, A-learning, 构造纵向 IPW)几乎全部依附于潜在结果。严格将“情境变量”引入连续时间或序贯决策的马氏决策过程(MDP)中,能否导出比现有更清洁的 identification 条件或更简单的 g-computation 公式? 这是个开放且未充分探索的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论