Interviewer: Vanessa Didelez¶

讲者: Interview with Philip Dawid
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-04-04
主题: 因果推断
视频: https://youtu.be/0uFmoytcjHU

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

1.1 宏观追问¶

这场访谈（而非传统学术报告）追踪的是 Philip Dawid 在因果推断与数理统计基础方向近半个世纪的学术轨迹。整个访谈的底层追问是：

如何用最少的、不依赖反事实/潜在结果的假设，从（主要是观察性）数据推导出可支持决策的因果结论？

这与当前因果推断主流——潜在结果框架（Rubin 因果模型）和结构因果模型（Pearl do-calculus）——形成了鲜明对照。Dawid 终生坚持的替代方案是：基于“无扰动决策论”（Decision-theoretic approach, often called the “regime” or “decision-theoretic” approach），核心工具是他本人于 1979 年系统引入的条件独立性记号与演算。

1.2 奠基与主流路线¶

潜在结果框架（Rubin 因果模型）：1970s 由 Rubin 发展，假设每个个体存在一对潜在结果 (Y(0), Y(1))，因果效应定义为二者的对比，识别依赖于不可检验的联合分布假设（如 SUTVA、一致性、可忽略性）。Dawid 自 1970 年第一次听 Rubin 演讲起就持根本性怀疑，认为潜在结果提供了不必要且难以捍卫的超结构。
结构因果模型（SCM）与 do-calculus（Pearl）：1995 年 Pearl 在 Biometrika 发表标志性论文引入 do-calculus，使用有向无环图和结构性干预来识别因果效应。Dawid 作为该刊编辑力排众议发表了它，但在个人观点上认为 SCM 的“外生误差变量”不必要，且会将图论标记与实际因果结构混淆（“reification”）。
更近的折衷路线：单世界干预图（SWIGs，Richardson & Robins）：试图在潜在结果框架内保留图形直觉。Dawid 认为 SWIGs 在精神上已非常接近他的决策论方法，但仍然保留了潜在结果这一“多余装饰”。

1.3 这场访谈站在哪¶

Dawid 的立场是一种极简的基础性挑战：他主张用两个情境下的单一响应分布（对应两种干预策略）替代潜在结果框架的双变量联合分布，并通过引入非随机“情境指示变量” 来建模干预与观察的差别。这个立场在 2000 年 JASA 论文“Causal inference without counterfactuals”中完整阐述，但至今未被主流采纳——正如访谈中 Vanessa Didelez 所言，讨论者几乎 100% 反对（除 Glenn Shafer 认为他“走不够远”）。

1.4 报告中具名的重要工作与人物（部分条目需核实人名拼写）¶

Dawid (1979) Conditional Independence in Statistical Theory, JRSS B——引入记号 “X ⟂⟂ Y | Z” 及代数演算。
Dawid (1984) 对 Pratt & Schlaifer 论文的讨论——首次在因果语境下使用条件独立性。
Dawid (2000) Causal Inference Without Counterfactuals, JASA——最完整的系统性论述。
Pearl (1995) Causal diagrams for empirical research, Biometrika——do-calculus 的奠基（Dawid 时任主编）。
Rubin (1974) Estimating causal effects of treatments in randomized and nonrandomized studies.
Pratt & Schlaifer (1984) On the nature and discovery of structure.
Richardson & Robins, Single World Intervention Graphs (SWIGs) ——Dawid 提到他们认为很接近。
Fisher (1935) The Design of Experiments——Dawid 建议学生从这里开始。

二、最小内核 / 一个最简例子¶

2.1 符号、模型与可观测数据¶

考虑一个个体 \( i \)（可以是未来的自己、也可以是过去的受试者）面对二值处理 \( A \in \{0,1\} \)，关心结局 \( Y \)。

Dawid 的决策论框架（无潜在结果）：

定义两个情境（regime），由非随机指示变量 \( \sigma \) 标记： - \( \sigma = a \) 表示“我对该个体实施处理 \( A = a \)（这是一个决策或干预，非观测自然产生）”； - 在每个情境 \( \sigma = a \) 下，\( Y \) 有自己的概率分布：

\[P(Y \mid \sigma = a).\]

因果 estimand（决策目标）：比较两个情境下的期望损失：
\[\text{Choose A=1 if } \mathbb{E}[L(Y) \mid \sigma = 1] < \mathbb{E}[L(Y) \mid \sigma = 0].\]
可观测数据：来自研究（第三方数据），其中每个数据点有观测到的处理 \( A^{\text{obs}} \in \{0,1\} \) 和对应的结局 \( Y^{\text{obs}} \)。关键是，这些数据可能来自不同的“机制”（例如随机实验或观察性研究）。

关键假设（核心可转移条件）： 1. 可交换性（Conditional Exchangeability）：存在可观测协变量 \( X \)，使得

\[Y \perp\!\!\!\perp A^{\text{obs}} \mid X, \sigma.\]

该假设在决策论框架下直接通过条件独立性陈述，而不需要定义潜在变量。 2. 一致性（Consistency / Stability）：在每个情境 \( \sigma = a \) 下，观测值 \( Y^{\text{obs}} \) 与 \( Y \) 同分布。即“如果我的干预恰好与数据中某个个体的实际处理一致，则该个体的结局可以代表我决策情境下的分布”。

对比潜在结果框架： - 潜在结果：需要假定 \( Y^{(\text{obs})} = Y(A^{\text{obs}}) \)（一致性），还需要假定不可检验的联合分布 \( \big(Y(0), Y(1)\big) \)。 - Dawid 框架：只涉及两个边缘分布 \( P(Y \mid \sigma = 0) \) 与 \( P(Y \mid \sigma = 1) \)，没有跨情境的联合结构。

2.2 最简特例：戴维的新冠药丸决策¶

场景：你头痛，想决定是否吃两片阿司匹林（\( A=1 \) 吃, \( A=0 \) 不吃）。
情境 1: \( \sigma = 1 \)（吃）。你认为如果吃下药，头痛在一小时内消失的概率是 0.9。
情境 2: \( \sigma = 0 \)（不吃）。如果不吃，一小时内自然消失的概率是 0.3。

决策论：比较两个情境下的期望损失（假设损失函数是“是否消失”）。很自然地，吃药胜出。

问题：你怎么知道 \( P(Y \mid \sigma = 1) = 0.9 \)？你只能依赖数据。但数据中，那些吃了药的人之所以吃了，可能是因为他们头痛更严重（混淆）。令 \( X = \) 头痛初始强度。若你能找到条件 \( X \) 下吃药与否是可交换的（例如，部分数据来自“随机的室友分配实验”），则可以用条件独立性写出：
\[Y \perp\!\!\!\perp A^{\text{obs}} \mid X, \sigma.\]
然后通过观测吃药组在条件 \( X \) 下的 \( Y \) 分布来估计 \( P(Y \mid \sigma = 1) \)。不需要定义“如果吃了药的人当时不吃会怎样”这样的反事实。

2.3 与工具变量 / 纵向分析的关系¶

Dawid 在访谈中 [0:23:05-0:23:32] 声称，许多通常需要用潜在结果 + 复杂独立性假设的问题（如 G-computation、工具变量估计）可以用同样但更直接的决策论条件独立性来解释，并称潜在结果是“枯木（dead wood）”。

三、报告主体：讲者讲了什么¶

以下按时间顺序标注关键内容，口语整理为结构化笔记。

[0:03:49 – 0:06:17] 条件独立性的起源¶

动机：1970s 初参与一个医生与统计学家的联合会议，关注诊断过程中的选择性偏倚（医生诊所中患者不是随机样本）。发现选择性偏误会破坏某些依赖关系，但不会破坏另一些——这指向条件独立性。
第一篇文章：Properties of Diagnostic Data Distributions（1976？），附录中首次形式化操作条件独立性，但尚未引入记号。
[0:05:59 – 0:06:17] 关键创新：让条件独立性不限于随机变量——可以把参数、指标等非随机量放入条件中。这使得它可以用来刻画充分性、辅助性、预测充分性等统计概念，也为后来说“情境（regime）变量”预埋了基础。

[0:07:50 – 0:08:09] 理论 vs 符号的传播¶

符号 \( \perp\!\!\perp \) 被广泛采用（节点记号，Dawid 1979）。但背后的演算理论（图学属性、分解规则等） 未被广泛接受。Dawid 感觉大多数人只在图形模型语境下用到它（作为图切分解），而忽略了纯代数/非图形语境下的威力。Vanessa 补充：Pearl 后来独立发展出“graphoids”。

[0:08:51 – 0:10:47] 为什么没更早出现？¶

之前只有 T. Fine 等人讨论过边缘独立性的抽象性质，但边缘独立性本身太弱无法产生丰富理论。条件独立性让代数演算变得有意义和丰富。Dawid 认为这是一个“时机问题”。

[0:10:49 – 0:14:07] 踏入因果推断：1970 年遇 Rubin 演讲¶

Rubin 演讲潜在结果（1970 年，发表前 3 年）。Dawid 当场觉得这是错的——这是一种“古怪的思考方式”。此后终身争辩。
[0:11:59 – 0:12:43] 1984 年对 Pratt & Schlaifer 论文的讨论——首次有条件独立性地使用这些概念处理因果问题。
[0:13:03 – 0:14:07] 通过与 Pearl 的个人互动（图模型工作）逐步深入因果推断，同时持钦佩与怀疑：钦佩图论与 do-calculus 的精确性，怀疑外生误差变量和结构因果模型的必要性。

[0:14:14 – 0:16:14] 作为 Biometrika 主编与 Pearl 1995 论文¶

Guido Imbens（不能到现场）通过主持人提问：Dawid 在审稿意见几乎全部负面（审稿人包括 Imbens）情况下，仍决定发表 Pearl 1995 Biometrika 论文，并邀请审稿人写评论与论文同时刊登——这在 Biometrika 历史上是第一次。Dawid 认为这是“高光时刻”，理由是内容非常出色，负面意见恰恰是讨论的一部分，而非拒绝的原因。

[0:16:15 – 0:17:27] 编辑轶事：摆纸质校样安排卷期叙事流¶

在电子投稿出现前，Dawid 会把每一期所有论文的纸版校样铺在地板上反复排列顺序，使整卷顺序形成一条连贯的叙述流。他认为在线出版破坏了这种“上下文叙事”。

[0:17:42 – 0:23:33] 「无反事实的因果推断」核心¶

起点：Dawid 和 Rubin 唯一共识是“反事实”一词的误用；大多数所谓“反事实”实际是“潜在响应”，而真正的反事实要求已知事实相反。
[0:19:11 – 0:21:33] 决策论视角：因果推断是为辅助决策。决策所需的只是两个情境下个体结局 Y 的边缘分布：\( P(Y \mid \sigma = \text{treat}) \) 和 \( P(Y \mid \sigma = \text{control}) \)。不需要 bivariate 潜在结果分布。
[0:21:35 – 0:23:33] 潜在结果框架提供了“不必要的额外结构”——你不需要知道“这个特定治疗个体如果没接受治疗会怎样”，只需要知道接受治疗的那些人的结果（来估计 \( \sigma = \text{treat} \) 的分布）与未接受治疗的那些人的结果（来估计 \( \sigma = \text{control} \) 的分布）。
[0:22:48 – 0:23:33] 声称许多方法（如 Robins G-computation、工具变量）所用的大量复杂假设，在其框架下可由更直接的路径获得——潜在结果是“枯木”。主持人提及 SWIGs，Dawid 说它与自己很近，但仍保留潜在结果这一“额外装饰”。

[0:25:36 – 0:28:05] 贝叶斯与因果推断的关系¶

Dawid 是主观贝叶斯学派（受 de Finetti 直接影响），但承认贝叶斯方法与因果推断“有点正交”——贝叶斯自然地条件于一切，而因果推断需要明确建模处理分配机制，这两者冲突。而且因果推断常是半/非参数的，贝叶斯处理非参数模型困难（虽已有贝叶斯半参数方法）。他谨慎地说“或许会有人破解这个难题”。

[0:28:15 – 0:34:50] 决策论图模型 vs 传统因果图¶

核心主张：用同一个 DAG 来做纯联想表示和因果表示会导致混淆（“reification”）。
Dawid 的解决方案：在 DAG 中显式添加非随机的干预指示器节点。这些节点直接指出哪些变量被干预、哪些自然发生。这样图一眼就能看出是因果还是联想。
在扩展图上应用标准 d-separation 语义（普通条件独立性），即可直接读出可识别性条件——不需要 do-算子。
不要求每个变量都可干预（这是与 Pearl SCM 的重要差异：未干预节点不需要对应一个可操作的干预）。
[0:31:52 – 0:32:45] 对 Pearl SCM 中外生误差的批评：认为这些误差变量“没有意义”——对分析没有贡献，且导致反事实推理时的歧义。
[0:32:50 – 0:34:50] reification 警告：因果发现算法从协方差结构学到的 DAG 本质上只是条件独立性关系的无方向表征（所有概率关系是对称的），但画出来的箭头有方向，人们很自然地会赋予它因果含义——这是把地图描绘的便捷工具当成了实际地形（contour lines 类比）。

[0:34:53 – 0:36:54] Knightian 不确定性 / 无数据时的决策¶

立场：单一概率类型论（所有不确定性都是概率。频率概率是主观概率在极限（大规模可交换数据）下的特例）。没有数据时，我们只能依赖主观意见——但理想情况下应使用与决策情境可交换的数据库。

[0:36:54 – 0:38:55] 思想的演变 vs 坚持¶

基本方向早在年轻时已定（在 UCL Lindley / de Finetti 影响下）。因果推断方面从纯实验场景扩展到观察性数据，但核心框架（决策论 + 条件独立性）没变。

[0:38:55 – 0:43:55] 法医 / 法律问题与“原因的结果”（Causes of Effects）¶

[0:40:22 – 0:41:41] 因缘进入法律统计：UCL 法学教授 Twining 出席其就职讲座后寻求合作。
[0:41:50 – 0:43:55] 核心区分：通常科学因果关心“效应的原因”（EoC, 评估干预对群体的平均效应），法律因果关心“原因的结果”（CoE, 对某一具体个体回溯：是否【但-因】这个药造成了副作用）。CoE 涉及真正的反事实（已知该个体服药且发生了副作用，问如果没有会发生什么）。Dawid 认为这是完全不同的、远困难的问题，目前理解很差。

[0:43:55 – 0:45:39] CoE 的识别困难¶

即使有大量实验数据，个体水平的 CoE 也无法点识别，只能得到边界。Dawid 做过相关边界工作，Pearl 组也做过，但这是一个“理解极不充分”的领域。

[0:45:39 – 0:48:14] 对机器学习与大数据在因果推断中作用的看法¶

谨慎乐观。因果发现（大规模扫描结构）是个好假设生成工具——但必须与实验/干预数据结合才能真正得出因果理解。纯粹观察性数据的大规模因果发现有 reification 风险。

[0:48:14 – 0:50:15] 最喜欢的贡献 & 因果推断的最大成功故事¶

最爱：1979 条件独立性论文，因为它奠定了他几乎所有后续工作的基础。
最成功因果应用：Doll & Hill 证明吸烟导致肺癌（1950s）。它没有使用任何现代的因果推断理论，靠的是多项研究的三角验证（triage of evidence）。Dawid 以此反问：现代因果理论有无大成功？他说应该有，但第一个想到的还是 Doll & Hill。

[0:50:16 – 0:51:11] 给学生的建议¶

警惕“花车（bandwagons）”。热点方向虽诱人，但大量的人在做，很难留下大印记，而且有可能突然“脱离正道”。他建议有主见、保持个人独特视角。
[0:50:28 – 0:50:53] 首选阅读：Fisher（1935），从实验设计开始。实验是一切因果推断的基础；如果对实验环境下的因果理解不扎实，不应过早跳入观察性研究的复杂问题。

[0:51:42 – 0:53:34] 对当前的怀疑 & 与 “effects of causes” 方向¶

对将个人水平效益/危害用反事实术语（如个体治疗效应分布）来指导医疗决策的趋势持怀疑——这是花车，认为这会“出轨”。他认为简单的决策论工具已经足够，添加额外结构无益。

[0:55:05 – 0:56:07] 选择性推理（Selective Inference）¶

贝叶斯（条件于“已选择的事实”）与频率方法（需建模选择过程）有根本差异。贝叶斯方法在原理上简单，但对先验极其敏感，尤其在高选择压力下，实际操作困难。

[0:56:18 – 0:57:30] 导师建议¶

导师不必是官方指派的。他本人的正式导师是 Lindley，但真正影响他的是 Mervyn Stone。

四、对应论文与开放问题¶

4.1 对应论文（这场访谈中没有 README 单篇论文，但它回顾了多条工作线）¶

工作/年份	标题 / 标识	与访谈对应时间点
Dawid (1979) 及 companion	Conditional Independence in Statistical Theory, JRSS B	[0:05:59 – 0:06:17]
Dawid (2000)	Causal Inference Without Counterfactuals, JASA	[0:17:42 – 0:23:33]
Dawid (若干)	Properties of Diagnostic Data Distributions（早期论文）	[0:05:35 – 0:05:51]
Pearl (1995)	Causal diagrams for empirical research, Biometrika	[0:14:30 – 0:16:14]
Pratt & Schlaifer (1984)	On the nature and discovery of structure（含 Dawid 讨论）	[0:12:00 – 0:12:43]
Richardson & Robins (2013)	Single World Intervention Graphs (SWIGs)	[0:24:56 – 0:25:36]
未有具体引用	关于“causes of effects”边界的文章（Dawid, 可能与 Pearl/ Tian / Ramsahai）	[0:43:55 – 0:45:39]

注意：可能有个别论文标题/合作者被 ASR 听错。上述标注基于领域常识。建议研究者以“Philip Dawid” + 上述年份搜索确认。

4.2 开放问题（每条根植于转写中的具体陈述）¶

“原因的结果”（CoE）的精确识别与界问题
- 来源：[0:44:15 – 0:45:28] Dawid 称“这是一个极不理解的领域”；即使有大型实验数据，个体 CoE 也只能得到边界。粗的经验边界已知（如 bounds by Dawid, 或 by Pearl 等），但在什么样的半参数/非参数假设下可以得到更紧的界或部分识别？如何将多个来源的证据整合到 CoE 估计中？ 这与研究者对识别理论的兴趣直接相关。
决策论框架（无潜在结果）在全非参数模型下的效率理论
- 来源：[0:23:05 – 0:23:33] Dawid 声称许多现有方法可以用更直接的路径实现，但他没有给出机器学习时代的标准半参数效率分析（如 TMLE、DML 使用的 IF、交叉拟合）。是否存在移植了“情境变量”条件独立性的高效估计量？它的 eficient influence function 会简化还是复杂化？这直接关联到研究者对“debiased ML, semiparametric efficiency bounds”的兴趣。
贝叶斯因果推断中的先验敏感性
- 来源：[0:25:36 – 0:28:05] Dawid 说贝叶斯在因果推断中用起来“正交”，且易受先验影响。具体哪些因果估量对先验最敏感？是否可以发展出influence function类的贝叶斯后验稳健性诊断（类似 frequentist sensitivity analysis）？ 这对研究者的“sensitivity analysis”兴趣形成跨界对话。
条件独立性演算在非图模型（如 U-statistic 估计量）中的潜在利用
- 来源：[0:07:50 – 0:08:09] Dawid 说符号很流行但理论（代数演算）未被广泛采纳。研究者的高阶 U 统计量 / 张量积计算中经常需要处理多项式形式的条件期望结构——条件独立性的代数演算（分解、收缩、消除规则）能否系统化地用于降低高阶 U 统计量的计算复杂度（类似于图切树宽对张量收缩的加速）？ 这几乎是研究者技术军火库的直接匹配（einsum + 树宽 vs 条件独立性代数）。
“决策论”重构长期推断（Longitudinal / sequential treatment）
- 来源：[0:23:15 – 0:23:33] Dawid 说一切用潜在结果做的（G-computation, IV, etc.）他的框架都能做。但目前主流纵向因果推断（G-formula, A-learning, 构造纵向 IPW）几乎全部依附于潜在结果。严格将“情境变量”引入连续时间或序贯决策的马氏决策过程（MDP）中，能否导出比现有更清洁的 identification 条件或更简单的 g-computation 公式？ 这是个开放且未充分探索的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub