ocis-2020-11-03-interview-with-donald-rubin¶

讲者: Interview with Donald Rubin
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-11-03
主题: 因果推断
视频: https://www.youtube.com/watch?v=mIjZc8Iy9KY

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告不是一篇论文的宣讲，而是一场口述史式的思想追溯——OCIS（Online Causal Inference Seminar）对唐纳德·鲁宾（Donald Rubin）的专访。因此，它不需要被定位到一个具体的子方向，而是可以被理解为一整条工作线的元叙述：潜在结果（Potential Outcomes）框架，或鲁宾因果模型（Rubin Causal Model, RCM），如何从个人直觉成长为因果推断的主流语言。

这个框架的核心追问：如何从观测数据中推断一个干预（treatment）对一个特定单位（unit）的因果效应？鲁宾的回答是：先明确定义因果效应为“潜在结果之差”——每个单位在每一种可能的干预下都有一个潜在结果，但至多只有一个能被观测到（即一个单位不可能同时处于两种处理状态），因此因果推断从根本上被重述为一个缺失数据问题（missing data problem）。这个视角使得随机化实验和观测研究在同一个语言下被统一处理。
奠基与主流路线：该框架的先驱是耐曼（Jerzy Neyman, 1923），他为随机化实验引入了潜在结果的概念。费舍尔（Ronald Fisher）的随机化检验则提供了推断的基础。鲁宾的贡献在于：
- 将潜在结果推广到观测研究（Rubin 1974, 1978）；
- 明确将分配机制（assignment mechanism）作为推论的核心——能否将因果效应识别出来，完全取决于我们对这个机制的假设（Rubin 1976）；
- 将缺失数据视角与贝叶斯推断结合（Rubin 1978）；
- 引入倾向得分（Propensity Score）作为降维工具（Rosenbaum & Rubin 1983）；
- 提出主分层（Principal Stratification）以处理部分观测的中间变量（Frangakis & Rubin 2002）。
当前frontier与这场报告的位置：鲁宾在访谈中并未停留于回顾，他明确指出了两个自己认为尚待深耕的方向：(1) 网络干扰（Network Interference）： 当单位之间的处理相互影响时（如互联网社交平台），经典SUTVA（稳定单位处理值假设）被打破，标准误和推断框架失效，他认为这是“ barely scratched the surface”。(2) 含人类主体性的因果推断： 经典框架处理的是无意识客体（inanimate objects），但人类受试者会知道自己接受的是什么处理，从而产生安慰剂效应/霍桑效应。他主张应设计包含开放标签臂（open-label arm）的多臂试验，以分离药物本身的药理学效应和安慰剂效应——这实质上是对标准双盲RCT范式在人类场景下的一种修正设计。

这场报告就站在这两个方向的交汇点：一个明确了潜在结果框架已取得的历史胜利，但更强调其作为思考锚点——用「先定义 estimand，再设计测量」的物理学直觉来审视当前的开放问题（干扰、人类意识），而非提供新理论工具的推导。

二、最小内核 / 一个最简例子¶

为了理解鲁宾框架（潜在结果 + 分配机制 = 缺失数据问题），我用一个最简单例子：

单位：一个病人（unit）。
处理：吃药（\(Z=1\)）vs 不吃药（\(Z=0\)）。
两个潜在结果（potential outcomes），两者都真实存在但不可能同时被观测到：
\(Y(1)\)：如果吃了药，这个人的健康结果。
\(Y(0)\)：如果没吃药，这个人的健康结果。
单位级因果效应（Unit-level Causal Effect，也叫Individual Treatment Effect, ITE）：
\(\tau = Y(1) - Y(0)\)。——这是鲁宾强调的“测量之前先定义的量”，它与我们实际做不做实验无关。
可观测数据：这个人实际吃了药还是没吃？如果吃了，我们看到 \(Y^{\text{obs}} = Y(1)\)；如果没吃，\(Y^{\text{obs}} = Y(0)\)。那个未被看到的潜在结果——\(Y(1)\) 或 \(Y(0)\)——就缺失了。
缺失数据机制（分配机制）：
随机化实验：\(Z\) 与 \(Y(0), Y(1)\) 独立——相当于数据随机缺失（MCAR）。
观测研究：\(Z\) 可能依赖于 \(Y(0), Y(1)\) ——数据非随机缺失（MNAR），所以需要假设最强的可忽略性（unconfoundedness / ignorability）：\(Z \perp (Y(0), Y(1)) \mid X\)，其中 \(X\) 是需要匹配的可观测协变量。
平均处理效应（ATE）：\(\mathbb{E}[Y(1)] - \mathbb{E}[Y(0)]\)，是典型的估计目标。

在这个例子中，鲁宾思想的精髓在于：数据采完后，ATE 的推断本质上是一个缺失数据插补问题（imputation）。你可以用匹配（matching）、回归、加权（IPW）等任何方法去填充那个缺失的潜在结果。

三、访谈主体：鲁宾讲了什么¶

[0:00–0:10] 寒暄与简介
吉多·因本斯（Guido Imbens）介绍鲁宾，称他为因果推断领域的巨人，是潜在结果框架在观测研究中的开发者。鲁宾曾与因本斯在哈佛大学共同讲授因果推断课程（约1995-1996年）。[0:00:06–0:01:30]

[0:10–0:20] 早期影响：惠勒（Wheeler）与科克伦（Cochran）
- 鲁宾在普林斯顿大学本科时上过惠勒（John Archibald Wheeler，物理学家，爱因斯坦的助手/同事）与亚伦·莱蒙尼克（Aaron Lemonick）合开的物理课。惠勒讲激励性的大框架，莱蒙尼克讲具体的细节计算。鲁宾认为这种联合教学（joint teaching）模式对不同风格的讲师互补很有价值，印象极深。[0:01:36–0:05:00]
- 他的博士导师是科克伦（William G. Cochran）——当时刚参与完1964年美国卫生总署关于吸烟与癌症的报告。科克伦从费舍尔和耐曼的视角教实验设计，但一到观测研究就全用回归，从未把潜在结果框架（随机化实验的语言）应用到观测研究中。鲁宾认为这是一个矛盾，但他觉得科克伦似乎从未意识到这一点。[0:05:06–0:07:30]
- 科克伦曾写过一本未完成的观测研究书，最终由妻子整理出版（Wiley）。科克伦没出版的原因是当时匹配计算量太大（手工矩阵求逆），而他觉得自己的手稿还有缺陷。[0:07:30–0:08:16]

[0:20–0:30] 物理学直觉与潜在结果的本体论
- 吉列姆·巴塞特（Guillaume Basse）问鲁宾对潜在结果的本体论立场。鲁宾回答道：潜在结果就像量子力学中的位置和动量——两者都存在，你可以精确测量其中任何一个，但无法同时精确测量二者。这种「先定义要测什么，再设计实验去获取」的思维方式始于他在高中学习高等物理的经历。他强调 "causal effects"（因果效应）而非"causality"（因果关系），因为 "the effect of a manipulation" 是科学可操作的，而大写的 "causality"（"what caused this?"）在他看来没有答案。[0:09:00–0:14:30]

[0:30–0:40] 1974年论文的由来与拒绝
- 鲁宾在ETS（美国教育考试服务中心，1970年代早期）工作。那时心理测量学家（如Fred Lord，Mel Novick）被"true score"（真分数）概念束缚：他们认为做任何因果推断前必须先剥离测量误差估计真分数。鲁宾认为在真正随机化实验中根本不需要管真分数——这就是他写1974年论文的动机。论文先投给《Psychometrika》，被拒——一半审稿人说“婴儿级废话”，另一半说“完全错误”。后来通过朋友发在《Journal of Educational Psychology》。[0:10:16–0:16:00]

[0:40–0:50] 耐曼（Neyman）对观测研究的保守态度
- 1980年代，鲁宾获古根海姆学者奖访伯克利，办公室紧挨耐曼。他问耐曼为什么没有把自己的潜在结果符号应用到观测研究中。耐曼回答："Oh, that's far too speculative. Let's talk about something more scientific—let's talk about the stars."（耐曼当时正热衷天文学）。[0:16:40–0:20:30]

[0:50–1:00] 倾向得分（Propensity Score）的来源
- 鲁宾为心理学家朱恩·雷尼施（June Reinisch）做咨询，她用丹麦出生队列数据研究子宫内激素/巴比妥暴露对儿童人格的影响。匹配需要考虑很多二分协变量（如性别、特定的罕见医学状况）。精确匹配会极大幅度缩减样本量。在那个真实问题的驱动下，他和研究生保罗·罗森鲍姆（Paul Rosenbaum）提出了用倾向得分作为匹配的降维统计量。鲁宾强调：这篇1983年论文完全来自一个具体项目的实际问题，不是先在脑子里想出来的理论。[0:28:30–0:33:00]

[1:00–1:10] 主分层（Principal Stratification）与对特殊方法的看法
- 康斯坦丁·弗兰加基斯（Constantine Frangakis）是他另一个出色的学生。主分层的思想是对工具变量（IV）的推广——在一个部分观测的隐变量上分层。鲁宾认为它天然桥接了因果推断和缺失数据。[0:33:00–0:35:30]
- 因本斯谈到差分中的差分（Diff-in-Diff）、断点回归（RDD）等特殊方法在经济学的流行。鲁宾表示：他本质上不喜欢特殊案例——他的大脑是“简单的”，只关心一个大单位（因果推断 = 推断缺失潜在结果）。断点回归、差分中差分等都是特例，不是框架本身。[0:35:00–0:37:20]

[1:10–1:30] 实际应用：互联网干扰与林肯实验室项目
- 鲁宾提到和MIT林肯实验室合作的一个项目：识别俄中干预美国/欧洲选举的传播站点（suspicious accounts generating retweets）。手动调查站点归属很耗时，他们开发了自动识别方法。但核心难点是干扰（interference）——互联网上的单位不是独立的，标准误差框架（基于渐近且正态分布）在此完全失效。论文将发表在《PNAS》（[H:MM] 约[0:38:00–0:41:45]处提及，待核实）。鲁宾认为这是未来最关键的方向之一。[0:37:30–0:41:50]

[1:30–1:40] FDA/CDC的参与
- 他在FDA和CDC有多年顾问经验，参与过药物审批和循证决策。提到卡尔·佩克（Carl Peck, 前FDA高官）、马克·麦克莱伦（Mark McClellan, 前FDA专员）。他指出FDA对数据集的桥接（bridging randomized experiments with observational studies）已有改善。[0:42:30–0:46:00]

[1:40–1:55] 对因果推断“过度迷恋”的批评
- 提问者Caleb问：“社会科学中有时对因果推断太执着，已经有很多相关证据时寻找精确因果机制是否必要？”鲁宾完全同意，举了一个女性本科生的毕业论文例子：性别 vs 种族对高中抱负的影响。他认为这不是因果问题——性别和种族均不是可操作性良好的处理变量。不过，条件关联（conditional association）问题仍然有趣且可回答，“conditioning on what makes the observed association go away?”。它与因果的关系是：如果加上足够多的还原假设（unconfoundedness），条件关联就成了对因果机制的推断。[0:49:17–0:55:00]

[1:55–1:59] 给未来学生的建议
- 鲁宾公开推荐两个方向： 1. 网络干扰（network interference）：在上面的林肯实验室项目中已有切身经验，他认为“ barely scratched the surface”。 2. 融入人类主体性（human agency）：经典试验处理无意识客体（农学、化学），但人类受试者意识会造成安慰剂效应。他主张做多臂试验：一个开放标签臂（知道吃的是真药）+ 双盲安慰剂对照臂，来分离药理学效应与安慰剂效应。他已有相关论文发表（具体出处：某startup期刊，[0:56:30–0:59:05]提及，待核实）。[0:55:35–0:59:30]

四、对应论文与开放问题¶

对应论文（访谈中直接提及或关联的工作，均为鲁宾或其合作者的经典）：

Rubin (1974) 「Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies」, Journal of Educational Psychology, 66(5): 688–701。—— 引入潜在结果框架到观测研究。
Rosenbaum & Rubin (1983) 「The Central Role of the Propensity Score in Observational Studies for Causal Effects」, Biometrika, 70(1): 41–55。—— 倾向得分。
Frangakis & Rubin (2002) 「Principal Stratification in Causal Inference」, Biometrics, 58(1): 21–29。—— 主分层。
鲁宾提到与Jim Greiner合作的一篇论文（关于佐治亚州死刑与最高法院判决，[0:53:37–0:54:40] 提及）—— 访谈中未给出标题，待核实：
可能是 Greiner & Rubin (2011) 关于因果关系推断在法律决策中的应用（如 Journal of Law and Economics 或 Law, Probability and Risk）。
林肯实验室论文：未给出arXiv号或全称，标题含“retweets”和“elections”，将发表在《PNAS》（[0:41:45]处提及），具体题目待查。
鲁宾关于安慰剂效应与开放标签试验的论文：称为“startup journal”，具体出处待核。[0:56:30–0:59:05]

开放问题（均扎根在转写中）：

(a) 网络干扰的单位有效性：经典标准误差在干扰存在时完全失效，但「我们究竟需要什么类型的精确性（precision）」不是一个能用渐近正态简单回答的估算问题。来自[0:41:50–0:42:30]及之前关于林肯实验室的中断讨论。
(b) 处理主体意识的试验设计：标准双盲RCT的剂量确定（dose-finding）阶段忽视了开放标签使用时的安慰剂效应分离，使得实际临床用量高于必要剂量。鲁宾认为应该用多臂设计（开放标签臂 + 双盲安慰剂臂 + 双盲活性药物臂）来分离药理学效应与心理效应。来自[0:56:00–0:59:05]。
(c) “因果效应”与“条件关联”之间缺乏可操作的边界：当处理变量不具备可操作性（如性别、种族）时，什么才是合理的因果陈述？鲁宾建议切换语言问条件关联问题，但未给出一个形式化判据——这本身是一个定义/哲学开放问题。来自[0:49:17–0:55:00]对Caleb问题的回答。

Maintained by 陈星宇 · Homepage · Source on GitHub

ocis-2020-11-03-interview-with-donald-rubin¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、访谈主体：鲁宾讲了什么¶

四、对应论文与开放问题¶

评论