ocis-2020-11-03-interview-with-donald-rubin¶
讲者: Interview with Donald Rubin
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-11-03
主题: 因果推断
视频: https://www.youtube.com/watch?v=mIjZc8Iy9KY
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告不是一篇论文的宣讲,而是一场口述史式的思想追溯——OCIS(Online Causal Inference Seminar)对唐纳德·鲁宾(Donald Rubin)的专访。因此,它不需要被定位到一个具体的子方向,而是可以被理解为一整条工作线的元叙述:潜在结果(Potential Outcomes)框架,或鲁宾因果模型(Rubin Causal Model, RCM),如何从个人直觉成长为因果推断的主流语言。
-
这个框架的核心追问:如何从观测数据中推断一个干预(treatment)对一个特定单位(unit)的因果效应?鲁宾的回答是:先明确定义因果效应为“潜在结果之差”——每个单位在每一种可能的干预下都有一个潜在结果,但至多只有一个能被观测到(即一个单位不可能同时处于两种处理状态),因此因果推断从根本上被重述为一个缺失数据问题(missing data problem)。这个视角使得随机化实验和观测研究在同一个语言下被统一处理。
-
奠基与主流路线:该框架的先驱是耐曼(Jerzy Neyman, 1923),他为随机化实验引入了潜在结果的概念。费舍尔(Ronald Fisher)的随机化检验则提供了推断的基础。鲁宾的贡献在于:
- 将潜在结果推广到观测研究(Rubin 1974, 1978);
- 明确将分配机制(assignment mechanism)作为推论的核心——能否将因果效应识别出来,完全取决于我们对这个机制的假设(Rubin 1976);
- 将缺失数据视角与贝叶斯推断结合(Rubin 1978);
- 引入倾向得分(Propensity Score)作为降维工具(Rosenbaum & Rubin 1983);
- 提出主分层(Principal Stratification)以处理部分观测的中间变量(Frangakis & Rubin 2002)。
-
当前frontier与这场报告的位置:鲁宾在访谈中并未停留于回顾,他明确指出了两个自己认为尚待深耕的方向:(1) 网络干扰(Network Interference): 当单位之间的处理相互影响时(如互联网社交平台),经典SUTVA(稳定单位处理值假设)被打破,标准误和推断框架失效,他认为这是“ barely scratched the surface”。(2) 含人类主体性的因果推断: 经典框架处理的是无意识客体(inanimate objects),但人类受试者会知道自己接受的是什么处理,从而产生安慰剂效应/霍桑效应。他主张应设计包含开放标签臂(open-label arm)的多臂试验,以分离药物本身的药理学效应和安慰剂效应——这实质上是对标准双盲RCT范式在人类场景下的一种修正设计。
这场报告就站在这两个方向的交汇点:一个明确了潜在结果框架已取得的历史胜利,但更强调其作为思考锚点——用「先定义 estimand,再设计测量」的物理学直觉来审视当前的开放问题(干扰、人类意识),而非提供新理论工具的推导。
二、最小内核 / 一个最简例子¶
为了理解鲁宾框架(潜在结果 + 分配机制 = 缺失数据问题),我用一个最简单例子:
- 单位:一个病人(unit)。
- 处理:吃药(\(Z=1\))vs 不吃药(\(Z=0\))。
- 两个潜在结果(potential outcomes),两者都真实存在但不可能同时被观测到:
- \(Y(1)\):如果吃了药,这个人的健康结果。
- \(Y(0)\):如果没吃药,这个人的健康结果。
- 单位级因果效应(Unit-level Causal Effect,也叫Individual Treatment Effect, ITE):
- \(\tau = Y(1) - Y(0)\)。——这是鲁宾强调的“测量之前先定义的量”,它与我们实际做不做实验无关。
- 可观测数据:这个人实际吃了药还是没吃?如果吃了,我们看到 \(Y^{\text{obs}} = Y(1)\);如果没吃,\(Y^{\text{obs}} = Y(0)\)。那个未被看到的潜在结果——\(Y(1)\) 或 \(Y(0)\)——就缺失了。
- 缺失数据机制(分配机制):
- 随机化实验:\(Z\) 与 \(Y(0), Y(1)\) 独立——相当于数据随机缺失(MCAR)。
- 观测研究:\(Z\) 可能依赖于 \(Y(0), Y(1)\) ——数据非随机缺失(MNAR),所以需要假设最强的可忽略性(unconfoundedness / ignorability):\(Z \perp (Y(0), Y(1)) \mid X\),其中 \(X\) 是需要匹配的可观测协变量。
- 平均处理效应(ATE):\(\mathbb{E}[Y(1)] - \mathbb{E}[Y(0)]\),是典型的估计目标。
在这个例子中,鲁宾思想的精髓在于:数据采完后,ATE 的推断本质上是一个缺失数据插补问题(imputation)。你可以用匹配(matching)、回归、加权(IPW)等任何方法去填充那个缺失的潜在结果。
三、访谈主体:鲁宾讲了什么¶
[0:00–0:10] 寒暄与简介
吉多·因本斯(Guido Imbens)介绍鲁宾,称他为因果推断领域的巨人,是潜在结果框架在观测研究中的开发者。鲁宾曾与因本斯在哈佛大学共同讲授因果推断课程(约1995-1996年)。[0:00:06–0:01:30]
[0:10–0:20] 早期影响:惠勒(Wheeler)与科克伦(Cochran)
- 鲁宾在普林斯顿大学本科时上过惠勒(John Archibald Wheeler,物理学家,爱因斯坦的助手/同事)与亚伦·莱蒙尼克(Aaron Lemonick)合开的物理课。惠勒讲激励性的大框架,莱蒙尼克讲具体的细节计算。鲁宾认为这种联合教学(joint teaching)模式对不同风格的讲师互补很有价值,印象极深。[0:01:36–0:05:00]
- 他的博士导师是科克伦(William G. Cochran)——当时刚参与完1964年美国卫生总署关于吸烟与癌症的报告。科克伦从费舍尔和耐曼的视角教实验设计,但一到观测研究就全用回归,从未把潜在结果框架(随机化实验的语言)应用到观测研究中。鲁宾认为这是一个矛盾,但他觉得科克伦似乎从未意识到这一点。[0:05:06–0:07:30]
- 科克伦曾写过一本未完成的观测研究书,最终由妻子整理出版(Wiley)。科克伦没出版的原因是当时匹配计算量太大(手工矩阵求逆),而他觉得自己的手稿还有缺陷。[0:07:30–0:08:16]
[0:20–0:30] 物理学直觉与潜在结果的本体论
- 吉列姆·巴塞特(Guillaume Basse)问鲁宾对潜在结果的本体论立场。鲁宾回答道:潜在结果就像量子力学中的位置和动量——两者都存在,你可以精确测量其中任何一个,但无法同时精确测量二者。这种「先定义要测什么,再设计实验去获取」的思维方式始于他在高中学习高等物理的经历。他强调 "causal effects"(因果效应)而非"causality"(因果关系),因为 "the effect of a manipulation" 是科学可操作的,而大写的 "causality"("what caused this?")在他看来没有答案。[0:09:00–0:14:30]
[0:30–0:40] 1974年论文的由来与拒绝
- 鲁宾在ETS(美国教育考试服务中心,1970年代早期)工作。那时心理测量学家(如Fred Lord,Mel Novick)被"true score"(真分数)概念束缚:他们认为做任何因果推断前必须先剥离测量误差估计真分数。鲁宾认为在真正随机化实验中根本不需要管真分数——这就是他写1974年论文的动机。论文先投给《Psychometrika》,被拒——一半审稿人说“婴儿级废话”,另一半说“完全错误”。后来通过朋友发在《Journal of Educational Psychology》。[0:10:16–0:16:00]
[0:40–0:50] 耐曼(Neyman)对观测研究的保守态度
- 1980年代,鲁宾获古根海姆学者奖访伯克利,办公室紧挨耐曼。他问耐曼为什么没有把自己的潜在结果符号应用到观测研究中。耐曼回答:"Oh, that's far too speculative. Let's talk about something more scientific—let's talk about the stars."(耐曼当时正热衷天文学)。[0:16:40–0:20:30]
[0:50–1:00] 倾向得分(Propensity Score)的来源
- 鲁宾为心理学家朱恩·雷尼施(June Reinisch)做咨询,她用丹麦出生队列数据研究子宫内激素/巴比妥暴露对儿童人格的影响。匹配需要考虑很多二分协变量(如性别、特定的罕见医学状况)。精确匹配会极大幅度缩减样本量。在那个真实问题的驱动下,他和研究生保罗·罗森鲍姆(Paul Rosenbaum)提出了用倾向得分作为匹配的降维统计量。鲁宾强调:这篇1983年论文完全来自一个具体项目的实际问题,不是先在脑子里想出来的理论。[0:28:30–0:33:00]
[1:00–1:10] 主分层(Principal Stratification)与对特殊方法的看法
- 康斯坦丁·弗兰加基斯(Constantine Frangakis)是他另一个出色的学生。主分层的思想是对工具变量(IV)的推广——在一个部分观测的隐变量上分层。鲁宾认为它天然桥接了因果推断和缺失数据。[0:33:00–0:35:30]
- 因本斯谈到差分中的差分(Diff-in-Diff)、断点回归(RDD)等特殊方法在经济学的流行。鲁宾表示:他本质上不喜欢特殊案例——他的大脑是“简单的”,只关心一个大单位(因果推断 = 推断缺失潜在结果)。断点回归、差分中差分等都是特例,不是框架本身。[0:35:00–0:37:20]
[1:10–1:30] 实际应用:互联网干扰与林肯实验室项目
- 鲁宾提到和MIT林肯实验室合作的一个项目:识别俄中干预美国/欧洲选举的传播站点(suspicious accounts generating retweets)。手动调查站点归属很耗时,他们开发了自动识别方法。但核心难点是干扰(interference)——互联网上的单位不是独立的,标准误差框架(基于渐近且正态分布)在此完全失效。论文将发表在《PNAS》([H:MM] 约[0:38:00–0:41:45]处提及,待核实)。鲁宾认为这是未来最关键的方向之一。[0:37:30–0:41:50]
[1:30–1:40] FDA/CDC的参与
- 他在FDA和CDC有多年顾问经验,参与过药物审批和循证决策。提到卡尔·佩克(Carl Peck, 前FDA高官)、马克·麦克莱伦(Mark McClellan, 前FDA专员)。他指出FDA对数据集的桥接(bridging randomized experiments with observational studies)已有改善。[0:42:30–0:46:00]
[1:40–1:55] 对因果推断“过度迷恋”的批评
- 提问者Caleb问:“社会科学中有时对因果推断太执着,已经有很多相关证据时寻找精确因果机制是否必要?”鲁宾完全同意,举了一个女性本科生的毕业论文例子:性别 vs 种族对高中抱负的影响。他认为这不是因果问题——性别和种族均不是可操作性良好的处理变量。不过,条件关联(conditional association)问题仍然有趣且可回答,“conditioning on what makes the observed association go away?”。它与因果的关系是:如果加上足够多的还原假设(unconfoundedness),条件关联就成了对因果机制的推断。[0:49:17–0:55:00]
[1:55–1:59] 给未来学生的建议
- 鲁宾公开推荐两个方向:
1. 网络干扰(network interference):在上面的林肯实验室项目中已有切身经验,他认为“ barely scratched the surface”。
2. 融入人类主体性(human agency):经典试验处理无意识客体(农学、化学),但人类受试者意识会造成安慰剂效应。他主张做多臂试验:一个开放标签臂(知道吃的是真药)+ 双盲安慰剂对照臂,来分离药理学效应与安慰剂效应。他已有相关论文发表(具体出处:某startup期刊,[0:56:30–0:59:05]提及,待核实)。[0:55:35–0:59:30]
四、对应论文与开放问题¶
对应论文(访谈中直接提及或关联的工作,均为鲁宾或其合作者的经典):
- Rubin (1974) 「Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies」, Journal of Educational Psychology, 66(5): 688–701。—— 引入潜在结果框架到观测研究。
- Rosenbaum & Rubin (1983) 「The Central Role of the Propensity Score in Observational Studies for Causal Effects」, Biometrika, 70(1): 41–55。—— 倾向得分。
- Frangakis & Rubin (2002) 「Principal Stratification in Causal Inference」, Biometrics, 58(1): 21–29。—— 主分层。
- 鲁宾提到与Jim Greiner合作的一篇论文(关于佐治亚州死刑与最高法院判决,[0:53:37–0:54:40] 提及)—— 访谈中未给出标题,待核实:
- 可能是 Greiner & Rubin (2011) 关于因果关系推断在法律决策中的应用(如 Journal of Law and Economics 或 Law, Probability and Risk)。
- 林肯实验室论文:未给出arXiv号或全称,标题含“retweets”和“elections”,将发表在《PNAS》([0:41:45]处提及),具体题目待查。
- 鲁宾关于安慰剂效应与开放标签试验的论文:称为“startup journal”,具体出处待核。[0:56:30–0:59:05]
开放问题(均扎根在转写中):
- (a) 网络干扰的单位有效性:经典标准误差在干扰存在时完全失效,但「我们究竟需要什么类型的精确性(precision)」不是一个能用渐近正态简单回答的估算问题。来自[0:41:50–0:42:30]及之前关于林肯实验室的中断讨论。
- (b) 处理主体意识的试验设计:标准双盲RCT的剂量确定(dose-finding)阶段忽视了开放标签使用时的安慰剂效应分离,使得实际临床用量高于必要剂量。鲁宾认为应该用多臂设计(开放标签臂 + 双盲安慰剂臂 + 双盲活性药物臂)来分离药理学效应与心理效应。来自[0:56:00–0:59:05]。
- (c) “因果效应”与“条件关联”之间缺乏可操作的边界:当处理变量不具备可操作性(如性别、种族)时,什么才是合理的因果陈述?鲁宾建议切换语言问条件关联问题,但未给出一个形式化判据——这本身是一个定义/哲学开放问题。来自[0:49:17–0:55:00]对Caleb问题的回答。
Maintained by 陈星宇 · Homepage · Source on GitHub