跳转至

ocis-2020-11-03-interview-with-donald-rubin

讲者: Interview with Donald Rubin
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-11-03
主题: 因果推断
视频: https://www.youtube.com/watch?v=mIjZc8Iy9KY

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告不是一篇论文的宣讲,而是一场口述史式的思想追溯——OCIS(Online Causal Inference Seminar)对唐纳德·鲁宾(Donald Rubin)的专访。因此,它不需要被定位到一个具体的子方向,而是可以被理解为一整条工作线的元叙述潜在结果(Potential Outcomes)框架,或鲁宾因果模型(Rubin Causal Model, RCM),如何从个人直觉成长为因果推断的主流语言

  • 这个框架的核心追问:如何从观测数据中推断一个干预(treatment)对一个特定单位(unit)的因果效应?鲁宾的回答是:先明确定义因果效应为“潜在结果之差”——每个单位在每一种可能的干预下都有一个潜在结果,但至多只有一个能被观测到(即一个单位不可能同时处于两种处理状态),因此因果推断从根本上被重述为一个缺失数据问题(missing data problem)。这个视角使得随机化实验和观测研究在同一个语言下被统一处理。

  • 奠基与主流路线:该框架的先驱是耐曼(Jerzy Neyman, 1923),他为随机化实验引入了潜在结果的概念。费舍尔(Ronald Fisher)的随机化检验则提供了推断的基础。鲁宾的贡献在于:

    • 将潜在结果推广到观测研究(Rubin 1974, 1978);
    • 明确将分配机制(assignment mechanism)作为推论的核心——能否将因果效应识别出来,完全取决于我们对这个机制的假设(Rubin 1976);
    • 将缺失数据视角与贝叶斯推断结合(Rubin 1978);
    • 引入倾向得分(Propensity Score)作为降维工具(Rosenbaum & Rubin 1983);
    • 提出主分层(Principal Stratification)以处理部分观测的中间变量(Frangakis & Rubin 2002)。
  • 当前frontier与这场报告的位置:鲁宾在访谈中并未停留于回顾,他明确指出了两个自己认为尚待深耕的方向:(1) 网络干扰(Network Interference): 当单位之间的处理相互影响时(如互联网社交平台),经典SUTVA(稳定单位处理值假设)被打破,标准误和推断框架失效,他认为这是“ barely scratched the surface”。(2) 含人类主体性的因果推断: 经典框架处理的是无意识客体(inanimate objects),但人类受试者会知道自己接受的是什么处理,从而产生安慰剂效应/霍桑效应。他主张应设计包含开放标签臂(open-label arm)的多臂试验,以分离药物本身的药理学效应和安慰剂效应——这实质上是对标准双盲RCT范式在人类场景下的一种修正设计

这场报告就站在这两个方向的交汇点:一个明确了潜在结果框架已取得的历史胜利,但更强调其作为思考锚点——用「先定义 estimand,再设计测量」的物理学直觉来审视当前的开放问题(干扰、人类意识),而非提供新理论工具的推导。

二、最小内核 / 一个最简例子

为了理解鲁宾框架(潜在结果 + 分配机制 = 缺失数据问题),我用一个最简单例子:

  • 单位:一个病人(unit)。
  • 处理:吃药(\(Z=1\))vs 不吃药(\(Z=0\))。
  • 两个潜在结果(potential outcomes),两者都真实存在但不可能同时被观测到
  • \(Y(1)\):如果吃了药,这个人的健康结果。
  • \(Y(0)\):如果没吃药,这个人的健康结果。
  • 单位级因果效应(Unit-level Causal Effect,也叫Individual Treatment Effect, ITE)
  • \(\tau = Y(1) - Y(0)\)。——这是鲁宾强调的“测量之前先定义的量”,它与我们实际做不做实验无关
  • 可观测数据:这个人实际吃了药还是没吃?如果吃了,我们看到 \(Y^{\text{obs}} = Y(1)\);如果没吃,\(Y^{\text{obs}} = Y(0)\)。那个未被看到的潜在结果——\(Y(1)\)\(Y(0)\)——就缺失了
  • 缺失数据机制(分配机制)
  • 随机化实验\(Z\)\(Y(0), Y(1)\) 独立——相当于数据随机缺失(MCAR)。
  • 观测研究\(Z\) 可能依赖于 \(Y(0), Y(1)\) ——数据非随机缺失(MNAR),所以需要假设最强的可忽略性(unconfoundedness / ignorability)\(Z \perp (Y(0), Y(1)) \mid X\),其中 \(X\) 是需要匹配的可观测协变量。
  • 平均处理效应(ATE)\(\mathbb{E}[Y(1)] - \mathbb{E}[Y(0)]\),是典型的估计目标。

在这个例子中,鲁宾思想的精髓在于:数据采完后,ATE 的推断本质上是一个缺失数据插补问题(imputation)。你可以用匹配(matching)、回归、加权(IPW)等任何方法去填充那个缺失的潜在结果。

三、访谈主体:鲁宾讲了什么

[0:00–0:10] 寒暄与简介
吉多·因本斯(Guido Imbens)介绍鲁宾,称他为因果推断领域的巨人,是潜在结果框架在观测研究中的开发者。鲁宾曾与因本斯在哈佛大学共同讲授因果推断课程(约1995-1996年)。[0:00:06–0:01:30]

[0:10–0:20] 早期影响:惠勒(Wheeler)与科克伦(Cochran)
- 鲁宾在普林斯顿大学本科时上过惠勒(John Archibald Wheeler,物理学家,爱因斯坦的助手/同事)与亚伦·莱蒙尼克(Aaron Lemonick)合开的物理课。惠勒讲激励性的大框架,莱蒙尼克讲具体的细节计算。鲁宾认为这种联合教学(joint teaching)模式对不同风格的讲师互补很有价值,印象极深。[0:01:36–0:05:00]
- 他的博士导师是科克伦(William G. Cochran)——当时刚参与完1964年美国卫生总署关于吸烟与癌症的报告。科克伦从费舍尔和耐曼的视角教实验设计,但一到观测研究就全用回归,从未把潜在结果框架(随机化实验的语言)应用到观测研究中。鲁宾认为这是一个矛盾,但他觉得科克伦似乎从未意识到这一点。[0:05:06–0:07:30]
- 科克伦曾写过一本未完成的观测研究书,最终由妻子整理出版(Wiley)。科克伦没出版的原因是当时匹配计算量太大(手工矩阵求逆),而他觉得自己的手稿还有缺陷。[0:07:30–0:08:16]

[0:20–0:30] 物理学直觉与潜在结果的本体论
- 吉列姆·巴塞特(Guillaume Basse)问鲁宾对潜在结果的本体论立场。鲁宾回答道:潜在结果就像量子力学中的位置和动量——两者都存在,你可以精确测量其中任何一个,但无法同时精确测量二者。这种「先定义要测什么,再设计实验去获取」的思维方式始于他在高中学习高等物理的经历。他强调 "causal effects"(因果效应)而非"causality"(因果关系),因为 "the effect of a manipulation" 是科学可操作的,而大写的 "causality"("what caused this?")在他看来没有答案。[0:09:00–0:14:30]

[0:30–0:40] 1974年论文的由来与拒绝
- 鲁宾在ETS(美国教育考试服务中心,1970年代早期)工作。那时心理测量学家(如Fred Lord,Mel Novick)被"true score"(真分数)概念束缚:他们认为做任何因果推断前必须先剥离测量误差估计真分数。鲁宾认为在真正随机化实验中根本不需要管真分数——这就是他写1974年论文的动机。论文先投给《Psychometrika》,被拒——一半审稿人说“婴儿级废话”,另一半说“完全错误”。后来通过朋友发在《Journal of Educational Psychology》。[0:10:16–0:16:00]

[0:40–0:50] 耐曼(Neyman)对观测研究的保守态度
- 1980年代,鲁宾获古根海姆学者奖访伯克利,办公室紧挨耐曼。他问耐曼为什么没有把自己的潜在结果符号应用到观测研究中。耐曼回答:"Oh, that's far too speculative. Let's talk about something more scientific—let's talk about the stars."(耐曼当时正热衷天文学)。[0:16:40–0:20:30]

[0:50–1:00] 倾向得分(Propensity Score)的来源
- 鲁宾为心理学家朱恩·雷尼施(June Reinisch)做咨询,她用丹麦出生队列数据研究子宫内激素/巴比妥暴露对儿童人格的影响。匹配需要考虑很多二分协变量(如性别、特定的罕见医学状况)。精确匹配会极大幅度缩减样本量。在那个真实问题的驱动下,他和研究生保罗·罗森鲍姆(Paul Rosenbaum)提出了用倾向得分作为匹配的降维统计量。鲁宾强调:这篇1983年论文完全来自一个具体项目的实际问题,不是先在脑子里想出来的理论。[0:28:30–0:33:00]

[1:00–1:10] 主分层(Principal Stratification)与对特殊方法的看法
- 康斯坦丁·弗兰加基斯(Constantine Frangakis)是他另一个出色的学生。主分层的思想是对工具变量(IV)的推广——在一个部分观测的隐变量上分层。鲁宾认为它天然桥接了因果推断和缺失数据。[0:33:00–0:35:30]
- 因本斯谈到差分中的差分(Diff-in-Diff)、断点回归(RDD)等特殊方法在经济学的流行。鲁宾表示:他本质上不喜欢特殊案例——他的大脑是“简单的”,只关心一个大单位(因果推断 = 推断缺失潜在结果)。断点回归、差分中差分等都是特例,不是框架本身。[0:35:00–0:37:20]

[1:10–1:30] 实际应用:互联网干扰与林肯实验室项目
- 鲁宾提到和MIT林肯实验室合作的一个项目:识别俄中干预美国/欧洲选举的传播站点(suspicious accounts generating retweets)。手动调查站点归属很耗时,他们开发了自动识别方法。但核心难点是干扰(interference)——互联网上的单位不是独立的,标准误差框架(基于渐近且正态分布)在此完全失效。论文将发表在《PNAS》([H:MM] 约[0:38:00–0:41:45]处提及,待核实)。鲁宾认为这是未来最关键的方向之一。[0:37:30–0:41:50]

[1:30–1:40] FDA/CDC的参与
- 他在FDA和CDC有多年顾问经验,参与过药物审批和循证决策。提到卡尔·佩克(Carl Peck, 前FDA高官)、马克·麦克莱伦(Mark McClellan, 前FDA专员)。他指出FDA对数据集的桥接(bridging randomized experiments with observational studies)已有改善。[0:42:30–0:46:00]

[1:40–1:55] 对因果推断“过度迷恋”的批评
- 提问者Caleb问:“社会科学中有时对因果推断太执着,已经有很多相关证据时寻找精确因果机制是否必要?”鲁宾完全同意,举了一个女性本科生的毕业论文例子:性别 vs 种族对高中抱负的影响。他认为这不是因果问题——性别和种族均不是可操作性良好的处理变量。不过,条件关联(conditional association)问题仍然有趣且可回答,“conditioning on what makes the observed association go away?”。它与因果的关系是:如果加上足够多的还原假设(unconfoundedness),条件关联就成了对因果机制的推断。[0:49:17–0:55:00]

[1:55–1:59] 给未来学生的建议
- 鲁宾公开推荐两个方向: 1. 网络干扰(network interference):在上面的林肯实验室项目中已有切身经验,他认为“ barely scratched the surface”。 2. 融入人类主体性(human agency):经典试验处理无意识客体(农学、化学),但人类受试者意识会造成安慰剂效应。他主张做多臂试验:一个开放标签臂(知道吃的是真药)+ 双盲安慰剂对照臂,来分离药理学效应与安慰剂效应。他已有相关论文发表(具体出处:某startup期刊,[0:56:30–0:59:05]提及,待核实)。[0:55:35–0:59:30]

四、对应论文与开放问题

对应论文(访谈中直接提及或关联的工作,均为鲁宾或其合作者的经典)

  1. Rubin (1974) 「Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies」, Journal of Educational Psychology, 66(5): 688–701。—— 引入潜在结果框架到观测研究。
  2. Rosenbaum & Rubin (1983) 「The Central Role of the Propensity Score in Observational Studies for Causal Effects」, Biometrika, 70(1): 41–55。—— 倾向得分。
  3. Frangakis & Rubin (2002) 「Principal Stratification in Causal Inference」, Biometrics, 58(1): 21–29。—— 主分层。
  4. 鲁宾提到与Jim Greiner合作的一篇论文(关于佐治亚州死刑与最高法院判决,[0:53:37–0:54:40] 提及)—— 访谈中未给出标题,待核实:
  5. 可能是 Greiner & Rubin (2011) 关于因果关系推断在法律决策中的应用(如 Journal of Law and EconomicsLaw, Probability and Risk)。
  6. 林肯实验室论文:未给出arXiv号或全称,标题含“retweets”和“elections”,将发表在《PNAS》([0:41:45]处提及),具体题目待查。
  7. 鲁宾关于安慰剂效应与开放标签试验的论文:称为“startup journal”,具体出处待核。[0:56:30–0:59:05]

开放问题(均扎根在转写中)

  • (a) 网络干扰的单位有效性:经典标准误差在干扰存在时完全失效,但「我们究竟需要什么类型的精确性(precision)」不是一个能用渐近正态简单回答的估算问题。来自[0:41:50–0:42:30]及之前关于林肯实验室的中断讨论。
  • (b) 处理主体意识的试验设计:标准双盲RCT的剂量确定(dose-finding)阶段忽视了开放标签使用时的安慰剂效应分离,使得实际临床用量高于必要剂量。鲁宾认为应该用多臂设计(开放标签臂 + 双盲安慰剂臂 + 双盲活性药物臂)来分离药理学效应与心理效应。来自[0:56:00–0:59:05]。
  • (c) “因果效应”与“条件关联”之间缺乏可操作的边界:当处理变量不具备可操作性(如性别、种族)时,什么才是合理的因果陈述?鲁宾建议切换语言问条件关联问题,但未给出一个形式化判据——这本身是一个定义/哲学开放问题。来自[0:49:17–0:55:00]对Caleb问题的回答。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论