跳转至

100 Stories of Causal Inference

讲者: Andrew Gelman
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-08-04
主题: 因果推断
视频: https://www.youtube.com/watch?v=jnI5KI843Lk · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告属于元科学推理 / 方法论批判,位于「社会科学统计实践」与「科学哲学」的接合面。

  • 子方向:人们(包括专业研究者)通过个案故事(anecdotes / narrative)获得结论、形成信念;但主流统计训练一直把故事视为"教学的糖衣"或"沟通的工具",而非知识生产的核心证据形式。这个方向追问的是:故事在什么条件下能当证据用?什么条件下会误导?
  • 奠基性工作 / 相近路线
  • Kahneman & Tversky 的认知偏误研究(可用性启发、小数定律)——指出个案的误导性。
  • Popper / Kuhn / Lakatos 的科学哲学——异常(anomaly)推动科学进步。
  • 社会科学内:Bearman & Stovel(2000)关于"故事如何解释非正则事件";Abell(2004)将故事视为非正式因果图。
  • 本报告的核心理论支撑来自讲者 Gelman 自己与 Thomas Basbøll 合作的论文 "When Do Stories Work?"(Sociological Methods & Research, 2014) 和后续文章 "Plagiarism as a Statistical Crime",后者从统计证据的角度讨论源引(sourcing)对故事可信度的作用。
  • 这场报告的站位:它不是提出新的统计方法或识别假设,而是给了一个认识的框架:好故事必须同时满足 anomalous(异常——指超出已有模型预期)和 immutable(不可篡改——指有足够多可查验的细节)。这个框架被用来反思因果推断领域内的一系列误区(设计分析缺失、效应量幻觉、过度自信在识别策略上)。它站在统计学科之外看因果推断,提出 "故事就是后验预测检查"——故事是模型反事实的具象化。

二、最小内核 / 一个最简例子

核心思想:一个好故事,就像一个强有力的统计诊断,能帮你抓住模型中你没意识到的错误——但前提是故事有足够多的硬骨头(细节)供你啃,而且它确实挑战了你原有的世界观。

最简例子(讲者自己的失败经历,[0:05:00–0:09:00])
- 可观测数据:约 2000 人的两波追踪调查(T1, T2 间隔 1 年),每人报告对某个态度(如同性恋婚姻支持度)的 5 点量表,以及"你认识几个 gay / Muslim / ...?"——即所谓“社会半影区(social penumbra)”的大小。
- 估算的量(estimand)进入 penumbra 对态度的平均因果效应——不是严格因果,但讲者用"进入"(T1 不认识 → T2 认识)作为近似自然实验。
- 模型 / 参数:线性回归(或基本差分),假设无未测量的时间混杂(讲者自己承认没有完全识别)。
- 发现:效应量约 0.1(5 点量表上移 0.1 格),SE 约 0.05。勉强显著,但很小。
- 后见之明的设计分析(design analysis)
1. 假设只有 10% 的人会因为进入 penumbra 而改变
2. 改变量最大 1 格(5 点量表); → 期望效应 = 0.1 × 1 = 0.1,合理
3. 假设从 T1→T2 无干预时,约 50% 不动、25% 上移 1、25% 下移 1,则 变化的标准差 ≈ 1/√2 ≈ 0.71
4. 能进入 penumbra 的人估 < 10%,即 ≤ 200 人; → SE ≈ 0.71 / √200 ≈ 0.05
→ 所得 SE 和效应量完全由这些粗估决定,并非新奇发现,而是设计本身决定了信噪比极低。
所以这个故事“anomalous”的属性在哪? 研究者本以为自己会发现惊人的因果效应,却只得到一个勉强显著的微小值——这个“微小”是异常,它揭穿了他们对自己研究设计的过高预期。
“immutable”在哪? 正是因为细节(样本量、回应率随年龄的强烈趋势、测量噪声)足够具体,才能事后追查为什么效应不可能更大。

三、报告主体:讲者讲了什么

注意:本报告是整个 OCIS 研讨会中较为非标准的一次——几乎无技术公式,全凭故事推进。以下按时间线整理,标注为[大致时间段],方便对照视频回看。


[0:00:00–0:04:00] 开场:社会半影区调查

  • 讲者与 Yotam (合作者姓名,转写中可能是 "Yotam",待核实) 研究公众态度变化(支持同性婚姻 vs. 堕胎态度顽固)。
  • 定义 social penumbra:认识某个群体的熟人网络。
  • 调查设计:T1 约 3000 人,T2 仅 2000 人留存;留存率与年龄几乎线性正相关(20 岁几乎不回,80 岁几乎全回)。
  • 问了 14 种 penumbra(gay、Muslim、divorced、active military 等)。
  • 例:gay 与 Muslim 各约占美国人口 3%,但 gay penumbra 大很多——暗示社交暴露程度的差别。

[0:04:00–0:06:00] 用于"识别"的策略

  • 聚焦于 T1 无 → T2 有(进入 penumbra) 的人群,看他们态度变化。
  • 讲者承认:这不是严格因果识别,但做了若干检查(未详细展开)。
  • 估计值:0–0.1(5 点量表),SE 约 0.05。
  • 讲者自评:「我们本该在做调查前就算出这个结果」——这是本场报告的元主题。

[0:06:00–0:09:00] 设计分析(Design Analysis)的演示

  • 假设计算出预期效应量:10% 的人受影响 × 最多变 1 格 = 0.1。
  • 进入率:1 年最多 10%,否则 penumbra 会超过 100%;→ 200 人进入。
  • 无干预的变化 SD 估算:假设 1/2 不动、1/4 +1、1/4 -1 ⇒ SD ≈ 0.71。
  • SE 估算:0.71 / √200 ≈ 0.05。
  • 结论:当前设计完全无法探测到小于 0.1–0.2 的效应——这不是因果识别的问题,是 统计精度 的硬限制。
  • 提问互动(约 [0:09:00]):有人问“这难道不就是公认的 power analysis 吗?”讲者澄清:他不反对 power analysis,但他更推荐 design analysis(提前模拟数据 + 审查 SE 而非只看 power 是否过 80%)。同时批评实际 power analysis 中常用的“乐观效应量”导致大量 inflated claims。

[0:09:00–0:13:00] 另一个例子:牙买加早期儿童干预

  • 一个 30 年前随机实验,n=130,干预为每周对 4 岁儿童母亲的辅导。
  • 当年报道:成人收入增加 42%,SE 约 20%(即约 2 个 SE)。
  • 讲者观点:这个 42% 极可能是统计显著性彩票的产物——在该 SE 水平下,只要有一些 publication pressure,就会有恰好达标的显著估计。
  • 教训:该研究的作者也应该提前做 design analysis。

[0:13:00–0:15:00] 钩管(hookah)抽烟争议(NIH 评审故事)

  • 一个评审委员用“我叔叔吸了一辈子钩管,80 岁还很好”来反驳钩管致癌。
  • 讲者瞬间反应:搬出 基数谬误——即使真有 50% 死亡率,也有 50% 的人活得好;如果熟人少,很可能只见到活着的人。
  • 这个故事在讲者与 Basbøll 的分析框架下是“坏故事”:anomalous?(不,它几乎必然出现——与模型不冲突)immutable?(来源不明,无法追查细节)

[0:15:00–0:27:00] 关于因果推断的立场声明

这部分更像讲者对 OCIS 听众的观念性对话:
- 他自称「因果推断的局外人」——相信分工:有人做因果,有人做描述。
- 评论三种态度:计算机科学家(认为纯观测数据就能找出因果,过于乐观);计量经济学家(只信实验或自然实验,忠诚于识别);他在中间,强调 设计 + 变化(Box–Hunter–Hunter:要找出改变某事的结果,就必须改变它,或者威胁要改变它)。
- 另举教学为例:他自己不照自己的建议做(不记录干预、无前/后测)——证明理论与实践之间的鸿沟。

[0:27:00–0:30:00] 与共识的几个分歧(提前给可带走的观点)

转写里讲者明确列出了 4 个 disagree points,约在这个区间:
1. 先验信息:主张即使只有少量控制变量,也应加有信息先验(否则调整后的系数噪声太大)。
2. Cathedral vs. Bazaar:不盲目拥护小型发散性研究,认为大型整合性研究也有价值。
3. “基本问题 of causal inference”(即不能同时观测两个潜在结果)不应独占注意力;应同样重视同一单位的前后测量的可能性挑战。
4. 随机实验≠不需要代表性样本:反驳“freshman fallacy”(大一新生的错误)——如果存在 treatment interaction,非随机样本给出的 ATE 无法推广。

[0:30:00–0:38:00] 故事的理论基础(与 Basbøll 的共同框架)

  • Stories vs. Parables:前者有真实锚点,可被约翰孙式踢打检验("like Samuel Johnson kicking the stone");后者是事先知道寓意,没有 reality check。
  • Anomalous:故事必须打破已有预期,才好作为理论修正的入口。
  • Immutable:故事必须足够细,才能被反复利用。
  • Plagiarism as a statistical crime:失源的故事失去了“似然函数”——你不知道数据是怎么被抽样或筛选的,就等于没有统计证据。类比:你说你掷骰子 100 次得了 50 个 6,但不知道你是停在了“得到 50 个 6 时”才告诉别人——信息量是零。
  • 生日例子([0:34:00–0:38:00]):
    • 一篇论文发现万圣节出生人数少、情人节多(统计显著)。讲者本来笑它,但再一想可以做得更好:
    • 嵌入 366 个日效应 + 时间序列 GP 模型(合作者 Aki Vehtari)。
    • 结果:不仅万圣节/情人节存在,圣诞节少一半、9/11 等等。更重要的是模型暴露出物理违反——两周内连续出现正效应,但“婴儿早不生晚不生”,效应必须互相抵消;但 additive 模型没有施加这种约束。→ 这个异味推动了讲者对模型的改进(应使用 ringing function),这是一个好故事:物理异常(模型预测与刚性约束冲突)→ 模型修正。

[0:38:00–0:55:00] 讨论 / 互动内容

  • Stories vs. Models(与 Robert 的问答,[0:39:00]):
    故事 = 内部逻辑 + 与现实的钩子。小说 ≈ 生成式模型的 prior predictive check。故事的冲击力在于它“让你意识到你之前的模型是错的”。
  • 故事的悖论:我们通常重视代表性样本,但好故事恰恰是非代表性的异常。解决之:故事充当 posterior predictive check——它告诉你模型配不拟合数据。
  • 可怕的反例([0:43:00]):一篇有关运动参与导致女性更可能成为单亲妈妈的社科文章,在脚注里强行解释 Sheryl Sandberg(离婚再婚)与模型不矛盾→这正是拒绝学习故事的案例;模型太 rigid,故事无法 penetrate。
  • 新冠临床试验实例([0:46:00]):研究者声称希望检测 25 个百分点死亡率下降(从 50%→25%)。讲者指出,这意味着 25% 的人有一个“红点”(若不治疗必死、治疗必活)。但若不治疗死亡率 50%,则至少还有 25% 的人死因被治疗清零——这么大 effect 在 plausibility 上极难成立。这种 formulation(ATE 作为单一数字)阻挡了人们对效应分布的直觉。
  • Alberto Abadie 的引文辩驳([0:50:00]):Abadie 声称“不能只靠显著性,还要看估计大小、合理性和设计质量”。讲者指出:
    • 条件于显著性:估计值越大 → SE 越大 → 证据越弱,不是越强。
    • 合理性与新颖性天然反向,无法同时看重。
    • 同意设计质量重要,但还应加上 “测量信/效度”。
  • 最后建议([0:55:00]):好故事要审问它——问它“你对世界中哪个模型提出了异常?”然后修正模型。

[0:55:00–1:04:00] Q&A

  • 政治极化(Henry 提问,[0:56:00]):讲者区分为 three aggregation problems——inference、difference of opinion、conflict of interest。先分清属于哪一类,再建模 bias。
  • 新颖性与合理性不矛盾吗(Guido 提问,[0:59:00]):讲者承认 local plausibility 与 global surprise 可以共存(比如 Angrist–Krueger quarter-of-birth 的例子),但基本张力仍在。
  • 超参数化模型(Federico 提问,[1:01:00]):若有极好的预测能力,直接用于 what-if;多级建模可以帮助处理外推问题。

四、对应论文与开放问题

(a) 对应论文

这场报告不是讲一篇具体论文,而是讲者 Gelman 多年来一系列方法论散文和评论的核心观点。最为直接相关的是:

  1. "When Do Stories Work? Evidence and Illustration in the Social Sciences"
  2. Andrew Gelman & Thomas Basbøll
  3. Sociological Methods & Research, 2014, Vol 43(4) 547–570
  4. (幻灯片内容即该论文的抽印本)
  5. "Plagiarism as a Statistical Crime"
  6. 可能来自 Gelman 的博客文章或与合作者的另一篇短文(转写里标题出现在 [0:32:00] 附近)
  7. Gelman 的著作中关于 design analysis 的推荐可见于 Bayesian Data Analysis 第 3–4 版的相关章节,以及他大量博客文章。

(b) 开放问题(仅列举,不判断可行性)

  1. 好故事的“证伪门槛”如何形式化?
    转写里讲者说“anomalous + immutable”,但没有给出一个量化的尺度(例如:多异常的阈值?细节数量需要多少?)。能否构建一个类似 Bayes Factor 或缺省预测检查的统计程序,来判定一个故事是否“足够 anomalous 证否当前模型”?

  2. 坏故事的自我保护机制(如 [0:43:00] 的单亲母亲例子):当故事与模型矛盾时,研究者往往用“[ad hoc] 解释”来消解异常,而不是修改模型。是否存在可操作的方法来强制模型接受故事的证伪?

  3. 故事与生成式模型的“对偶性”
    讲者提到小说 ≈ prior predictive simulation。反向思考:能否把“好故事”的生成问题当作反事实后验抽样?在给定一个与观测数据不矛盾的生成式模型下,输出的“故事”(一系列反事实情景)是否能满足 anomalous + immutable 的要求?如果能,这对因果推断中的 explanation generation 有什么意义?

  4. Penumbra design 中真正的因果识别
    讲者承认自己的 penumbra 分析只有“部分因果”。如果要用更严格的因果推断方法识别“认识一个朋友”对态度的影响,需要处理自发进入的选择性——典型的工具变量 / 敏感性分析问题。这是否可以被转化为一个 exposure mapping 问题(每个个体暴露于一个随机接触网络)?这是一个开放的技术问题。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论