100 Stories of Causal Inference¶

讲者: Andrew Gelman
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-08-04
主题: 因果推断
视频: https://www.youtube.com/watch?v=jnI5KI843Lk · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于元科学推理 / 方法论批判，位于「社会科学统计实践」与「科学哲学」的接合面。

子方向：人们（包括专业研究者）通过个案故事（anecdotes / narrative）获得结论、形成信念；但主流统计训练一直把故事视为"教学的糖衣"或"沟通的工具"，而非知识生产的核心证据形式。这个方向追问的是：故事在什么条件下能当证据用？什么条件下会误导？
奠基性工作 / 相近路线：
Kahneman & Tversky 的认知偏误研究（可用性启发、小数定律）——指出个案的误导性。
Popper / Kuhn / Lakatos 的科学哲学——异常（anomaly）推动科学进步。
社会科学内：Bearman & Stovel（2000）关于"故事如何解释非正则事件"；Abell（2004）将故事视为非正式因果图。
本报告的核心理论支撑来自讲者 Gelman 自己与 Thomas Basbøll 合作的论文 "When Do Stories Work?"（Sociological Methods & Research, 2014） 和后续文章 "Plagiarism as a Statistical Crime"，后者从统计证据的角度讨论源引（sourcing）对故事可信度的作用。
这场报告的站位：它不是提出新的统计方法或识别假设，而是给了一个认识的框架：好故事必须同时满足 anomalous（异常——指超出已有模型预期）和 immutable（不可篡改——指有足够多可查验的细节）。这个框架被用来反思因果推断领域内的一系列误区（设计分析缺失、效应量幻觉、过度自信在识别策略上）。它站在统计学科之外看因果推断，提出 "故事就是后验预测检查"——故事是模型反事实的具象化。

二、最小内核 / 一个最简例子¶

核心思想：一个好故事，就像一个强有力的统计诊断，能帮你抓住模型中你没意识到的错误——但前提是故事有足够多的硬骨头（细节）供你啃，而且它确实挑战了你原有的世界观。

最简例子（讲者自己的失败经历，[0:05:00–0:09:00]）：
- 可观测数据：约 2000 人的两波追踪调查（T1, T2 间隔 1 年），每人报告对某个态度（如同性恋婚姻支持度）的 5 点量表，以及"你认识几个 gay / Muslim / ...？"——即所谓“社会半影区（social penumbra）”的大小。
- 估算的量（estimand）：进入 penumbra 对态度的平均因果效应——不是严格因果，但讲者用"进入"（T1 不认识 → T2 认识）作为近似自然实验。
- 模型 / 参数：线性回归（或基本差分），假设无未测量的时间混杂（讲者自己承认没有完全识别）。
- 发现：效应量约 0.1（5 点量表上移 0.1 格），SE 约 0.05。勉强显著，但很小。
- 后见之明的设计分析（design analysis）：
1. 假设只有 10% 的人会因为进入 penumbra 而改变；
2. 改变量最大 1 格（5 点量表）； → 期望效应 = 0.1 × 1 = 0.1，合理。
3. 假设从 T1→T2 无干预时，约 50% 不动、25% 上移 1、25% 下移 1，则 变化的标准差 ≈ 1/√2 ≈ 0.71；
4. 能进入 penumbra 的人估 < 10%，即 ≤ 200 人； → SE ≈ 0.71 / √200 ≈ 0.05。
→ 所得 SE 和效应量完全由这些粗估决定，并非新奇发现，而是设计本身决定了信噪比极低。
→ 所以这个故事“anomalous”的属性在哪？ 研究者本以为自己会发现惊人的因果效应，却只得到一个勉强显著的微小值——这个“微小”是异常，它揭穿了他们对自己研究设计的过高预期。
→ “immutable”在哪？ 正是因为细节（样本量、回应率随年龄的强烈趋势、测量噪声）足够具体，才能事后追查为什么效应不可能更大。

三、报告主体：讲者讲了什么¶

注意：本报告是整个 OCIS 研讨会中较为非标准的一次——几乎无技术公式，全凭故事推进。以下按时间线整理，标注为[大致时间段]，方便对照视频回看。

[0:00:00–0:04:00] 开场：社会半影区调查

讲者与 Yotam （合作者姓名，转写中可能是 "Yotam"，待核实）研究公众态度变化（支持同性婚姻 vs. 堕胎态度顽固）。
定义 social penumbra：认识某个群体的熟人网络。
调查设计：T1 约 3000 人，T2 仅 2000 人留存；留存率与年龄几乎线性正相关（20 岁几乎不回，80 岁几乎全回）。
问了 14 种 penumbra（gay、Muslim、divorced、active military 等）。
例：gay 与 Muslim 各约占美国人口 3%，但 gay penumbra 大很多——暗示社交暴露程度的差别。

[0:04:00–0:06:00] 用于"识别"的策略

聚焦于 T1 无 → T2 有（进入 penumbra） 的人群，看他们态度变化。
讲者承认：这不是严格因果识别，但做了若干检查（未详细展开）。
估计值：0–0.1（5 点量表），SE 约 0.05。
讲者自评：「我们本该在做调查前就算出这个结果」——这是本场报告的元主题。

[0:06:00–0:09:00] 设计分析（Design Analysis）的演示

假设计算出预期效应量：10% 的人受影响 × 最多变 1 格 = 0.1。
进入率：1 年最多 10%，否则 penumbra 会超过 100%；→ 200 人进入。
无干预的变化 SD 估算：假设 1/2 不动、1/4 +1、1/4 -1 ⇒ SD ≈ 0.71。
SE 估算：0.71 / √200 ≈ 0.05。
结论：当前设计完全无法探测到小于 0.1–0.2 的效应——这不是因果识别的问题，是 统计精度 的硬限制。
提问互动（约 [0:09:00]）：有人问“这难道不就是公认的 power analysis 吗？”讲者澄清：他不反对 power analysis，但他更推荐 design analysis（提前模拟数据 + 审查 SE 而非只看 power 是否过 80%）。同时批评实际 power analysis 中常用的“乐观效应量”导致大量 inflated claims。

[0:09:00–0:13:00] 另一个例子：牙买加早期儿童干预

一个 30 年前随机实验，n=130，干预为每周对 4 岁儿童母亲的辅导。
当年报道：成人收入增加 42%，SE 约 20%（即约 2 个 SE）。
讲者观点：这个 42% 极可能是统计显著性彩票的产物——在该 SE 水平下，只要有一些 publication pressure，就会有恰好达标的显著估计。
教训：该研究的作者也应该提前做 design analysis。

[0:13:00–0:15:00] 钩管（hookah）抽烟争议（NIH 评审故事）

一个评审委员用“我叔叔吸了一辈子钩管，80 岁还很好”来反驳钩管致癌。
讲者瞬间反应：搬出 基数谬误——即使真有 50% 死亡率，也有 50% 的人活得好；如果熟人少，很可能只见到活着的人。
这个故事在讲者与 Basbøll 的分析框架下是“坏故事”：anomalous？（不，它几乎必然出现——与模型不冲突）；immutable？（来源不明，无法追查细节）。

[0:15:00–0:27:00] 关于因果推断的立场声明

这部分更像讲者对 OCIS 听众的观念性对话：
- 他自称「因果推断的局外人」——相信分工：有人做因果，有人做描述。
- 评论三种态度：计算机科学家（认为纯观测数据就能找出因果，过于乐观）；计量经济学家（只信实验或自然实验，忠诚于识别）；他在中间，强调 设计 + 变化（Box–Hunter–Hunter：要找出改变某事的结果，就必须改变它，或者威胁要改变它）。
- 另举教学为例：他自己不照自己的建议做（不记录干预、无前/后测）——证明理论与实践之间的鸿沟。

[0:27:00–0:30:00] 与共识的几个分歧（提前给可带走的观点）

转写里讲者明确列出了 4 个 disagree points，约在这个区间：
1. 先验信息：主张即使只有少量控制变量，也应加有信息先验（否则调整后的系数噪声太大）。
2. Cathedral vs. Bazaar：不盲目拥护小型发散性研究，认为大型整合性研究也有价值。
3. “基本问题 of causal inference”（即不能同时观测两个潜在结果）不应独占注意力；应同样重视同一单位的前后测量的可能性挑战。
4. 随机实验≠不需要代表性样本：反驳“freshman fallacy”（大一新生的错误）——如果存在 treatment interaction，非随机样本给出的 ATE 无法推广。

[0:30:00–0:38:00] 故事的理论基础（与 Basbøll 的共同框架）

Stories vs. Parables：前者有真实锚点，可被约翰孙式踢打检验（"like Samuel Johnson kicking the stone"）；后者是事先知道寓意，没有 reality check。
Anomalous：故事必须打破已有预期，才好作为理论修正的入口。
Immutable：故事必须足够细，才能被反复利用。
Plagiarism as a statistical crime：失源的故事失去了“似然函数”——你不知道数据是怎么被抽样或筛选的，就等于没有统计证据。类比：你说你掷骰子 100 次得了 50 个 6，但不知道你是停在了“得到 50 个 6 时”才告诉别人——信息量是零。
生日例子（[0:34:00–0:38:00]）：
- 一篇论文发现万圣节出生人数少、情人节多（统计显著）。讲者本来笑它，但再一想可以做得更好：
- 嵌入 366 个日效应 + 时间序列 GP 模型（合作者 Aki Vehtari）。
- 结果：不仅万圣节/情人节存在，圣诞节少一半、9/11 等等。更重要的是模型暴露出物理违反——两周内连续出现正效应，但“婴儿早不生晚不生”，效应必须互相抵消；但 additive 模型没有施加这种约束。→ 这个异味推动了讲者对模型的改进（应使用 ringing function），这是一个好故事：物理异常（模型预测与刚性约束冲突）→ 模型修正。

[0:38:00–0:55:00] 讨论 / 互动内容

Stories vs. Models（与 Robert 的问答，[0:39:00]）：
故事 = 内部逻辑 + 与现实的钩子。小说 ≈ 生成式模型的 prior predictive check。故事的冲击力在于它“让你意识到你之前的模型是错的”。
故事的悖论：我们通常重视代表性样本，但好故事恰恰是非代表性的异常。解决之：故事充当 posterior predictive check——它告诉你模型配不拟合数据。
可怕的反例（[0:43:00]）：一篇有关运动参与导致女性更可能成为单亲妈妈的社科文章，在脚注里强行解释 Sheryl Sandberg（离婚再婚）与模型不矛盾→这正是拒绝学习故事的案例；模型太 rigid，故事无法 penetrate。
新冠临床试验实例（[0:46:00]）：研究者声称希望检测 25 个百分点死亡率下降（从 50%→25%）。讲者指出，这意味着 25% 的人有一个“红点”（若不治疗必死、治疗必活）。但若不治疗死亡率 50%，则至少还有 25% 的人死因被治疗清零——这么大 effect 在 plausibility 上极难成立。这种 formulation（ATE 作为单一数字）阻挡了人们对效应分布的直觉。
Alberto Abadie 的引文辩驳（[0:50:00]）：Abadie 声称“不能只靠显著性，还要看估计大小、合理性和设计质量”。讲者指出：
- 条件于显著性：估计值越大 → SE 越大 → 证据越弱，不是越强。
- 合理性与新颖性天然反向，无法同时看重。
- 同意设计质量重要，但还应加上 “测量信/效度”。
最后建议（[0:55:00]）：好故事要审问它——问它“你对世界中哪个模型提出了异常？”然后修正模型。

[0:55:00–1:04:00] Q&A

政治极化（Henry 提问，[0:56:00]）：讲者区分为 three aggregation problems——inference、difference of opinion、conflict of interest。先分清属于哪一类，再建模 bias。
新颖性与合理性不矛盾吗（Guido 提问，[0:59:00]）：讲者承认 local plausibility 与 global surprise 可以共存（比如 Angrist–Krueger quarter-of-birth 的例子），但基本张力仍在。
超参数化模型（Federico 提问，[1:01:00]）：若有极好的预测能力，直接用于 what-if；多级建模可以帮助处理外推问题。

四、对应论文与开放问题¶

(a) 对应论文

这场报告不是讲一篇具体论文，而是讲者 Gelman 多年来一系列方法论散文和评论的核心观点。最为直接相关的是：

"When Do Stories Work? Evidence and Illustration in the Social Sciences"
Andrew Gelman & Thomas Basbøll
Sociological Methods & Research, 2014, Vol 43(4) 547–570
（幻灯片内容即该论文的抽印本）
"Plagiarism as a Statistical Crime"
可能来自 Gelman 的博客文章或与合作者的另一篇短文（转写里标题出现在 [0:32:00] 附近）
Gelman 的著作中关于 design analysis 的推荐可见于 Bayesian Data Analysis 第 3–4 版的相关章节，以及他大量博客文章。

(b) 开放问题（仅列举，不判断可行性）

好故事的“证伪门槛”如何形式化？
转写里讲者说“anomalous + immutable”，但没有给出一个量化的尺度（例如：多异常的阈值？细节数量需要多少？）。能否构建一个类似 Bayes Factor 或缺省预测检查的统计程序，来判定一个故事是否“足够 anomalous 证否当前模型”？
坏故事的自我保护机制（如 [0:43:00] 的单亲母亲例子）：当故事与模型矛盾时，研究者往往用“[ad hoc] 解释”来消解异常，而不是修改模型。是否存在可操作的方法来强制模型接受故事的证伪？
故事与生成式模型的“对偶性”：
讲者提到小说 ≈ prior predictive simulation。反向思考：能否把“好故事”的生成问题当作反事实后验抽样？在给定一个与观测数据不矛盾的生成式模型下，输出的“故事”（一系列反事实情景）是否能满足 anomalous + immutable 的要求？如果能，这对因果推断中的 explanation generation 有什么意义？
Penumbra design 中真正的因果识别：
讲者承认自己的 penumbra 分析只有“部分因果”。如果要用更严格的因果推断方法识别“认识一个朋友”对态度的影响，需要处理自发进入的选择性——典型的工具变量 / 敏感性分析问题。这是否可以被转化为一个 exposure mapping 问题（每个个体暴露于一个随机接触网络）？这是一个开放的技术问题。

Maintained by 陈星宇 · Homepage · Source on GitHub