Causality in Mind: Learning, Reasoning and Blaming¶

讲者: David Lagnado
讨论人: Neil Bramley
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-03-12
主题: 因果推断
视频: https://youtu.be/jC9bE0jjmwk · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这条工作线是认知科学中的因果推理，具体定位在 Pearl (2009) 的因果阶梯框架下，追问一个核心问题：人类（作为有认知局限的个体）如何在实际环境中学习、使用并误用因果模型？ 它不像统计因果推断那样追求“给定数据找出因果 DAG”（算法），也不像 AI 那样追求“大规模因果发现”，而是站在生态效度（ecological validity）一边，考察自然认知中因果模型的格式、学习过程、推理偏差和归因机制。

奠基与主流路线： - 经典三派：逻辑派（例如 mental logic）、联想派（Rescorla-Wagner）、概率派（Bayesian reasoning）。报告指出这三派都未充分刻画因果结构本身。 - 铁三角：Pearl 因果三部曲（因果图、do-calculus、反事实）为心理学提供了形式语言，但 Lagnado 强调形式框架高估了人类计算能力（进行全模型贝叶斯更新），也低估了人类利用时空、机制、叙事等非统计信息的能力。 - Neurath's ship（Bramley, Dayan, Griffiths & Lagnado, 2017）：抗基础主义的学习观——认知者维持单一全局模型，通过局部修改（加/减/转向边）渐进调整，而不是维护一个后验分布。

当前 frontier（报告触及的部分）： - 从离散、无环结构扩展到连续时间、含环/反馈的复杂系统（Btesh et al., 2024，提交中），考察人如何在信息流不断汇聚的动态环境里学习。 - 证据评价的键偏差：零和（zero-sum）推理——假设多个候选原因互斥穷举，从而低估非排他性原因的证据力（Pilditch, Fenton & Lagnado, Psychological Science, 2019）。 - 归因责任：反事实模拟模型（Gerstenberg, Goodman, Lagnado & Tenenbaum, 2022, Psychological Review），把因果判断定位为运行 mental physics engine 来做反事实比较；群体中的责任分配（Chockler & Halpern 的 degree of responsibility 概念），以及预期关键性、主动欺骗等。

这场报告站在哪？ 站在认知心理学向因果推断/统计圈的对话者位置——它不是在提出新的统计估计算法，而是在讲人类的因果推理在结构上用了什么近似、在什么情况下出错。对统计学者而言，这些偏差（如零和假设、过度局部化）是值得在算法设计或人机协同决策中警惕的“ground truth”。

点名关键工作（听不准的标记不确定）： - Bramley et al., 2017 —— Neurath's ship 模型； - Pilditch, Fenton & Lagnado, 2019 —— 零和证据偏差的定性/定量研究； - Gerstenberg et al., 2022 —— 反事实模拟模型（眼动证据）； - Btesh et al., 2024（提交中）—— 连续时间因果学习； - Franklin et al., 2022 —— 在人-AI混合系统中归因责任（实验设计）； - Lagnado et al., 2013; Zultan et al., 2012 —— 群体责任归因中的“关键性”机制； - 讨论环节提及 Ti Gong（正在进行的工作）—— 测量选择如何逆转因果判断。

二、最小内核 / 一个最简例子¶

模型： - 一个二变量 DAG，两个潜在原因 C1（“接触炸药”）和 C2（“接触纸牌”）共同指向一个二元结果 T（“检测试纸阳性”）。 - 因果结构：C1 → T，C2 → T，两个边无交互；C1 和 C2 不互斥（可以同时为真或同时为假）。 - 可观测数据：给定 T = +（阳性），问 C1 的后验是否大于先验。 - 参数： - P(T=+ | C1=1, C2=0) = 0.9 - P(T=+ | C1=0, C2=1) = 0.5（留意：字幕给出同一数字，但幻灯片显示两个条件概率可独立变化） - 先验 P(C1=1) = 0.5，P(C2=1) = 0.5（独立）。 - 可能误判：一个“直觉但错误”的贝叶斯更新会将 C1 和 C2 的后验和限定为1，从而当 C1 后验上升时强迫 C2 后验下降——但这没有道理，因为两者的 T=+ 都可以高于基准，不必互斥。

“一看就懂”的核心思想：

一个对不同候选原因解释力不对称的证据（这里 T=+ 由 C1=1 引发概率更高），即使不能完全区分这些原因（C2=1 也能引起 T=+），仍然可以作为支持 C1=1 的证据。人类常犯的“零和”错误就源于默认把候选原因集看作互斥穷举的集合（如古典概率中的互斥假设），但这在开放式推理（如法律、医学）中很少成立。

三、报告主体：讲者讲了什么¶

[0:00–0:05] 引言与框架¶

讲者简介 & 大纲：三部分——学习因果模型、用因果模型推理、归因责任。
引用 Craik (1943) “内部小模型”概念，点明心理模型的传统。
提出 Pearl 的三级阶梯：关联 → 干预 → 反事实，讲座将覆盖所有三级。
强调形式因果模型 vs 心理因果模型的差别：前者高估计算能力、低估时空/机制信息、不刻画模型生成能力。

[0:05–0:20] Part I：学习因果模型（从经验归纳结构）¶

例子：失眠的多因网（抑郁症→失眠、焦虑→失眠、药物→失眠等），引出学习任务的组合爆炸。
线索种类：统计信息、干预（重点）、时间顺序、时空信息、机制假设。
确定性小 demo（[0:13] 附近）：3 节点、无环、25 个可能模型——先单变量干预，再双变量干预以分辨观察上等价的剩余两个结构。
Neurath's ship 模型声明（Bramley et al., 2017）：
人维护单一全局模型，仅在证据到来时做局部改动（加/减/转边）。
以当前模型为“木筏”来支撑局部学习，不能从头重建。
实验设计：3–4 变量、概率链接、背景噪声；被试选择干预、观察结果、报告判断。
结果：
- 准确率随噪声下降（在意料之中）。
- Neurath's ship 模型拟合均值和个体都较好；全贝叶斯模型过高预测。
- 人们非常保守，每次只做最小的模型改动（右侧面板展示）。
- 干预选择聚焦于局部不确定性，常为单链接测试，确认（confirmatory）兼生成效应。
连续时间扩展（[0:20] 附近，Btesh et al., 2024，提交中）：
三个变量的动态系统，带环路；被试可以通过拖拽干预（demo 展示）。
连续时间生成大量数据，观察学习更难；人们大量使用干预作为“信标”——介入后观察变化，丢弃一半数据但仍表现良好。
恢复 87% 的正链接、73% 的负链接；链条偏差（倾向于插入额外链式连接）。
结论：人将任务分解为推断单个链接的局部子任务，一种启发式但有效的策略。

[0:20–0:25] Part II：用因果模型推理——证据评价偏差¶

区分“从证据推理（生成故事/解释）”与“关于证据的推理（评价证据质量）”。
炸药测试例子（[0:21] 附近）：
情景：Ann 被疑接触炸药，检测试纸对炸药阳性概率 90%、对纸牌也是 90%（注意：字幕说 90% 与 90%，但幻灯片显示实验中有多种条件组合，包括 90/50、50/50 等）。
大多数人认为阳性结果“不能支持”Ann 接触炸药的主张（选“cannot tell”）。
讲者核心论点：只要阳性对炸药高于基线（先验），它就支持炸药主张，即使对纸牌也高；因为两个原因并不是互斥穷举的。
零和假设（[0:23] 附近）：
人们默认证据是零和的：如果证据支持一方，就必然削弱另一方；证据被双方同等预测时则中立。
这在原因不互斥穷举时失效。
实验数据（>1500 被试）：
- 定性任务：仅 38%（？幻灯片显示 38%）回答正确（阳性情况），但 85% 正确回答阴性情况（说明只看 disconfirmation）。
- 定量任务：变化 P(T+|C1)、P(T+|C2) 的四条件（90/90、90/50、50/90、50/50）。
- 结果：大多数人的后验估计保持在先验不变，或者强制两个原因的后验和=100%（零和错误）。
- 只有在 90/50 条件下，部分人正确提升了目标原因的概率，但这可能是因为错误地认为另一个原因后验低（而不是正确理解整体提升）。
结论：零和误差是稳健的，在多种场景、高置信度、低先验时也会出现；明确“原因不是互斥穷举”的指导只有微弱改善。

[0:25–0:35] Part II（续）：欺骗情景建模¶

讲者跳过了详细内容（“skip this, interested ask me”）。
从幻灯片可见：这是一个二阶段贝叶斯网络，CAR QUALITY 和 SELLER RELIABILITY 共同决定 REPORT；CPT 设计为不可靠卖方总是报告“好”。
关键发现：人们常错误地认为“好报告”不更新对车况或可靠性的信念，因为错误地假设“不可靠卖方只分配给坏车”——这是过度简化。

[0:35–0:43] Part III：归因责任¶

大背景：多因问题（“many hands”），如特斯拉事故——司机、车企、CEO、AI 程序员应负多大责任？
反事实模拟模型（Gerstenberg et al., 2022）：
因果判断 = 比较实际与反事实场景。
物理判断实验中，用眼动仪记录注视点：人们不光追踪球的实际轨迹，还会追踪球 B 如果没有被 A 撞到会去哪（反事实位置）。
因果判断与反事实判断高度相关。
群体责任归因（Lagnado et al., 2013; Zultan et al., 2012）：
厨师团队“烹饪秀”实验：需要至少一份前菜、一份主菜、一份甜品才能赢得团队胜利。
如果所有菜品都通过，谁对团队获胜负责？关键思想：反事实关键性测试——若某厨师 failed，团队是否 still win？
D 和 C (甜点、主菜) 是汇合点（conjunct of two dishes），A 和 B (前菜) 是析取点（disjunct）。
结果：责任随距关键性的距离递减（Chockler & Halpern: Resp = 1/(1+N)，N = 需要将多少其他 agent 的状态翻转为“fail”以使该 agent 变为 pivotal）。
合取者责任 > 析取者；析取者数量增加时个人责任减少；合取者数量增加个人责任常数。
另外，人们还考虑预期的关键性——这个 agent 在事前有多大概率会成为关键节点。
The Blame Game（Franklin et al., 2022）：模拟包含人和 AI 的车祸场景；展现人对多种因素（意向、知识、预知）的综合推理，但对 AI 和人类的责备模式复杂、尚在研究。

[0:43–0:47] 讨论者（Neil Bramley）点评¶

三个讨论点：
离散表示 vs. 连续时空环境：人会将连续输入离散化为“事件”（与 Victor Btesh 的实验呼应）。自变量与因变量的“测量选择”本身就是一个完整的因果推断难题（引 Ti Gong 的工作：同样的 zero-contingency 数据，告知 vs. 不告知测量日选择，因果判断可能反转）。
因果假设的生成与适应：Neurath's ship 只是渐进修改，但更根本的问题是如何从零开始生成并增长因果模型（非参数式、开放式的结构学习）。
反事实的模糊性：不同人对“什么应该保持不变”的看法不同（如疫情期间是否应该封锁），这是许多分歧的根源。

[0:47–0:59] 问答（简要）¶

来自 Jonathan 的提问：炸药测试的“零和”偏差是否可用语用角度解释（被试误解了问题）？
讲者回应：他们做了很多实验避免语用解读，偏差稳定存在。

四、对应论文与开放问题¶

对应论文（依据转写与幻灯片）¶

Neurath's ship：Bramley, N. R., Dayan, P., Griffiths, T. L., & Lagnado, D. A. (2017). Formalizing Neurath's ship: Approximate algorithms for online causal learning. Psychological Review, 124(3), 301–338.
零和证据偏差：Pilditch, T. D., Fenton, N., & Lagnado, D. A. (2019). The zero-sum fallacy in evidence evaluation. Psychological Science, 30(8), 1198–1209. （publisher 和杂志均可能有误，待核对）
反事实模拟模型：Gerstenberg, T., Goodman, N. D., Lagnado, D. A., & Tenenbaum, J. B. (2022). A counterfactual simulation model of causal judgments in physical scenes. Psychological Review, 129(4), 670–699. （转录可能不全）
连续时间因果学习：Btesh, V., Bramley, N. R., & Lagnado, D. A. (2024, submitted). 标题未知。
责任归因在群体中：Lagnado, D. A., Gerstenberg, T., & Zultan, R. (2013). Causal responsibility and counterfactual reasoning. Topics in Cognitive Science；Zultan, R., Gerstenberg, T., & Lagnado, D. A. (2012). （具体刊名年份待核实）
The Blame Game：Franklin, L., et al. (2022). （具体需查）
改进工具：Cruz, A., et al. (2020); Nyberg, E. P., et al. (2022) —— IARPA 项目，交互式贝叶斯网络工具提升情报分析；讲者提到用于法官/律师的培训工具。

开放问题（每条扎根于转写）¶

[0:25] 零和偏差的来源：是语用误解（回答不同的问题）还是深层计算策略（如将认知负荷简化为零和）？讲者承认存在语用解释可能，但实验反复排除了它——那真正的根源是什么？→ 适合设计一个数学上严格区分认知资源假设与语用假设的实验。
[0:42] 预期关键性 at play：责任归因实验发现人们不仅用事后反事实关键性（pivotalness），还看事前预期的关键性——这个维度目前形式化为 Chockler & Halpern 框架（静态事后）没有涵盖。需要提出事前-事后融合的归因模型。
[0:27] 测量选择如何影响因果推断：讨论者 Bramley 引了 Ti Gong 的工作——将“测量日”选择的叙述架在因果结构之外（C → Outcome 且 Experimenter → Measurement Day），竟能逆转因果判断。这指向数据收集过程的因果图（设计图）对最终推断的重要性——统计学家常假设数据搜集是外生（exogenous）的，但人的直觉显然将其当作内生变量。这是个开放问题：能否将“测量过程选择”形式化为图形工具并用 do-calculus 分析？
[0:30–35] 欺骗情景下的模型简化：讲者指出许多被试将复杂问题过度简化为“坏车一定有不可靠卖方/好车一定有可靠卖方”的匹配关系。这是统计上的“错误条件独立假设”——可对应为在贝叶斯网络中错误地认为 Quality 与 Reliability 被 Report d-分隔（实际上未观察到的父节点相交？）。这可以形式化为一个图模型诊断与错误推理模式的研究。
[0:20] 连续时间中的链条偏差：人们容易过度添加链式边（把独立关系误判为链式关系）。这可能导出一个对算法（如 PC/FCI）处理反馈回路时的心理偏差的评估——是否人与算法一样在反馈回路中系统性高估链式结构？
[0:45–47] 讨论者提出的开放问题：非参数因果结构增长：“how to get from zero to these complex causal models” —— 不是简单地搜索给定变量的 DAG 空间，而是 允许变量生成与变量发现（包括潜在变量）。这触及膨胀图模型（expanding DAGs） 及与之匹配的计算/统计复杂度问题。对于严格从事半参+高维统计的研究者，可以问：在变量集随样本量膨胀的设定下，是否仍有 consistency 或 fast structure learning？心理认知中的“保守性”是否能形式化为一种最小描述长度（MDL）正则？

Maintained by 陈星宇 · Homepage · Source on GitHub