跳转至

Causality in Mind: Learning, Reasoning and Blaming

讲者: David Lagnado
讨论人: Neil Bramley
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-03-12
主题: 因果推断
视频: https://youtu.be/jC9bE0jjmwk · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这条工作线是认知科学中的因果推理,具体定位在 Pearl (2009) 的因果阶梯框架下,追问一个核心问题:人类(作为有认知局限的个体)如何在实际环境中学习、使用并误用因果模型? 它不像统计因果推断那样追求“给定数据找出因果 DAG”(算法),也不像 AI 那样追求“大规模因果发现”,而是站在生态效度(ecological validity)一边,考察自然认知中因果模型的格式、学习过程、推理偏差和归因机制。

奠基与主流路线: - 经典三派:逻辑派(例如 mental logic)、联想派(Rescorla-Wagner)、概率派(Bayesian reasoning)。报告指出这三派都未充分刻画因果结构本身。 - 铁三角:Pearl 因果三部曲(因果图、do-calculus、反事实)为心理学提供了形式语言,但 Lagnado 强调形式框架高估了人类计算能力(进行全模型贝叶斯更新),也低估了人类利用时空、机制、叙事等非统计信息的能力。 - Neurath's ship(Bramley, Dayan, Griffiths & Lagnado, 2017):抗基础主义的学习观——认知者维持单一全局模型,通过局部修改(加/减/转向边)渐进调整,而不是维护一个后验分布。

当前 frontier(报告触及的部分): - 从离散、无环结构扩展到连续时间含环/反馈的复杂系统(Btesh et al., 2024,提交中),考察人如何在信息流不断汇聚的动态环境里学习。 - 证据评价的键偏差:零和(zero-sum)推理——假设多个候选原因互斥穷举,从而低估非排他性原因的证据力(Pilditch, Fenton & Lagnado, Psychological Science, 2019)。 - 归因责任:反事实模拟模型(Gerstenberg, Goodman, Lagnado & Tenenbaum, 2022, Psychological Review),把因果判断定位为运行 mental physics engine 来做反事实比较;群体中的责任分配(Chockler & Halpern 的 degree of responsibility 概念),以及预期关键性、主动欺骗等。

这场报告站在哪? 站在认知心理学向因果推断/统计圈的对话者位置——它不是在提出新的统计估计算法,而是在讲人类的因果推理在结构上用了什么近似、在什么情况下出错。对统计学者而言,这些偏差(如零和假设、过度局部化)是值得在算法设计或人机协同决策中警惕的“ground truth”。

点名关键工作(听不准的标记不确定): - Bramley et al., 2017 —— Neurath's ship 模型; - Pilditch, Fenton & Lagnado, 2019 —— 零和证据偏差的定性/定量研究; - Gerstenberg et al., 2022 —— 反事实模拟模型(眼动证据); - Btesh et al., 2024(提交中)—— 连续时间因果学习; - Franklin et al., 2022 —— 在人-AI混合系统中归因责任(实验设计); - Lagnado et al., 2013; Zultan et al., 2012 —— 群体责任归因中的“关键性”机制; - 讨论环节提及 Ti Gong(正在进行的工作)—— 测量选择如何逆转因果判断。

二、最小内核 / 一个最简例子

模型: - 一个二变量 DAG,两个潜在原因 C1(“接触炸药”)和 C2(“接触纸牌”)共同指向一个二元结果 T(“检测试纸阳性”)。 - 因果结构C1 → TC2 → T,两个边无交互;C1C2 不互斥(可以同时为真或同时为假)。 - 可观测数据:给定 T = +(阳性),问 C1 的后验是否大于先验。 - 参数: - P(T=+ | C1=1, C2=0) = 0.9 - P(T=+ | C1=0, C2=1) = 0.5(留意:字幕给出同一数字,但幻灯片显示两个条件概率可独立变化) - 先验 P(C1=1) = 0.5P(C2=1) = 0.5(独立)。 - 可能误判:一个“直觉但错误”的贝叶斯更新会将 C1C2 的后验和限定为1,从而当 C1 后验上升时强迫 C2 后验下降——但这没有道理,因为两者的 T=+ 都可以高于基准,不必互斥。

“一看就懂”的核心思想:

一个对不同候选原因解释力不对称的证据(这里 T=+C1=1 引发概率更高),即使不能完全区分这些原因(C2=1 也能引起 T=+),仍然可以作为支持 C1=1 的证据。人类常犯的“零和”错误就源于默认把候选原因集看作互斥穷举的集合(如古典概率中的互斥假设),但这在开放式推理(如法律、医学)中很少成立。

三、报告主体:讲者讲了什么

[0:00–0:05] 引言与框架

  • 讲者简介 & 大纲:三部分——学习因果模型、用因果模型推理、归因责任。
  • 引用 Craik (1943) “内部小模型”概念,点明心理模型的传统。
  • 提出 Pearl 的三级阶梯:关联 → 干预 → 反事实,讲座将覆盖所有三级。
  • 强调形式因果模型 vs 心理因果模型的差别:前者高估计算能力、低估时空/机制信息、不刻画模型生成能力。

[0:05–0:20] Part I:学习因果模型(从经验归纳结构)

  • 例子:失眠的多因网(抑郁症→失眠、焦虑→失眠、药物→失眠等),引出学习任务的组合爆炸。
  • 线索种类:统计信息、干预(重点)、时间顺序、时空信息、机制假设。
  • 确定性小 demo([0:13] 附近):3 节点、无环、25 个可能模型——先单变量干预,再双变量干预以分辨观察上等价的剩余两个结构。
  • Neurath's ship 模型声明(Bramley et al., 2017):
  • 人维护单一全局模型,仅在证据到来时做局部改动(加/减/转边)。
  • 以当前模型为“木筏”来支撑局部学习,不能从头重建。
  • 实验设计:3–4 变量、概率链接、背景噪声;被试选择干预、观察结果、报告判断。
  • 结果:
    • 准确率随噪声下降(在意料之中)。
    • Neurath's ship 模型拟合均值和个体都较好;全贝叶斯模型过高预测
    • 人们非常保守,每次只做最小的模型改动(右侧面板展示)。
    • 干预选择聚焦于局部不确定性,常为单链接测试,确认(confirmatory)兼生成效应。
  • 连续时间扩展([0:20] 附近,Btesh et al., 2024,提交中):
  • 三个变量的动态系统,带环路;被试可以通过拖拽干预(demo 展示)。
  • 连续时间生成大量数据,观察学习更难;人们大量使用干预作为“信标”——介入后观察变化,丢弃一半数据但仍表现良好。
  • 恢复 87% 的正链接、73% 的负链接;链条偏差(倾向于插入额外链式连接)。
  • 结论:人将任务分解为推断单个链接的局部子任务,一种启发式但有效的策略。

[0:20–0:25] Part II:用因果模型推理——证据评价偏差

  • 区分“从证据推理(生成故事/解释)”与“关于证据的推理(评价证据质量)”。
  • 炸药测试例子([0:21] 附近):
  • 情景:Ann 被疑接触炸药,检测试纸对炸药阳性概率 90%、对纸牌也是 90%(注意:字幕说 90% 与 90%,但幻灯片显示实验中有多种条件组合,包括 90/50、50/50 等)。
  • 大多数人认为阳性结果“不能支持”Ann 接触炸药的主张(选“cannot tell”)。
  • 讲者核心论点:只要阳性对炸药高于基线(先验),它就支持炸药主张,即使对纸牌也高;因为两个原因并不是互斥穷举的。
  • 零和假设([0:23] 附近):
  • 人们默认证据是零和的:如果证据支持一方,就必然削弱另一方;证据被双方同等预测时则中立。
  • 这在原因不互斥穷举时失效。
  • 实验数据(>1500 被试):
    • 定性任务:仅 38%(?幻灯片显示 38%)回答正确(阳性情况),但 85% 正确回答阴性情况(说明只看 disconfirmation)。
    • 定量任务:变化 P(T+|C1)、P(T+|C2) 的四条件(90/90、90/50、50/90、50/50)。
    • 结果:大多数人的后验估计保持在先验不变,或者强制两个原因的后验和=100%(零和错误)。
    • 只有在 90/50 条件下,部分人正确提升了目标原因的概率,但这可能是因为错误地认为另一个原因后验低(而不是正确理解整体提升)。
  • 结论:零和误差是稳健的,在多种场景、高置信度、低先验时也会出现;明确“原因不是互斥穷举”的指导只有微弱改善。

[0:25–0:35] Part II(续):欺骗情景建模

  • 讲者跳过了详细内容(“skip this, interested ask me”)。
  • 从幻灯片可见:这是一个二阶段贝叶斯网络,CAR QUALITY 和 SELLER RELIABILITY 共同决定 REPORT;CPT 设计为不可靠卖方总是报告“好”。
  • 关键发现:人们常错误地认为“好报告”不更新对车况或可靠性的信念,因为错误地假设“不可靠卖方只分配给坏车”——这是过度简化。

[0:35–0:43] Part III:归因责任

  • 大背景:多因问题(“many hands”),如特斯拉事故——司机、车企、CEO、AI 程序员应负多大责任?
  • 反事实模拟模型(Gerstenberg et al., 2022):
  • 因果判断 = 比较实际与反事实场景。
  • 物理判断实验中,用眼动仪记录注视点:人们不光追踪球的实际轨迹,还会追踪球 B 如果没有被 A 撞到会去哪(反事实位置)。
  • 因果判断与反事实判断高度相关。
  • 群体责任归因(Lagnado et al., 2013; Zultan et al., 2012):
  • 厨师团队“烹饪秀”实验:需要至少一份前菜、一份主菜、一份甜品才能赢得团队胜利。
  • 如果所有菜品都通过,谁对团队获胜负责?关键思想:反事实关键性测试——若某厨师 failed,团队是否 still win?
  • D 和 C (甜点、主菜) 是汇合点(conjunct of two dishes),A 和 B (前菜) 是析取点(disjunct)。
  • 结果:责任随距关键性的距离递减(Chockler & Halpern: Resp = 1/(1+N)N = 需要将多少其他 agent 的状态翻转为“fail”以使该 agent 变为 pivotal)。
  • 合取者责任 > 析取者;析取者数量增加时个人责任减少;合取者数量增加个人责任常数。
  • 另外,人们还考虑预期的关键性——这个 agent 在事前有多大概率会成为关键节点。
  • The Blame Game(Franklin et al., 2022):模拟包含人和 AI 的车祸场景;展现人对多种因素(意向、知识、预知)的综合推理,但对 AI 和人类的责备模式复杂、尚在研究。

[0:43–0:47] 讨论者(Neil Bramley)点评

  • 三个讨论点:
  • 离散表示 vs. 连续时空环境:人会将连续输入离散化为“事件”(与 Victor Btesh 的实验呼应)。自变量与因变量的“测量选择”本身就是一个完整的因果推断难题(引 Ti Gong 的工作:同样的 zero-contingency 数据,告知 vs. 不告知测量日选择,因果判断可能反转)。
  • 因果假设的生成与适应:Neurath's ship 只是渐进修改,但更根本的问题是如何从零开始生成增长因果模型(非参数式、开放式的结构学习)。
  • 反事实的模糊性:不同人对“什么应该保持不变”的看法不同(如疫情期间是否应该封锁),这是许多分歧的根源。

[0:47–0:59] 问答(简要)

  • 来自 Jonathan 的提问:炸药测试的“零和”偏差是否可用语用角度解释(被试误解了问题)?
  • 讲者回应:他们做了很多实验避免语用解读,偏差稳定存在。

四、对应论文与开放问题

对应论文(依据转写与幻灯片)

  1. Neurath's ship:Bramley, N. R., Dayan, P., Griffiths, T. L., & Lagnado, D. A. (2017). Formalizing Neurath's ship: Approximate algorithms for online causal learning. Psychological Review, 124(3), 301–338.
  2. 零和证据偏差:Pilditch, T. D., Fenton, N., & Lagnado, D. A. (2019). The zero-sum fallacy in evidence evaluation. Psychological Science, 30(8), 1198–1209. (publisher 和杂志均可能有误,待核对)
  3. 反事实模拟模型:Gerstenberg, T., Goodman, N. D., Lagnado, D. A., & Tenenbaum, J. B. (2022). A counterfactual simulation model of causal judgments in physical scenes. Psychological Review, 129(4), 670–699. (转录可能不全)
  4. 连续时间因果学习:Btesh, V., Bramley, N. R., & Lagnado, D. A. (2024, submitted). 标题未知。
  5. 责任归因在群体中:Lagnado, D. A., Gerstenberg, T., & Zultan, R. (2013). Causal responsibility and counterfactual reasoning. Topics in Cognitive Science;Zultan, R., Gerstenberg, T., & Lagnado, D. A. (2012). (具体刊名年份待核实)
  6. The Blame Game:Franklin, L., et al. (2022). (具体需查)
  7. 改进工具:Cruz, A., et al. (2020); Nyberg, E. P., et al. (2022) —— IARPA 项目,交互式贝叶斯网络工具提升情报分析;讲者提到用于法官/律师的培训工具。

开放问题(每条扎根于转写)

  1. [0:25] 零和偏差的来源:是语用误解(回答不同的问题)还是深层计算策略(如将认知负荷简化为零和)?讲者承认存在语用解释可能,但实验反复排除了它——那真正的根源是什么?→ 适合设计一个数学上严格区分认知资源假设与语用假设的实验。
  2. [0:42] 预期关键性 at play:责任归因实验发现人们不仅用事后反事实关键性(pivotalness),还看事前预期的关键性——这个维度目前形式化为 Chockler & Halpern 框架(静态事后)没有涵盖。需要提出事前-事后融合的归因模型
  3. [0:27] 测量选择如何影响因果推断:讨论者 Bramley 引了 Ti Gong 的工作——将“测量日”选择的叙述架在因果结构之外(C → OutcomeExperimenter → Measurement Day),竟能逆转因果判断。这指向数据收集过程的因果图(设计图)对最终推断的重要性——统计学家常假设数据搜集是外生(exogenous)的,但人的直觉显然将其当作内生变量。这是个开放问题:能否将“测量过程选择”形式化为图形工具并用 do-calculus 分析?
  4. [0:30–35] 欺骗情景下的模型简化:讲者指出许多被试将复杂问题过度简化为“坏车一定有不可靠卖方/好车一定有可靠卖方”的匹配关系。这是统计上的“错误条件独立假设”——可对应为在贝叶斯网络中错误地认为 QualityReliabilityReport d-分隔(实际上未观察到的父节点相交?)。这可以形式化为一个图模型诊断与错误推理模式的研究。
  5. [0:20] 连续时间中的链条偏差:人们容易过度添加链式边(把独立关系误判为链式关系)。这可能导出一个对算法(如 PC/FCI)处理反馈回路时的心理偏差的评估——是否人与算法一样在反馈回路中系统性高估链式结构?
  6. [0:45–47] 讨论者提出的开放问题:非参数因果结构增长:“how to get from zero to these complex causal models” —— 不是简单地搜索给定变量的 DAG 空间,而是 允许变量生成与变量发现(包括潜在变量)。这触及膨胀图模型(expanding DAGs) 及与之匹配的计算/统计复杂度问题。对于严格从事半参+高维统计的研究者,可以问:在变量集随样本量膨胀的设定下,是否仍有 consistencyfast structure learning?心理认知中的“保守性”是否能形式化为一种最小描述长度(MDL)正则

Maintained by 陈星宇 · Homepage · Source on GitHub

评论