跳转至

Monotonicity in graphical causal models: an algorithmic approach

讲者: Young researchers' seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-04-22
主题: 因果推断
视频: https://youtu.be/Ik4MTjhHaVM · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

子方向:形状约束(Shape-Constrained)因果识别 —— 将单调性假设系统化地注入图因果模型的非参数反事实识别框架。

经典的非参数图识别(do-calculus、后门、前门、完整的 ID 算法)不依赖函数形式假设,但遇到工具变量(IV)、含未观测混杂的场景,通常只能识别局部效应(如 LATE)而牺牲可推广性。另一极是线性高斯模型,利用参数形式获得更强识别力(如半溯因、工具集、IV 2SLS)。形状约束处于两者之间:保留非参数灵活性,但施加单调性(或凸性/差分单调性)这类可解释的剂量-反应结构假设,从而解锁原本不可识别的反事实量。

这条工作线的奠基性结果是 Angrist & Imbens (1995) 的 LATE(Local Average Treatment Effect):在 IV 满足单调性(工具对治疗方向一致)的前提下,可以从观察数据中识别治愈者(compliers)的平均处理效应。此后的扩展包括:Imbens (2020) 明确讨论 PO 框架与图模型的差距,认为图模型难以容纳单调性等形状约束;而本报告的工作(Maiti, Plecko, Bareinboim, 2025)试图 用图模型 + 算法自动处理单调性,证明这个批评不成立。

当前 frontier:完成单调性+图模型的完整识别算法,并证明其完备性(至少针对第3层(反事实)到第2层(干预)的约简被证明完备,第2层内单调性能否进一步帮助识别则尚未完全证明)。这与非参数图识别的“ID算法”(Tian & Pearl, 2002)和“counterfactual identification machinery”(Bareinboim 等人系列工作)直接衔接。

本报告站在这条交汇点上:它把单调性写成图上的“+”边,定义两类约简规则(简化规则、差分规则),将这些规则插入已有的“查询清洗 → 单调性约简 → 反事实分解(C-component factorization)→ 调用 identify() 例程”的流水线,从而自动输出识别表达式或 FAIL。

二、最小内核 / 一个最简例子

LATE 的图模型版本:单调性如何将一个不可识别的 ATE 转化为可识别的 CATE 在治愈子群上。

符号与模型(以二值工具、二值治疗、二值结果为例): - 可观测数据:\( (Z, X, Y) \),其中 \( Z \) 为工具(0/1),\( X \) 为治疗(0/1),\( Y \) 为结果(0/1或连续)。 - 潜在变量:\( X_z \) 表示若工具设为 \( z \) 时的治疗状态;\( Y_x \) 表示若治疗设为 \( x \) 时的结果。存在未观测混杂 \( U \) 连接 \( X \)\( Y \)。 - 图结构:\( Z \rightarrow X \rightarrow Y \),且 \( X \leftrightarrow Y \)(或通过 \( U \) 连接)。边 \( Z \to X \) 上标“+”表示单调性假设。 - 单调性:对每一个体,\( X_{z=1} \ge X_{z=0} \)(即从不违抗者,没有 defier)。 - 目标 estimand:治愈者平均处理效应 \( \text{LATE} = E[Y_{x=1} - Y_{x=0} \mid X_{z=0}=0, X_{z=1}=1] \)

核心思想(证明 Sketch):

  1. 由一致性、排斥限制(\( Y_x \perp\!\!\!\perp Z \) 从图推出)重写差分:
    \[E[Y\mid Z=1] - E[Y\mid Z=0] = E[(X_{z=1} - X_{z=0})(Y_{x=1} - Y_{x=0})]\]
  2. 由全概率公式展开:
    \[= P(X_{z=1}-X_{z=0}=1) \cdot E[Y_{x=1}-Y_{x=0}\mid X_{z=1}-X_{z=0}=1] \;+\; P(X_{z=1}-X_{z=0}=-1) \cdot E[Y_{x=1}-Y_{x=0}\mid X_{z=1}-X_{z=0}=-1]\]
  3. 单调性使得第二项为零,因为 \( X_{z=1}-X_{z=0} \ge 0 \) 恒成立,不可能为 -1。
  4. 于是:
    \[\text{LATE} = \frac{E[Y\mid Z=1] - E[Y\mid Z=0]}{P(X=1\mid Z=1) - P(X=1\mid Z=0)}\]
    该表达式完全由观测数据识别,而普通的 ATE(未在治愈子群上条件)并不可识别。

关键洞察:单调性让我们从联合反事实分布(joint over counterfactual outcomes,一般不可识别)退化到仅含单变量差异项的表达式(no joint),这是该算法两类约简规则的直觉基础。

三、报告主体:讲者讲了什么

[0:01:04–0:01:38] 讲者自我介绍,指出两篇资料:technical note(https://causalai.net/r116b.pdf)和 AAAI 2025 正刊论文(Maiti, Plecko, Bareinboim, 2025,https://causalai.net/r116.pdf)。

[0:01:43–0:03:28] 介绍“识别谱系”:非参数端(条件可忽略性、后门/前门准则、do-calculus、完整算法)与线性高斯端(因果回归、IV、工具集、半溯因、完整算法)。强调中间地带——形状约束识别,本工作聚焦单调性。

[0:03:30–0:05:40] 用 LATE 作为动机例子。介绍 IV 图(Z→X→Y,未观测混杂 X↔Y)。点明在普通 IV 图中 ATE 不可识别,但 Angrist & Imbens (1995) 在单调性下识别了治愈者组的 CATE。

[0:05:40–0:11:03] 复习 LATE 证明的每一步:利用一致性、排斥限制(从图隐含的 \( Y_x \perp\!\!\!\perp Z, X_z \perp\!\!\!\perp Z \))、全概率、单调性消去 defier 项。引出核心问题:这个证明可以自动化吗?

[0:11:04–0:15:45] 定义一般框架与符号: - \( W \):二值变量;\( T \):单调父母集(带“+”边的父母);\( S \):非单调父母集。 - 单调性定义:\( \forall t \le t', s, u: \; W_{t,s}(u) \le W_{t', s}(u) \)。 - 介绍两种单调性约简规则: - 简化规则(S1, S2):若 \( W_{t,s}=0 \implies W_{t',s}=0 \),则 \( P(Y^*, W_{t,s}=0, W_{t',s}=0)=P(Y^*, W_{t',s}=0) \);类似对取 1 的情形。 - 差分规则(D1, D2):由单调性知 \( P(W_{t,s}=1, W_{t',s}=0)=0 \),结合全概率可推导

\[P(Y^*, W_{t,s}=0, W_{t',s}=1) = P(Y^*, W_{t',s}=1) - P(Y^*, W_{t,s}=1)\]
或等价地以 0 的项表示。 - 这些规则的核心效用:将联合反事实概率(Joint over counterfactual outcomes)转化为非联合(No joint)形式的表达式,大大简化识别。

[0:15:45–0:18:13] 算法总览(流程图): - 输入:反事实查询 Q(如 \( P(Y_{x=1}=1, X_{z=0}=0, X_{z=1}=1) \))。 - Step 1: Query Cleaning(本例为空,不需清洗)。 - Step 2: Monotonicity Reduction Lemma:应用差分规则,将 Q 分解为两个更容易的项(如 \( P(Y_{x=1}=1, X_{z=1}=1) \)\( P(Y_{x=1}=1, X_{z=0}=1) \))。 - Step 3: Counterfactual Factorization(C-component factorization,参照 Tian & Pearl 2002 的分解方法),得到可在干预层(Layer 2)表达的项。 - Step 4: 调用 identify() 例程(完整算法,来自之前的工作),输出识别表达式或 FAIL。 - 以 LATE 为例展示如何得到经典的识别公式。

[0:18:13–0:24:03] 两个扩展应用: 1. 401(k) 数据集(讲者口头指出引自 Abodi 2003 等)—— 考虑不同收入组 W 下的条件 LATE: - 图中有额外边(Z→Y 破坏排斥限制;额外混杂如职业、储蓄倾向)。 - 传统 LATE 因假设不满足而不可识别;但算法仍输出识别表达式。 - 实证验证:基于 SCM 构造 ground truth,与几种现存的 LATE 扩展方法比较,只有本算法正确。 2. 公平性中的后处理条件作用(Post-treatment Conditioning)—— 性别(sex)→ 学历(M)→ 收入(Y),若 sex→M 和 M→Y 都带单调性,可以在给定学历水平下识别性别对收入的因果效应,这通常不可识别(因学历是中间变量,条件化后会产生选择偏差)。

[0:24:03–0:30:20] 结论与 Q&A: - 总结:提出了将单调性系统融入反事实识别算法的 sound 方法。 - 引用 Imbens (2020) 的批评(DAG 难以容纳形状约束),用本工作作为反例。 - Q&A 关键点: - 算法完全非参数(只假设单调性,不假设线性)。 - 当前主要结果要求 W 和 T 的成员为二值变量(单调性定义自然);可扩展到多值(见附录)。 - 关于完备性:第3层→第2层的约简部分相信完备,但第2层内单调性能否进一步帮助识别则尚未完全证明(这是开放性困难,与单调性在干预层的作用空间有关)。

(注:第二个报告 [0:30:20–0:59:00] 是关于 RL in mobile health 的 Dai 的演讲,与用户研究方向无关,此处略去分析。)

四、对应论文与开放问题

对应论文

  • 正刊论文:Maiti, Plecko, Bareinboim (2025). Monotonicity in Graphical Causal Models: An Algorithmic Approach. AAAI 2025. 网址:https://causalai.net/r116.pdf (来自幻灯片,讲者确认)。
  • 技术笔记(更短的版本,可能用于会议展示):https://causalai.net/r116b.pdf (幻灯片刻意列出)。

注意:转写中提到“full paper that came out in triple AI this year”,与 AAAI 2025 一致。讲者名“Plecko”在幻灯片拼写正确,转写中 ASR 误为“Pledgeko”,以幻灯片为准。

开放问题(每条来自转写中的具体时间点)

  1. 完备性证明(Layer 2 部分)([0:29:17–0:30:20] 讲者与 Razi 的对话):该算法在第3层(反事实)→第2层(干预)的约简上相信完备且可能不难证明;但单调性能否帮助识别 Layer 2(干预层)查询仍未有一般性结论。讲者认为“答案是否”,但证明非平凡。这是直接开放问题:能否证明或反驳单调性在 any Layer 2 query 上不会扩大可识别集?

  2. 多值/连续变量的单调性([0:27:25–0:27:48] Q&A 中的提问):当前主要结果要求变量(W 和 T 的成员)为二值。讲者提到可以扩展到更一般情况(已有附录),但细节未在演讲中展开。该算法的规则能否推广到有序多值或连续变量的严格单调性定义,并保持可计算性?

  3. 与现有识别算法的整合程度([0:15:45–0:18:13]):单调性约简步骤被放入反事实识别流水线,但该流水线依赖已有的 identify() 例程(Tian & Pearl 2002 的风格)。这个例程本身的适用范围(例如是否只处理 Markovian 模型?是否要求满条件独立性?)可能对最终识别能力形成隐性限制——需要在更一般图结构上检验该组合方法的完备性。

  4. 实际数据中的单调性验证(转写在 401(k) 例子的 Q&A 中未详细讨论):单调性本身是未观测假设(如 no defiers 在 IV 中)。如何利用观测数据检验/敏感度分析单调性假设? 这是研究者的典型关切(类似 sensitivity analysis for IV monotonicity),但本工作未提供。

(其余开放问题可能来自应用的细节,上述三条已涵盖演讲中的明确缺口。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论