Monotonicity in graphical causal models: an algorithmic approach¶

讲者: Young researchers' seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-04-22
主题: 因果推断
视频: https://youtu.be/Ik4MTjhHaVM · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：形状约束（Shape-Constrained）因果识别 —— 将单调性假设系统化地注入图因果模型的非参数反事实识别框架。

经典的非参数图识别（do-calculus、后门、前门、完整的 ID 算法）不依赖函数形式假设，但遇到工具变量（IV）、含未观测混杂的场景，通常只能识别局部效应（如 LATE）而牺牲可推广性。另一极是线性高斯模型，利用参数形式获得更强识别力（如半溯因、工具集、IV 2SLS）。形状约束处于两者之间：保留非参数灵活性，但施加单调性（或凸性/差分单调性）这类可解释的剂量-反应结构假设，从而解锁原本不可识别的反事实量。

这条工作线的奠基性结果是 Angrist & Imbens (1995) 的 LATE（Local Average Treatment Effect）：在 IV 满足单调性（工具对治疗方向一致）的前提下，可以从观察数据中识别治愈者（compliers）的平均处理效应。此后的扩展包括：Imbens (2020) 明确讨论 PO 框架与图模型的差距，认为图模型难以容纳单调性等形状约束；而本报告的工作（Maiti, Plecko, Bareinboim, 2025）试图 用图模型 + 算法自动处理单调性，证明这个批评不成立。

当前 frontier：完成单调性+图模型的完整识别算法，并证明其完备性（至少针对第3层（反事实）到第2层（干预）的约简被证明完备，第2层内单调性能否进一步帮助识别则尚未完全证明）。这与非参数图识别的“ID算法”（Tian & Pearl, 2002）和“counterfactual identification machinery”（Bareinboim 等人系列工作）直接衔接。

本报告站在这条交汇点上：它把单调性写成图上的“+”边，定义两类约简规则（简化规则、差分规则），将这些规则插入已有的“查询清洗 → 单调性约简 → 反事实分解（C-component factorization）→ 调用 identify() 例程”的流水线，从而自动输出识别表达式或 FAIL。

二、最小内核 / 一个最简例子¶

LATE 的图模型版本：单调性如何将一个不可识别的 ATE 转化为可识别的 CATE 在治愈子群上。

符号与模型（以二值工具、二值治疗、二值结果为例）： - 可观测数据：\( (Z, X, Y) \)，其中 \( Z \) 为工具（0/1），\( X \) 为治疗（0/1），\( Y \) 为结果（0/1或连续）。 - 潜在变量：\( X_z \) 表示若工具设为 \( z \) 时的治疗状态；\( Y_x \) 表示若治疗设为 \( x \) 时的结果。存在未观测混杂 \( U \) 连接 \( X \) 和 \( Y \)。 - 图结构：\( Z \rightarrow X \rightarrow Y \)，且 \( X \leftrightarrow Y \)（或通过 \( U \) 连接）。边 \( Z \to X \) 上标“+”表示单调性假设。 - 单调性：对每一个体，\( X_{z=1} \ge X_{z=0} \)（即从不违抗者，没有 defier）。 - 目标 estimand：治愈者平均处理效应 \( \text{LATE} = E[Y_{x=1} - Y_{x=0} \mid X_{z=0}=0, X_{z=1}=1] \)。

核心思想（证明 Sketch）：

由一致性、排斥限制（\( Y_x \perp\!\!\!\perp Z \) 从图推出）重写差分：
\[E[Y\mid Z=1] - E[Y\mid Z=0] = E[(X_{z=1} - X_{z=0})(Y_{x=1} - Y_{x=0})]\]
由全概率公式展开：
\[= P(X_{z=1}-X_{z=0}=1) \cdot E[Y_{x=1}-Y_{x=0}\mid X_{z=1}-X_{z=0}=1] \;+\; P(X_{z=1}-X_{z=0}=-1) \cdot E[Y_{x=1}-Y_{x=0}\mid X_{z=1}-X_{z=0}=-1]\]
单调性使得第二项为零，因为 \( X_{z=1}-X_{z=0} \ge 0 \) 恒成立，不可能为 -1。
于是：
\[\text{LATE} = \frac{E[Y\mid Z=1] - E[Y\mid Z=0]}{P(X=1\mid Z=1) - P(X=1\mid Z=0)}\]
该表达式完全由观测数据识别，而普通的 ATE（未在治愈子群上条件）并不可识别。

关键洞察：单调性让我们从联合反事实分布（joint over counterfactual outcomes，一般不可识别）退化到仅含单变量差异项的表达式（no joint），这是该算法两类约简规则的直觉基础。

三、报告主体：讲者讲了什么¶

[0:01:04–0:01:38] 讲者自我介绍，指出两篇资料：technical note（https://causalai.net/r116b.pdf）和 AAAI 2025 正刊论文（Maiti, Plecko, Bareinboim, 2025，https://causalai.net/r116.pdf）。

[0:01:43–0:03:28] 介绍“识别谱系”：非参数端（条件可忽略性、后门/前门准则、do-calculus、完整算法）与线性高斯端（因果回归、IV、工具集、半溯因、完整算法）。强调中间地带——形状约束识别，本工作聚焦单调性。

[0:03:30–0:05:40] 用 LATE 作为动机例子。介绍 IV 图（Z→X→Y，未观测混杂 X↔Y）。点明在普通 IV 图中 ATE 不可识别，但 Angrist & Imbens (1995) 在单调性下识别了治愈者组的 CATE。

[0:05:40–0:11:03] 复习 LATE 证明的每一步：利用一致性、排斥限制（从图隐含的 \( Y_x \perp\!\!\!\perp Z, X_z \perp\!\!\!\perp Z \)）、全概率、单调性消去 defier 项。引出核心问题：这个证明可以自动化吗？

[0:11:04–0:15:45] 定义一般框架与符号： - \( W \)：二值变量；\( T \)：单调父母集（带“+”边的父母）；\( S \)：非单调父母集。 - 单调性定义：\( \forall t \le t', s, u: \; W_{t,s}(u) \le W_{t', s}(u) \)。 - 介绍两种单调性约简规则： - 简化规则（S1, S2）：若 \( W_{t,s}=0 \implies W_{t',s}=0 \)，则 \( P(Y^*, W_{t,s}=0, W_{t',s}=0)=P(Y^*, W_{t',s}=0) \)；类似对取 1 的情形。 - 差分规则（D1, D2）：由单调性知 \( P(W_{t,s}=1, W_{t',s}=0)=0 \)，结合全概率可推导

\[P(Y^*, W_{t,s}=0, W_{t',s}=1) = P(Y^*, W_{t',s}=1) - P(Y^*, W_{t,s}=1)\]

或等价地以 0 的项表示。 - 这些规则的核心效用：将联合反事实概率（Joint over counterfactual outcomes）转化为非联合（No joint）形式的表达式，大大简化识别。

[0:15:45–0:18:13] 算法总览（流程图）： - 输入：反事实查询 Q（如 \( P(Y_{x=1}=1, X_{z=0}=0, X_{z=1}=1) \)）。 - Step 1: Query Cleaning（本例为空，不需清洗）。 - Step 2: Monotonicity Reduction Lemma：应用差分规则，将 Q 分解为两个更容易的项（如 \( P(Y_{x=1}=1, X_{z=1}=1) \) 和 \( P(Y_{x=1}=1, X_{z=0}=1) \)）。 - Step 3: Counterfactual Factorization（C-component factorization，参照 Tian & Pearl 2002 的分解方法），得到可在干预层（Layer 2）表达的项。 - Step 4: 调用 identify() 例程（完整算法，来自之前的工作），输出识别表达式或 FAIL。 - 以 LATE 为例展示如何得到经典的识别公式。

[0:18:13–0:24:03] 两个扩展应用： 1. 401(k) 数据集（讲者口头指出引自 Abodi 2003 等）—— 考虑不同收入组 W 下的条件 LATE： - 图中有额外边（Z→Y 破坏排斥限制；额外混杂如职业、储蓄倾向）。 - 传统 LATE 因假设不满足而不可识别；但算法仍输出识别表达式。 - 实证验证：基于 SCM 构造 ground truth，与几种现存的 LATE 扩展方法比较，只有本算法正确。 2. 公平性中的后处理条件作用（Post-treatment Conditioning）—— 性别（sex）→ 学历（M）→ 收入（Y），若 sex→M 和 M→Y 都带单调性，可以在给定学历水平下识别性别对收入的因果效应，这通常不可识别（因学历是中间变量，条件化后会产生选择偏差）。

[0:24:03–0:30:20] 结论与 Q&A： - 总结：提出了将单调性系统融入反事实识别算法的 sound 方法。 - 引用 Imbens (2020) 的批评（DAG 难以容纳形状约束），用本工作作为反例。 - Q&A 关键点： - 算法完全非参数（只假设单调性，不假设线性）。 - 当前主要结果要求 W 和 T 的成员为二值变量（单调性定义自然）；可扩展到多值（见附录）。 - 关于完备性：第3层→第2层的约简部分相信完备，但第2层内单调性能否进一步帮助识别则尚未完全证明（这是开放性困难，与单调性在干预层的作用空间有关）。

（注：第二个报告 [0:30:20–0:59:00] 是关于 RL in mobile health 的 Dai 的演讲，与用户研究方向无关，此处略去分析。）

四、对应论文与开放问题¶

对应论文¶

正刊论文：Maiti, Plecko, Bareinboim (2025). Monotonicity in Graphical Causal Models: An Algorithmic Approach. AAAI 2025. 网址：https://causalai.net/r116.pdf （来自幻灯片，讲者确认）。
技术笔记（更短的版本，可能用于会议展示）：https://causalai.net/r116b.pdf （幻灯片刻意列出）。

注意：转写中提到“full paper that came out in triple AI this year”，与 AAAI 2025 一致。讲者名“Plecko”在幻灯片拼写正确，转写中 ASR 误为“Pledgeko”，以幻灯片为准。

开放问题（每条来自转写中的具体时间点）¶

完备性证明（Layer 2 部分）（[0:29:17–0:30:20] 讲者与 Razi 的对话）：该算法在第3层（反事实）→第2层（干预）的约简上相信完备且可能不难证明；但单调性能否帮助识别 Layer 2（干预层）查询仍未有一般性结论。讲者认为“答案是否”，但证明非平凡。这是直接开放问题：能否证明或反驳单调性在 any Layer 2 query 上不会扩大可识别集？
多值/连续变量的单调性（[0:27:25–0:27:48] Q&A 中的提问）：当前主要结果要求变量（W 和 T 的成员）为二值。讲者提到可以扩展到更一般情况（已有附录），但细节未在演讲中展开。该算法的规则能否推广到有序多值或连续变量的严格单调性定义，并保持可计算性？
与现有识别算法的整合程度（[0:15:45–0:18:13]）：单调性约简步骤被放入反事实识别流水线，但该流水线依赖已有的 identify() 例程（Tian & Pearl 2002 的风格）。这个例程本身的适用范围（例如是否只处理 Markovian 模型？是否要求满条件独立性？）可能对最终识别能力形成隐性限制——需要在更一般图结构上检验该组合方法的完备性。
实际数据中的单调性验证（转写在 401(k) 例子的 Q&A 中未详细讨论）：单调性本身是未观测假设（如 no defiers 在 IV 中）。如何利用观测数据检验/敏感度分析单调性假设？ 这是研究者的典型关切（类似 sensitivity analysis for IV monotonicity），但本工作未提供。

（其余开放问题可能来自应用的细节，上述三条已涵盖演讲中的明确缺口。）

Maintained by 陈星宇 · Homepage · Source on GitHub