Intervention Generalization: A View from Factor Graph Models¶
讲者: Ricardo Silva
讨论人: Anish Agarwal
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-10-17
主题: 因果推断
视频: https://youtu.be/y0KCHT9qy8c · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2306.04027 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这场报告(Ricardo Silva, OCIS 2023-10-17)对应的论文为 arXiv 2306.04027,合作者包括 Gecia Bravo-Hermsdorff、David S. Watson、Jialin Yu、Jakob Zeitler。它讨论的干预泛化(intervention generalization)问题是:给定一组来自不同干预 regime 下的数据,如何预测一个新 regime(此前从未观测过的干预组合)下系统(随机向量 X 或某个目标 Y)的分布或期望。这类问题的经典研究路径包括:
- DAG 框架下的 σ-calculus(Correa and Bareinboim, 2020),通常假设每个干预针对单个变量(原子干预或 soft intervention 也可,但保持有向无环结构)。在无隐藏变量、分布为正时,只要每个变量在每个可能干预水平下都至少被观测一次,就能通过 do-演算/σ-演算识别。
- 链图与/或边际独立性(Lauritzen and Richardson, 2002; Ogburn et al., 2020),允许反馈环和双向关系,但通常需要更细致的结构假设。
本报告采用因子图模型(factor graph model)的视角,引入 Interventional Factor Model (IFM),将干预 indicator 作为图中与随机变量并列的节点,把联合密度写为若干因子的乘积,每个因子只依赖于随机变量的一个子集和干预向量的一部分。核心思想是:干预改变的不是某个变量的条件分布,而是因子之间的相互作用(“soft interventions on relations”),因此不需要 DAG 的方向性,天然允许反馈环、非原子干预、且不需明确区分变量和干预的因果顺序。识别问题转化为:给定训练 regime 集合 Σ_train 下密度 p(x;σ) 的因子分解,能否通过乘积和比值运算重建目标 regime σ⋆ 的密度(未观测时)。报告给出了图形化的消息传递方案和代数化的线性系统解法。
当前 frontier 上,与这项工作直接交叉的有:因果表象学习(causal representation learning, e.g., 将干预作用于潜在因子而非直接观测变量)、能量基模型与因果建模的结合(Dawid 的扩展条件独立性框架)、以及在稀疏设计下如何利用结构而非 smoothness 假设。本报告站在“放弃 DAG 的方向性假设,只保留因子间的边际/条件独立性”这一路线,试图在完全非参数条件下(不假定干预-结果函数的平滑性)仅凭因子结构完成泛化。
二、最小内核 / 一个最简例子¶
符号
- 随机变量:\(X = (X_1, X_2, X_3)\),每个 \(X_j\) 可以是连续或离散。
- 干预向量:\(\sigma = (\sigma_1, \sigma_2, \sigma_3)\),每个 \(\sigma_i \in \{0,1\}\),0 表示“不干预”(自然状态),1 表示某种主动干预(如“抑制某个蛋白”)。
- 训练 regime 集合 \(\Sigma_{\text{train}} \subseteq \{0,1\}^3\):所有六个组合 \((0,0,0), (0,0,1), (0,1,0), (0,1,1), (1,0,0), (1,0,1)\)。目标 regime \(\sigma^\star = (1,1,1)\) 不在训练集中。
- 假设一个已知的因子分解(称为 IFM):
每个因子 \(f_k\) 是 \(x\) 的函数,其参数依赖于特定的 \(\sigma\) 子集(本例中 \(F_1 = \{1,2\}, F_2 = \{2,3\}\))。归一化常数(partition function)依赖于 \(\sigma\),但下面的比率操作会自动忽略它。
核心思想:把目标密度 \(p(x;\sigma^\star)\) 表示为训练可观测密度之积与商的组合,利用因子的局部性消去归一化常数。
从训练集可得到:
类似地,
最终可以构造出:
若再选择适当的训练 regime 消去分母,即可得到 \(p(x;(1,1,1)) \propto \frac{p(x;(1,1,0))\,p(x;(1,0,1))}{p(x;(0,0,0))}\) 等形式(具体构造取决于因子图的结构)。
关键观察:整个过程不涉及任何关于 X 内部独立性假设,只依赖于干预向量上的因子结构。这比 DAG 更灵活,因为干预可以直接“捆绑”在因子上,而非绑定在单个变量。
三、报告主体:讲者讲了什么¶
以下按报告大致顺序组织,附时间戳(来自转写稿,可能存在若干秒偏移)。
3.1 动机与问题设置 [0:00:00–0:12:30]¶
- 例子:Sachs et al. (2005) 的细胞生物学数据,测量多种蛋白质和脂质浓度,使用不同抑制剂(干预)处理细胞。干预不是针对单个变量的原子操作,而是“胖手”式地同时影响多个变量。细胞测量是单次快照(cross-section),无法观测动态过程;存在反馈环。
- 目标:预测未观测的组合干预下的浓度分布或期望值。
- 与标准因果推断的区别:干预空间巨大且缺乏平滑假设,因此需要结构假设而非函数光滑性。
- 另一个例子:中介分析的推广:将处理分解为多个组分(如香烟的尼古丁 vs 其他成分),希望从只有全吸烟 vs 全不吸烟的数据中识别部分组分的效果。这对应“干预泛化”的 mediation 视角。
3.2 能量基模型与 IFM 形式 [0:12:30–0:23:00]¶
- 经典能量基模型:\(p(x) \propto e^{-E(x)}\),能量函数设计体现变量间约束。干预 indicator 可以附加到能量项的索引上:
\[p(x;\sigma) \propto \prod_{k=1}^l f_k(x_{S_k}; \sigma_{F_k}),\]其中 \(S_k\) 是 X 的子集,\(F_k\) 是 σ 的子集。每个因子 \(f_k\) 具体形式未知(可参数化,如神经网络)。 - 这种分解不要求有向性:因子对应的是“交互作用”而非条件分布。如果干预改变某个系数(soft intervention),它自然对应于修改这个因子。
- 与 DAG 对比:DAG 中干预一个变量会删除指向它的边,而 IFM 中只是改变对应的因子。IFM 更适用于“干预影响关系”而非“影响变量”的场景。
3.3 识别方法 [0:23:00–0:33:25]¶
- 基线 regime σ = (0,…,0) 作为参照。将目标 regime 表示为乘积/比率式的组合。
- 例 1(可分解结构):因子图在 σ 节点上构成树状或可分解图。可以通过消息传递,将问题分解为局部子问题:每一组共享 σ 变量的因子可单独处理。
- 例 2(含环结构):σ 节点间有环,如三个 σ 两两成对出现在因子中。此时不能用简单消息传递,但可转化为线性系统:将每个训练 regime 的密度视为未知因子的乘积,目标密度也视为乘积,通过比较指数得到关于未知因子出现次数的线性方程组,求解即可得到目标密度可表示为若干训练密度的乘积与商(系数为整数)。
- 幻灯片举例:对于 \(p(x;\sigma)\propto f_1(x;\sigma_1,\sigma_2)f_2(x;\sigma_2,\sigma_3)f_3(x;\sigma_1,\sigma_3)\),从 7 个训练 regime(排除全 1)求解系数 q1,…,q7,解得 \(q_1=q_4=q_6=q_7=1, q_2=q_3=q_5=-1\),从而
\[p(x;(1,1,1)) \propto \frac{p(x;1)\,p(x;4)\,p(x;6)\,p(x;7)}{p(x;2)\,p(x;3)\,p(x;5)}.\]这展示了一种纯代数判据:线性系统有解⇔目标 regime 可由训练 regime 识别。 - 补充:该方法不利用 X 内部的马尔可夫结构,仅基于 σ 的因子图。但这意味着模型的有效性依赖于(可由领域知识或结构学习获得的)因子图是否正确。
3.4 知识获取与结构学习(简要提及)[0:33:25–0:37:20]¶
- 基于 Dawid (2021) 的扩展条件独立性(ECI):干预 indicator 与随机变量之间的独立性可以用条件独立性语句表达。例如“条件可忽略性+一致性”对应独立于 F_x 给定 X,Z 等。
- 这些独立性可以直接指导因子图结构(哪些 σ 与哪些 X 共享因子)。
- 对于非独立性约束(如无三阶交互),需要 domain knowledge 或假定低阶交互结构。
3.5 估计方法与实验 [0:37:20–0:42:00]¶
- 直接密度比估计(如 KLIEP)试图用训练 regime 的乘积之比重建目标密度,但讲者尝试后效果不佳。
- 改用伪似然法(pseudo-likelihood):离散化 X(不改变参数维度),用神经网络参数化每个 log-factor,优化伪似然避免计算 partition function。
- 半合成实验:用 Sachs 和 DREAM4 数据拟合出一个 DAG 和一个 IFM 作为数据生成器,然后从中采样训练数据(只包含单个干预的 regime,测试 regime 为未观测的组合)。
- 比较三种方法:IFM(本文)、黑盒模型(直接回归 Y 对 σ,用 XGBoost)、DAG 模型(异方差神经网络回归,利用 DAG 结构)。
- 结果:当真实生成过程是 DAG 时,DAG 模型表现最好;黑盒模型也不差(因为函数接近线性)。当真实过程是 IFM 时,DAG 模型的误差急剧变大(跨越数量级),而 IFM 模型表现更稳定。黑盒模型在 IFM 下恶化程度小于 DAG。
- 讲者指出:尽管 IFM 在 DAG 情形下不如 DAG,但误差幅度较小;DAG 在 IFM 情形下误差幅度很大,提示 IFM 更稳健(但需注意两图纵轴标度不同)。
3.6 讨论与 Q&A 摘要 [0:42:00–1:03:28]¶
- Anish Agarwal 的讨论:提出将 IFM 与计量经济学中的潜在因子模型(latent factor model)连接,该模型假设潜在因子为低维 + 双线性和条件均值零,识别条件类似于“行/列张成包含性”。Agarwal 提问(a)IFM 能否推广到有未观测混淆且混淆具有潜在分解的情形?(b)能否将 IFM 的识别条件映射为张成包含条件?
- 讲者回应:大致可以看作是一种“因果表示学习”问题,将干预作用于潜在分布;用神经网络参数化本身就可视为一种低维隐层。更系统的连接有待研究。
- 其他提问:干预是否可以是任意类型(是,不限于二元)?因子模型与 DAG 下因果推理的根本区别在于:IFM 放弃方向性,只保留条件独立性结构。结构学习需要类似于“faithfulness”的假设来从观测 regime 推广到其他 regime。
四、对应论文与开放问题¶
对应论文¶
- arXiv: 2306.04027 (2023-06-06),标题 “Intervention Generalization: A View from Factor Graph Models”。作者:Gecia Bravo-Hermsdorff, David S. Watson, Jialin Yu, Jakob Zeitler, Ricardo Silva。该文获 NeurIPS 2023 接收(摄影像提及“updated NeurIPS 2023 version appearing soon”)。
- 幻灯片名称中列出的识别结果和线性系统解法均与论文匹配。
报告明确的开放问题(每条附时间戳来源)¶
- 如何有效利用密度比估计:讲者尝试了 KLIEP 但不成功,但认为该方法理论上可行,值得进一步探索更稳健的密度比估计器(如使用深度能量比模型)。[~0:34:00]
- 安全边界诊断:当外推太远时,因子分解的前提可能失效。需要一些诊断工具(例如,计算目标 regime 下密度比的极端程度)来预警“太冒进”。 [~0:42:00]
- 混合平滑假设与结构假设:当前方法完全不利用干预-期望函数间的光滑性。若训练 regime 密度或具备平滑性(如 σ 连续),可进一步缩小预测误差。如何将两种信息整合是一个开放方向。[~0:42:30]
- 接触潜在因子模型:如何将 IFM 扩展到未观测混淆变量(如层次因子分解),使其识别条件类似矩阵补全或合成控制中的“张成包含”条件。这一方向已在讨论中由 Anish Agarwal 和讲者共同提出。[~0:52:20–0:54:00]
- 结构学习与非交互三阶项:如何从数据中判断因子图的结构(尤其是当因子不仅代表条件独立性还代表相互作用)?传统结构学习中的 faithfulness 假设如何推广?[~1:00:00]
- 部分识别:当全局识别不成立时,能否对目标 regime 的某些边缘分布(如单个变量 Y)给出识别或不违反一致性的界?讲者提及消息传递可能解决子问题。[~0:28:40]
Maintained by 陈星宇 · Homepage · Source on GitHub