Intervention Generalization: A View from Factor Graph Models¶

讲者: Ricardo Silva
讨论人: Anish Agarwal
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-10-17
主题: 因果推断
视频: https://youtu.be/y0KCHT9qy8c · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2306.04027 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告（Ricardo Silva, OCIS 2023-10-17）对应的论文为 arXiv 2306.04027，合作者包括 Gecia Bravo-Hermsdorff、David S. Watson、Jialin Yu、Jakob Zeitler。它讨论的干预泛化（intervention generalization）问题是：给定一组来自不同干预 regime 下的数据，如何预测一个新 regime（此前从未观测过的干预组合）下系统（随机向量 X 或某个目标 Y）的分布或期望。这类问题的经典研究路径包括：

DAG 框架下的 σ-calculus（Correa and Bareinboim, 2020），通常假设每个干预针对单个变量（原子干预或 soft intervention 也可，但保持有向无环结构）。在无隐藏变量、分布为正时，只要每个变量在每个可能干预水平下都至少被观测一次，就能通过 do-演算/σ-演算识别。
链图与/或边际独立性（Lauritzen and Richardson, 2002; Ogburn et al., 2020），允许反馈环和双向关系，但通常需要更细致的结构假设。

本报告采用因子图模型（factor graph model）的视角，引入 Interventional Factor Model (IFM)，将干预 indicator 作为图中与随机变量并列的节点，把联合密度写为若干因子的乘积，每个因子只依赖于随机变量的一个子集和干预向量的一部分。核心思想是：干预改变的不是某个变量的条件分布，而是因子之间的相互作用（“soft interventions on relations”），因此不需要 DAG 的方向性，天然允许反馈环、非原子干预、且不需明确区分变量和干预的因果顺序。识别问题转化为：给定训练 regime 集合 Σ_train 下密度 p(x;σ) 的因子分解，能否通过乘积和比值运算重建目标 regime σ⋆ 的密度（未观测时）。报告给出了图形化的消息传递方案和代数化的线性系统解法。

当前 frontier 上，与这项工作直接交叉的有：因果表象学习（causal representation learning, e.g., 将干预作用于潜在因子而非直接观测变量）、能量基模型与因果建模的结合（Dawid 的扩展条件独立性框架）、以及在稀疏设计下如何利用结构而非 smoothness 假设。本报告站在“放弃 DAG 的方向性假设，只保留因子间的边际/条件独立性”这一路线，试图在完全非参数条件下（不假定干预-结果函数的平滑性）仅凭因子结构完成泛化。

二、最小内核 / 一个最简例子¶

符号
- 随机变量：\(X = (X_1, X_2, X_3)\)，每个 \(X_j\) 可以是连续或离散。
- 干预向量：\(\sigma = (\sigma_1, \sigma_2, \sigma_3)\)，每个 \(\sigma_i \in \{0,1\}\)，0 表示“不干预”（自然状态），1 表示某种主动干预（如“抑制某个蛋白”）。
- 训练 regime 集合 \(\Sigma_{\text{train}} \subseteq \{0,1\}^3\)：所有六个组合 \((0,0,0), (0,0,1), (0,1,0), (0,1,1), (1,0,0), (1,0,1)\)。目标 regime \(\sigma^\star = (1,1,1)\) 不在训练集中。
- 假设一个已知的因子分解（称为 IFM）：

\[p(x;\sigma) \propto f_1(x; \sigma_1, \sigma_2) \, f_2(x; \sigma_2, \sigma_3).\]

每个因子 \(f_k\) 是 \(x\) 的函数，其参数依赖于特定的 \(\sigma\) 子集（本例中 \(F_1 = \{1,2\}, F_2 = \{2,3\}\)）。归一化常数（partition function）依赖于 \(\sigma\)，但下面的比率操作会自动忽略它。

核心思想：把目标密度 \(p(x;\sigma^\star)\) 表示为训练可观测密度之积与商的组合，利用因子的局部性消去归一化常数。

从训练集可得到：

\[\frac{p(x; (1,1,0))}{p(x; (0,1,0))} = \frac{f_1(x;1,1) f_2(x;1,0)}{f_1(x;0,1) f_2(x;1,0)} = \frac{f_1(x;1,1)}{f_1(x;0,1)}.\]

类似地，

\[\frac{p(x; (1,0,1))}{p(x; (0,0,1))} = \frac{f_2(x;0,1)}{f_2(x;0,0)} \quad\text{(需依赖其他训练 regime 对齐)}.\]

最终可以构造出：

\[\frac{p(x; (1,1,1))}{p(x; (0,1,1))} = \frac{f_1(x;1,1)}{f_1(x;0,1)} \cdot \frac{f_2(x;1,1)}{f_2(x;1,0)}.\]

若再选择适当的训练 regime 消去分母，即可得到 \(p(x;(1,1,1)) \propto \frac{p(x;(1,1,0))\,p(x;(1,0,1))}{p(x;(0,0,0))}\) 等形式（具体构造取决于因子图的结构）。

关键观察：整个过程不涉及任何关于 X 内部独立性假设，只依赖于干预向量上的因子结构。这比 DAG 更灵活，因为干预可以直接“捆绑”在因子上，而非绑定在单个变量。

三、报告主体：讲者讲了什么¶

以下按报告大致顺序组织，附时间戳（来自转写稿，可能存在若干秒偏移）。

3.1 动机与问题设置 [0:00:00–0:12:30]¶

例子：Sachs et al. (2005) 的细胞生物学数据，测量多种蛋白质和脂质浓度，使用不同抑制剂（干预）处理细胞。干预不是针对单个变量的原子操作，而是“胖手”式地同时影响多个变量。细胞测量是单次快照（cross-section），无法观测动态过程；存在反馈环。
目标：预测未观测的组合干预下的浓度分布或期望值。
与标准因果推断的区别：干预空间巨大且缺乏平滑假设，因此需要结构假设而非函数光滑性。
另一个例子：中介分析的推广：将处理分解为多个组分（如香烟的尼古丁 vs 其他成分），希望从只有全吸烟 vs 全不吸烟的数据中识别部分组分的效果。这对应“干预泛化”的 mediation 视角。

3.2 能量基模型与 IFM 形式 [0:12:30–0:23:00]¶

经典能量基模型：\(p(x) \propto e^{-E(x)}\)，能量函数设计体现变量间约束。干预 indicator 可以附加到能量项的索引上：

\[p(x;\sigma) \propto \prod_{k=1}^l f_k(x_{S_k}; \sigma_{F_k}),\]
其中 \(S_k\) 是 X 的子集，\(F_k\) 是 σ 的子集。每个因子 \(f_k\) 具体形式未知（可参数化，如神经网络）。
这种分解不要求有向性：因子对应的是“交互作用”而非条件分布。如果干预改变某个系数（soft intervention），它自然对应于修改这个因子。
与 DAG 对比：DAG 中干预一个变量会删除指向它的边，而 IFM 中只是改变对应的因子。IFM 更适用于“干预影响关系”而非“影响变量”的场景。

3.3 识别方法 [0:23:00–0:33:25]¶

基线 regime σ = (0,…,0) 作为参照。将目标 regime 表示为乘积/比率式的组合。
例 1（可分解结构）：因子图在 σ 节点上构成树状或可分解图。可以通过消息传递，将问题分解为局部子问题：每一组共享 σ 变量的因子可单独处理。
例 2（含环结构）：σ 节点间有环，如三个 σ 两两成对出现在因子中。此时不能用简单消息传递，但可转化为线性系统：将每个训练 regime 的密度视为未知因子的乘积，目标密度也视为乘积，通过比较指数得到关于未知因子出现次数的线性方程组，求解即可得到目标密度可表示为若干训练密度的乘积与商（系数为整数）。
幻灯片举例：对于 \(p(x;\sigma)\propto f_1(x;\sigma_1,\sigma_2)f_2(x;\sigma_2,\sigma_3)f_3(x;\sigma_1,\sigma_3)\)，从 7 个训练 regime（排除全 1）求解系数 q1,…,q7，解得 \(q_1=q_4=q_6=q_7=1, q_2=q_3=q_5=-1\)，从而

\[p(x;(1,1,1)) \propto \frac{p(x;1)\,p(x;4)\,p(x;6)\,p(x;7)}{p(x;2)\,p(x;3)\,p(x;5)}.\]
这展示了一种纯代数判据：线性系统有解⇔目标 regime 可由训练 regime 识别。
补充：该方法不利用 X 内部的马尔可夫结构，仅基于 σ 的因子图。但这意味着模型的有效性依赖于（可由领域知识或结构学习获得的）因子图是否正确。

3.4 知识获取与结构学习（简要提及）[0:33:25–0:37:20]¶

基于 Dawid (2021) 的扩展条件独立性（ECI）：干预 indicator 与随机变量之间的独立性可以用条件独立性语句表达。例如“条件可忽略性+一致性”对应独立于 F_x 给定 X,Z 等。
这些独立性可以直接指导因子图结构（哪些 σ 与哪些 X 共享因子）。
对于非独立性约束（如无三阶交互），需要 domain knowledge 或假定低阶交互结构。

3.5 估计方法与实验 [0:37:20–0:42:00]¶

直接密度比估计（如 KLIEP）试图用训练 regime 的乘积之比重建目标密度，但讲者尝试后效果不佳。
改用伪似然法（pseudo-likelihood）：离散化 X（不改变参数维度），用神经网络参数化每个 log-factor，优化伪似然避免计算 partition function。
半合成实验：用 Sachs 和 DREAM4 数据拟合出一个 DAG 和一个 IFM 作为数据生成器，然后从中采样训练数据（只包含单个干预的 regime，测试 regime 为未观测的组合）。
比较三种方法：IFM（本文）、黑盒模型（直接回归 Y 对 σ，用 XGBoost）、DAG 模型（异方差神经网络回归，利用 DAG 结构）。
结果：当真实生成过程是 DAG 时，DAG 模型表现最好；黑盒模型也不差（因为函数接近线性）。当真实过程是 IFM 时，DAG 模型的误差急剧变大（跨越数量级），而 IFM 模型表现更稳定。黑盒模型在 IFM 下恶化程度小于 DAG。
讲者指出：尽管 IFM 在 DAG 情形下不如 DAG，但误差幅度较小；DAG 在 IFM 情形下误差幅度很大，提示 IFM 更稳健（但需注意两图纵轴标度不同）。

3.6 讨论与 Q&A 摘要 [0:42:00–1:03:28]¶

Anish Agarwal 的讨论：提出将 IFM 与计量经济学中的潜在因子模型（latent factor model）连接，该模型假设潜在因子为低维 + 双线性和条件均值零，识别条件类似于“行/列张成包含性”。Agarwal 提问（a）IFM 能否推广到有未观测混淆且混淆具有潜在分解的情形？（b）能否将 IFM 的识别条件映射为张成包含条件？
讲者回应：大致可以看作是一种“因果表示学习”问题，将干预作用于潜在分布；用神经网络参数化本身就可视为一种低维隐层。更系统的连接有待研究。
其他提问：干预是否可以是任意类型（是，不限于二元）？因子模型与 DAG 下因果推理的根本区别在于：IFM 放弃方向性，只保留条件独立性结构。结构学习需要类似于“faithfulness”的假设来从观测 regime 推广到其他 regime。

四、对应论文与开放问题¶

对应论文¶

arXiv: 2306.04027 (2023-06-06)，标题 “Intervention Generalization: A View from Factor Graph Models”。作者：Gecia Bravo-Hermsdorff, David S. Watson, Jialin Yu, Jakob Zeitler, Ricardo Silva。该文获 NeurIPS 2023 接收（摄影像提及“updated NeurIPS 2023 version appearing soon”）。
幻灯片名称中列出的识别结果和线性系统解法均与论文匹配。

报告明确的开放问题（每条附时间戳来源）¶

如何有效利用密度比估计：讲者尝试了 KLIEP 但不成功，但认为该方法理论上可行，值得进一步探索更稳健的密度比估计器（如使用深度能量比模型）。[~0:34:00]
安全边界诊断：当外推太远时，因子分解的前提可能失效。需要一些诊断工具（例如，计算目标 regime 下密度比的极端程度）来预警“太冒进”。 [~0:42:00]
混合平滑假设与结构假设：当前方法完全不利用干预-期望函数间的光滑性。若训练 regime 密度或具备平滑性（如 σ 连续），可进一步缩小预测误差。如何将两种信息整合是一个开放方向。[~0:42:30]
接触潜在因子模型：如何将 IFM 扩展到未观测混淆变量（如层次因子分解），使其识别条件类似矩阵补全或合成控制中的“张成包含”条件。这一方向已在讨论中由 Anish Agarwal 和讲者共同提出。[~0:52:20–0:54:00]
结构学习与非交互三阶项：如何从数据中判断因子图的结构（尤其是当因子不仅代表条件独立性还代表相互作用）？传统结构学习中的 faithfulness 假设如何推广？[~1:00:00]
部分识别：当全局识别不成立时，能否对目标 regime 的某些边缘分布（如单个变量 Y）给出识别或不违反一致性的界？讲者提及消息传递可能解决子问题。[~0:28:40]

Maintained by 陈星宇 · Homepage · Source on GitHub