Domain adaptation by using causal inference to predict invariant conditional distributions¶

讲者: Sara Magliacane
讨论人: Dominik Rothenhäusler
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-05-04
主题: 因果推断
视频: https://youtu.be/z748Lf4QTlE · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

1707.06422 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

核心问题： 在无监督多源域适应（unsupervised multi-source domain adaptation）中，如何在完全不了解目标域标签信息（Y在目标域完全缺失）的情况下，仅使用源域数据和目标域的特征（X），找到一组使得预测模型跨域不变的预测变量？这组预测变量被称为分离集（separating set）——即条件分布P(Y | 分离集)在源域和目标域之间保持不变的那组X。

【注意】 这条工作线与因果推断中"弱不变性"的思想直接相关。它不是要求所有预测变量都跨域不变（如covariate shift），而是要求目标变量Y给定某些预测变量后的条件分布恒定，这正是n个域间因果结构差异可被"soft intervention（软干预）"刻画这一假设下的自然推论。

方向定位： 1. 奠基与主流路线： - Covariate shift (样本选择偏差)：经典假设P(Y|X)跨域不变，只变P(X)。[Shimodaira, 2000] - Target shift / Prior shift：假设P(X|Y)不变，只变P(Y)。[Zhang et al., 2013] - Causal domain adaptation：将分布变化视为因果干预，认为只有特定变量的生成机制发生变化（soft intervention），而Y的生成机制（P(Y | Pa(Y))）在干预下不变。[Zhang et al., 2013] - Invariant Causal Prediction (ICP) [Peters et al., 2016]：假设P(Y | 父节点)跨环境不变，通过枚举所有可能的父集、测试条件独立性来估计父节点集。其核心思想是"永久不变性"理论：在所有可能的干预下都不变的预测变量必然是Y的因果父节点。 2. 当前前沿： - Differential invariants (差异不变性)：不追求对所有干预都成立的不变性，只追求目标域与源域之间条件分布不变——这正是本报告的目标。[Rojas-Carulla et al., 2018]（相关工作） - Joint Causal Inference (JCI) [Mooij et al., 2020]：用上下文变量（context variables） 代替单一域变量D，将多个域的数据联合建模为一个因果图，便于对跨域变化进行更精细的刻画。 - 本报告中的方法[Magliacane et al., 2018]（at ICML 2018）——Causal Domain Adaptation (CDA)：在JCI框架下，仅通过源域中可检验的条件独立性（Y完全出现在源域中）以及Y不能被直接干预的假设，使用一阶逻辑求解器分离出在所有与观测数据一致的因果图中都成立的分离集。 3. 这场报告站在哪： - 它站在"因果推理用于机器学习的域适应"的方向交汇处——用因果图的结构化语言精确表述"跨域不变性来自哪些预测变量"，但实际求解时不需要完全恢复整个因果图，甚至不需要知道因果图的具体结构，只需要通过条件独立性测试+逻辑推理找到"大概率"的分离集。 - 它从"永久不变性（所有干预下不变）"退化为目标域特定不变性，从而克服ICP过于保守（只保留父节点，有时不保留任何节点）以及要求知道完整的父节点集（在隐藏共因下不充分）的问题。

关键引用（均为幻灯片/转写明确提及或强烈暗示）： - Zhang et al., 2013 — "Domain adaptation from a graphical perspective"（奠基） - Peters et al., 2016 — "Invariant Causal Prediction (ICP)" - Mooij et al., 2020 — "Joint Causal Inference (JCI)"（本报告的框架基础） - Magliacane et al., 2018 — "Causal domain adaptation problem"（本报告直接对应论文，ICML 2018） - 字幕可能有误：转写中提到的 "heating and natal 2014" 应该是 Hoyer & Neufeld 等关于使用一阶逻辑对 d-分离进行编码的工作？此信息待核实原文。

二、最小内核 / 一个最简例子¶

可观测数据结构（简单地记为只有1个源域 + 1个目标域）：

源域：\(\{X_{1,i}, X_{2,i}, Y_i\}_{i=1}^n \sim P_S(X_1, X_2, Y)\)
目标域：\(\{X_{1,j}, X_{2,j}\}_{j=1}^m \sim P_T(X_1, X_2)\)，Y完全缺失。
设定目标：找到一组预测变量，如\(X_1\)，使得 \(P_S(Y | X_1) = P_T(Y | X_1)\)。在已知Y在目标域不可观测的情况下，需要仅从源域和特征X的联合分布中推断这个不变性。

符号说明： - \(X_1\)、\(X_2\)：可观测的预测变量（特征） - \(Y\)：目标变量（标签） - \(C_1\)：上下文变量（表示目标域是否发生变化的指示变量，\(C_1=0\) 为源域，\(C_1=1\) 为目标域） - 假设所有变量之间的关系由某个未知的、有向无环因果图（DAG）描述，且Y不可被直接干预（即图中没有指向Y的干预箭头）。

最简特例（d=2个特征，二值——是否属于目标域——上下文变量；幻灯片中的例子）：

假设真实因果图为：

\[C_1 \rightarrow X_1, \quad X_1 \rightarrow Y, \quad Y \rightarrow X_2\]

其中 \(C_1\) 是源/目标域指示变量（0/1）。

问题： 应该用哪个特征（\(X_1\) 还是 \(X_2\)）来预测Y，才能保证预测模型跨域不变？
答案（从图读出）： 使用 \(X_1\)。

为什么？ - 在源域与目标域之间，由于干预（soft intervention）仅改变了 \(X_1\)（\(C_1\) 影响 \(X_1\) 的分布），而Y的生成机制 \(P(Y | X_1)\) 不变 → 分离集是 \(\{X_1\}\)。 - 检查 d-分离条件：\(Y\) 和 \(C_1\) 被 \(X_1\) d-分离（\(Y \perp\!\!\!\perp C_1 | X_1\)）。路径 \(C_1\to X_1\to Y\) 在给定 \(X_1\) 时被阻断。 - 关键直觉： 如果选取 \(X_2\)（Y的子节点），则因为路径 \(C_1\to X_1\to Y\to X_2\) 在给定 \(X_2\) 时，\(Y\) 和 \(C_1\) 不被d-分离（存在激活的 fork 路径），导致 \(P(Y | X_2)\) 跨域发生变化——预测模型迁移到目标域时会非常糟糕（极端情况下任意大的误差）。

验证（模拟举例，讨论者 Dominik 提到）： - 假设线性-高斯 SCM：
\(X_1 = t C_1 + \epsilon_{X_1}\)（t为干预强度）
\(Y = \beta X_1 + \epsilon_Y\)
\(X_2 = \alpha Y + \epsilon_{X_2}\) - 若误用 \(\{X_2\}\) 做预测，错误会随着干预强度 t 的增大而急剧增加；而用 \(\{X_1\}\) 则误差不变（因条件分布恒定）。

该例子的意义： 直观展示了“因果结构告诉我们哪个预测变量是跨域稳定的，且结果不必是Y的因果父节点（\(X_2\) 是子节点，\(X_1\) 是父节点，但 \(X_2\) 在这里不提供稳定性）”，这正是本方法区分于仅靠相关性或者仅靠父节点选择的根本原因。

三、报告主体：讲者讲了什么¶

以下是基于幻灯片/转写/讨论者评论整合的报告内容，时间戳仅指转写中的大致时刻。

1. [0:04:00–0:06:00] 动机与问题设定¶

报告首先将域适应（domain adaptation）与因果推断联系起来：域适应关注分布变化时的预测，而因果推断关注干预后的预测。
将域适应中的分布变化视为软干预（soft intervention）：对某个变量的条件分布 \(P(X | Pa(X))\) 的改变，而非强制赋值的完美干预（do-operator）。
报告关注无监督多源域适应：目标域无Y标签。
例子：用野生型小鼠（源域）的数据，预测基因敲除小鼠（目标域）的表型Y（如某疾病的标志物）。

2. [0:06:05–0:14:20] 用图模型理解域适应¶

引入上下文变量 \(D\)（后来在JCI框架下是多个上下文变量 \(C_1, C_2\)）——将多个域的数据编码为单个表，图形化表示分布变化（Zhang et al., 2013的经典视角）。
d-分离是核心推理工具：讲者复习了d-分离的基本概念（链、分叉、对撞子；条件和非条件）。特别强调：
条件独立性 \(Y \perp\!\!\!\perp D | S\) 意味着 \(P(Y | S)\) 跨域不变。
这直接与 covariate shift、target shift 等常见假设挂钩。
破除两个常见误解（[0:14:20–0:16:05]）：
不变性 ≠ 因果性（父节点）：如 \(X_2\)（Y的子节点）也可能让 \(Y\perp D | X_2\) 成立，但这是非因果的。
知道所有父节点并不足够：若存在隐藏共因（latent confounder）影响Y和 \(X_2\)，则 \(P(Y|Pa(Y))\) 可能不跨域不变。例子：一个隐藏变量U同时影响Y和 \(X_2\)；则用 \(X_1\)（Y的父节点且不被U影响）更稳定。
总结：因果性的知识既不是必要的（可用非父节点）也不是充分的（有隐藏共因时）。

3. [0:16:10–0:22:00] 方法：Joint Causal Inference + 分离特征选择¶

Joint Causal Inference (JCI)[Mooij et al., 2020]：将多个域的数据统一为一个图，用多个上下文变量 \(C_1, C_2, ...\) 分别刻画不同域中的变化（而非单一D变量）。把上下文变量当做普通观测变量（但假设其不被图中的其他变量引起），运行约束型因果发现（如PC算法）来学习图。注意：本方法不需要完全恢复因果图，只需恢复驱动分离集判断所需的所有可能图结构。
核心算法流程（[0:22:05–0:31:00]）：
步骤1（观察）：搜集源域中所有可检验的条件独立性（Y总是可观测）。
步骤2（编码+逻辑推理）：将（观测到的条件独立性与JCI的图假设）编码为一阶逻辑公式，送入定理证明器（theorem prover）——参考文献中记为Hoyer & Neufeld (2014)？。
对于候选预测变量集 \(S\)，证明器输出三种结果之一：
1. Probably separating：在所有与观测数据一致的因果图中，\(Y\) 和 \(C_1\)（目标域指示变量）都被\(S\) d-分离 → \(P(Y|S)\) 跨域不变。
2. Probably not separating：所有图中都存在一条开放路径。
3. I don't know：某些图显示分离、某些不分离，无法判断。
步骤3（训练+迁移）：从所有"Probably separating"的集合中，挑选出在源域上预测误差最小的那组特征（使用任意预测器，如随机森林），训练模型，直接应用于目标域。
关键假设（[0:16:50]转述）：
(i) 存在一个有向无环因果图（JCI框架）描述所有数据。
(ii) Y不能被直接干预（在目标域中也不被干预）。
(iii) “No extra dependences involving Y in target domain”：即所有与Y相关的条件独立性如果在源域成立，则在目标域也成立；反之亦然。注意：这个假设不要求关于目标域中 \(C_1 \perp Y | S\) 本身的可检验性（因Y在目标域缺失），只要求其他独立性模式跨域一致。

4. [0:31:00–0:38:00] 实证结果与局限性¶

模拟实验：CDA的预测误差显著低于忽略不变性（直接用所有特征）的方法。
真实数据：Serum (动物血清) 数据（小鼠实验）——癌症标志物预测。三源域（不同基因敲除型）+ 1个目标域；只有少量样本+少量表型。使用causal cross-validation（因果交叉验证） 评估——在源域中模拟多个源/目标划分来验证。
局限性：
过于保守：大量特征可能被丢弃（因定理证明器倾向输出"不知道"或"probably not separating"）。
无法处理特征变换（如深度学习的表示/embedding）：因为确定性函数可能导致d-分离的结论不成立。
可扩展性差：基于逻辑的推理不能轻松扩展到高维。未来方向：用近似方法、降维、或主动学习（设计干预）来缩小搜索空间。
当分布偏移很小时，使用"分离集"可能比直接使用全部特征性能更差（讨论者 Dominik 通过一个线性例子说明：随着干预强度t增大，用分离集好处愈现，但h较小则分离集无优势）。

5. [0:38:20–0:54:30] 讨论与问答（由Dominik Rothenhäusler主持）¶

问题1（关于条件独立性测试的细节）：转写中Richard问“你说测试——是眼球测试还是统计测试？” 讲者回答：在本方法中，使用了部分相关（偏相关，线性高斯假设）；但理论不限定，可替换为任意条件独立性检验（如kCI）。
问题2（保守性何时有害？）：讨论者Dominik提问：在何种图结构下方法会表现、何时会不足？讲者：若有许多环境（域），保守性会减轻——因为数据越多越能缩小可行图集合。未给明确答案。
问题3（模型不确定性）：Dominik问：若我们不知道真实图，能否告诉实践者对何种干预模型具有鲁棒性？讲者的回答：考虑通过定理证明器导出"若我们观测到某组新干预，分离集是否会改变"——这本身是一个开放问题。
讨论者总结： Dominik 强调这种方法如同买保险——当偏移大（如t大）时有用；但未知偏移强度时，tuning是难点。

四、对应论文与开放问题¶

对应论文¶

这场报告直接对应：

Magliacane, S., van Ommen, T., Claassen, T., Bongers, S., Versteeg, P., & Mooij, J. M. (2018). Domain adaptation by using causal inference to predict invariant conditional distributions. ICML 2018.
arXiv: 1707.06422
这篇论文的框架基础是：

Mooij, J. M., Magliacane, S., & Claassen, T. (2020). Joint Causal Inference from Multiple Contexts. JMLR 21(99): 1–108.
讨论者引用/提及的线性仿真：在Dominik的讨论幻灯片中明确给出，旨在展示分离集的效果随偏移强度而变化（此图未包含在转写详细信息中）。

开放问题（从报告/讨论中识别）¶

何时使用分离集是值得的？ （Dominik 的讨论, [0:49:30–0:51:00]）
如何在没有目标域Y的情况下，预先判断分布偏移大到使用分离集比使用全部特征更好？这在无监督设定中更难，但若有部分领域知识或有少量目标域Y标签（半监督）可能解决。
超参数选择（条件独立性检验阈值）
CDM需要设定条件独立性检验的显著性水平/阈值。不同阈值会导致不同的分离集集合。选择一个鲁棒且能控制预测误差的阈值是一个必要条件。
模型不确定性（预测集的鲁棒性）
分离集被证明在所有与数据一致的图中都是分离的，但这是基于观察数据的（有限样本）推断。如何描述分离集的不确定性（置信区间/后验概率）？转写中讲者没有讨论。
特征变换（高维/非线性）的扩展
讲者指出方法无法处理确定性变换（如深度学习的表示），这在实际应用中是一个重大限制（[0:37:00]）。如何将分离集的概念扩展到无参数、可微的变换族？这可能涉及更复杂的因果结构学习。
可扩展性
基于一阶逻辑的推理在高维（\(p > 10\)）下极易爆炸。如何设计近似算法（如随机搜索、蒸馏）或与低维表示结合来提升可扩展性？讲者提到这是当前工作方向之一（[0:37:30]）。
多任务强化学习中的迁移
报告结束时提到与合作者（WaveOne, CMU）尝试将该思想应用于因子化 MDP 的策略迁移。将分离集的概念从静态预测扩展到动态决策中的迁移是一大挑战（[0:37:55]）。

Maintained by 陈星宇 · Homepage · Source on GitHub