Domain adaptation under structural causal models¶

讲者: Yuansi Chen
讨论人: Biwei Huang
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-03-08
主题: 因果推断
视频: https://youtu.be/d-5KomewQis · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于因果视角下的域适应 (Domain Adaptation, DA) 理论这一子方向。该子方向追问的核心问题是：在什么条件下，利用目标域的无标签数据能系统性优于“仅用源域有标签数据 (SrcPool)”这个基线？ 如果源域和目标域之间没有任何结构关系，DA 问题本身是病态的（“no free lunch”）。

奠基与主流路线： * VC 理论 + 分布散度路线 (Ben-David et al., 2007, 2010; Mansour et al., 2009)：将 DA 视为在源域上做 ERM，目标域风险上界由源域风险加上一个源-目标分布散度项（如 HΔH 散度）控制。本质上是悲观视角——散度项必须显式或隐式地被控制。 * 不变性假设路线： * 协变量偏移 (Covariate Shift)：假设条件分布 \(P(Y|X)\) 跨域不变，边缘分布 \(P(X)\) 变化。不改变预测规则，只需要重新加权或调整目标域特征分布。 * 标签偏移 (Label Shift)：假设 \(P(X|Y)\) 不变，边缘 \(P(Y)\) 变化。常用于反因果预测，如 Lipton et al. (2018)。 * 分布鲁棒优化 (DRO)：假设目标域在源域的一个散度球内，针对最坏情况的分布做优化。 * 结构因果模型 (SCM) 路线：Pearl & Bareinboim (2014) 最早用 SCM 形式化 DA，但未对流行方法（如域不变投影 DIP）进行机理分析。讲者 Chen 的工作站在这条线上，但向前推进了一大步：用线性 SCM 具体刻画了 DIP 方法成功与失败的条件，并由此设计新的算法 CIRM。

当前 Frontier / 这场报告的站位： 在讲者之前，DIP 类方法（DANN, TCA, M3SDA 等）在计算机视觉上取得巨大成功，但其成功条件基本是经验性的。讲者的关键贡献是：在(1) 线性 SCM、(2) 加性噪声、(3) shift 干预假设下，严格证明了 DIP 的表现完全由因果方向（因果 vs 反因果）和干预位置（是否对 Y 干预）决定。 具体来说： - 成功必要条件: (a) 反因果生成（Y → X）, (b) 无 Y 干预 (a_Y = 0), (c) DIP 的匹配度量匹配了干预类型（如均值匹配适合均值漂移干预）。 - 失败典型场景: 因果生成 (X → Y)、有 Y 干预。在此基础上，讲者提出了 CIRM (Conditionally Invariant Residual Matching)，在保留 DIP 优点的前提下处理 Y 干预问题。如讲者自述，当因果/反因果混合时，问题难度急剧上升（可能等价于因果发现，见 [1:00:02-1:00:10]）。

有把握的关键工作： - Schölkopf et al. (2012) “On Causal and Anticausal Learning”：提出“因果方向决定域适应能否获益”这一核心直觉，是该报告的基础。参见 Slide 11-12。 - Ganin et al. (2016) “Domain-Adversarial Training of Neural Networks (DANN)”：4000+ 引用的 DIP 实现，用生成对抗网络做分布匹配。 - Heinze-Deml & Meinshausen (2017) “Conditional Variance Penalty” (幻灯用 “Heinze-Deml and Meinshausen 2017” 表述，论文可能是 "Conditional Variance Penalties and Domain Shift Problem" 相关)：提出 CIC（条件不变成分）假设及 CIP 算法，这是讲者 CIRM 的直接前身。 - Pearl & Bareinboim (2014) “Transportability Across Probabilistic and Causal Systems” (转写为 “Bahrain boeing”，应是 Bareinboim)：SCM 用于 DA 的早期严格工作。

二、最小内核 / 一个最简例子¶

符号与模型（线性 SCM 噪声干预）：

考虑一个线性 SCM 同时生成源域 \(P^m\) 和目标域 \(\tilde{P}\)。所有变量用向量表示：

\[\begin{pmatrix} \mathbf{X} \\ Y \end{pmatrix} = \begin{pmatrix} B & \mathbf{b} \\ \boldsymbol{\omega}^\top & 0 \end{pmatrix} \begin{pmatrix} \mathbf{X} \\ Y \end{pmatrix} + \begin{pmatrix} \mathbf{a}_X \\ a_Y \end{pmatrix} + \begin{pmatrix} \boldsymbol{\varepsilon}_X \\ \varepsilon_Y \end{pmatrix}\]

可观测: \(\mathbf{X} \in \mathbb{R}^d\)（特征向量），\(Y \in \mathbb{R}\)（标签/响应）。
参数与潜在量:
\(B \in \mathbb{R}^{d \times d}\)（特征间的因果图）；
\(\mathbf{b} \in \mathbb{R}^d\)（Y 对 X 的因果影响）；
\(\boldsymbol{\omega} \in \mathbb{R}^d\)（X 对 Y 的因果影响）；
\(\mathbf{a} = (\mathbf{a}_X^\top, a_Y)^\top\) 是干预向量，跨域变化（源域 \(a^m\) vs 目标域 \(\tilde{a}\)）；
\(\boldsymbol{\varepsilon} = (\boldsymbol{\varepsilon}_X^\top, \varepsilon_Y)^\top\) 是零均值噪声，跨域同分布。
因果/反因果结构: 通过括号中的零子矩阵表示 Y 不会因果影响自身。如果 \(\boldsymbol{\omega} = \mathbf{0}\) 且 \(\mathbf{b} \neq \mathbf{0}\)，则因果流为 \(Y \to \mathbf{X}\)（反因果）；如果 \(\boldsymbol{\omega} \neq \mathbf{0}\) 且 \(\mathbf{b} = \mathbf{0}\)，则为 \(\mathbf{X} \to Y\)（因果）。两者可混合。

最简特例：反因果 + 无 Y 干预 (d=2, 无噪声)
假设： - \(d = 2\)，\(\mathbf{X} = (X_1, X_2)\)。 - \(\boldsymbol{\omega} = \mathbf{0}\)，\(\mathbf{b} = (1, 1)^\top\)。因此结构是：

\[X_1 = Y + a_1,\ \ X_2 = Y + a_2,\ \ Y = a_Y + \varepsilon_Y\]

- 无 Y 干预：\(a_Y^m = \tilde{a}_Y = 0\)。 - 干预源域：\(a^m = (1,1,0)\)；目标域：\(\tilde{a} = (-1,-1,0)\)。 - 所有噪声方差为 1。

此时，预测任务是学习 \(f(X) = \beta_1 X_1 + \beta_2 X_2\) 预测 \(Y\)。

DIP 的做法（线性、均值匹配）：

\[\min_{\beta_1, \beta_2} \mathbb{E}_{P^m}[(Y - \beta_1 X_1 - \beta_2 X_2)^2] \quad \text{s.t.} \quad \mathbb{E}_{P^m}[\beta_1 X_1 + \beta_2 X_2] = \mathbb{E}_{\tilde{P}}[\beta_1 X_1 + \beta_2 X_2]\]

为什么 DIP 成功？
- 目标最优解是 \((\beta_1^*, \beta_2^*) = (0.5, 0.5)\)（因为 \(Y = (X_1 + X_2 - a_1 - a_2)/2\)）。
- 直接 OLS 源域会学到 \(\beta\) 接近 \((1, 0)\) 或 \((0, 1)\)，因为源域 \(a=(1,1)\) 导致 \(X_1\) 和 \(X_2\) 高度相关，预测规则被干预拖偏。
- DIP 的均值匹配约束等价于让 \(\beta\) 与源-目标干预差向量 \((a^m - \tilde{a}) = (2,2)\) 正交，即 \(\beta_1 + \beta_2 = 0\)。该正交性加上 OLS 损失，迫使 \(\beta\) 向 \((0.5, 0.5)\) 方向回缩，从而匹配目标域最优。
- 这个例子直观展示：DIP 的约束就是用牺牲一个自由度（正交方向）来换取对抗干预漂移。 理论结果 Corollary 1 给出在 i.i.d. 高斯干预下，DIP 的目标风险 \( \approx \sigma^2 (1 + \rho \|\mathbf{b}\|_2^2)(1 - c/d) \)，其中 \(c/d\) 项（\(d\) 为维度）正是此自由度代价。

三、报告主体：讲者讲了什么¶

[0:00 - 0:05] 背景与问题设定 - 讲者以“奶牛在不同场景”和“跨医院肿瘤预测”为例，强调 DA 的实用性和失败案例。定义 DA 问题：有 M 个源域（有标签）和一个目标域（无标签），目标是使目标域风险 \(\tilde{R}(f)\) 小。 - 基线：SrcPool（简单合并所有源域数据训练）。讲者指出如果没有源-目标结构假设，DA 问题在一般意义上无解（“no free lunch”）。 - Slide 7-9：展示 DA 在 DomainNet (>76% accuracy vs SrcPool ~10%)、Amazon Sentiment、Digit Classification 上的大力成功。

[0:05 - 0:20] DIP 方法与现有理论框架 - 讲者聚焦于 DIP（域不变投影） 方法族。一般形式：

\[f_{\text{DIP}}(x) = u \circ v(x), \quad \min_{u,v} \mathbb{E}[\ell(u \circ v(X), Y)] + \lambda \cdot D(v(X), v(\tilde{X}))\]

其中 \(D\) 是分布距离。 - Slide 14 列举实现变种（TCA, DIP, DANN, M3SDA），区别在于函数族（线性 vs CNN）和距离（均值差 vs MMD vs GAN）。 - 讲者强调已有理论路线：VC+散度（Ben-David 系列）、缺失数据 EM、分布鲁棒、协变量偏移、标签偏移、SCM。指出这些路线要么太泛（VC+散度），要么假设过强（需要生成模型），而 SCM 能给出精准的机理分析。

[0:20 - 0:40] 核心分析：线性 SCM 下 DIP 的成败条件 - Slide 18-19：引入线性 SCM（带噪声/Shift干预），并定义候选方法：OLSTar（Oracle，全知目标域数据）、Causal（真实结构）、OLSSrc（仅用源域）、DIP。 - Slide 21-22：三个关键例子： 1. 因果预测 (Ex1)：X → Y。Y 是 X 的函数，目标域 X 的分布变化不改变 P(Y|X)。DIP 表现极差（目标风险 16.33 vs Causal/Oracle 的 0.2）。 2. 反因果预测 + 无 Y 干预 (Ex2)：Y → X。DIP 接近 Oracle（0.086 vs 0.040），大幅优于 OLSSrc（2.600）。DIP 成功。 3. 反因果预测 + Y 干预 (Ex3)：Y 也受干预漂移。DIP 惨败（4.066 vs Oracle 0.040）。 - 讲者用 UCI 因果数据集 验证 DIP 的失败：DNA Splice-junction 和 Chess 上 DIP 准确率低于 OLSSrc（Slide 23）。 - Theorem 1 (Informal)：充分条件 包括：线性 SCM、反因果、无 Y 干预、DIP 匹配度量匹配干预类型。在此条件下，DIP 目标风险 ≈ DIP 源风险 ≈ Oracle 目标风险。随后 Corollary 1 给出高斯 i.i.d. 干预下的显式风险，量级匹配 (\(1-c/d\) 代价)。讲者口述（[0:34:00-0:34:06]）给出几何直觉：DIP 牺牲一个自由度来正交化干预差向量。 - Slide 25 近似总结：当源-目标干预差向量方向随机时，DIP 超出 Oracle 成本仅为 \(O(1/d)\)。

[0:40 - 0:55] 新方法 CIRM 与讨论 - Slide 28：为什么 Y 干预打破 DIP？因为匹配 \(\beta^\top X\) 的分布不再意味着匹配条件分布 \(X|Y\)。我们希望匹配 \(X|Y\)，但目标域无 Y。 - CIC 假设（来自 Heinze-Deml & Meinshausen 2017）：存在一个变换 \(T\) 使得 \(T(X) | Y\) 的条件分布跨域不变（Slide 29-30）。 - CIP 算法：从多源域中学习 \(T\)，通过添加惩罚项使 \(T(X)\) 的条件分布跨源域对齐（Slide 31）。讲者用眼镜检测例子解释：核心特征（眼镜）不变，风格特征（背景、性别）被干预，CIP 抽出核心特征。 - CIRM 算法：两步。先用 CIP 跨源域学到 \(T(X)\) 作为 Y 的代理。然后用带约束的 DIP，但约束从“匹配 \(\beta^\top X\) 的均值”改为“匹配 \(\beta^\top X_{\text{mod}}\) 的均值”，其中 \(X_{\text{mod}}\) 是 X 和 \(T(X)\) 的函数（Slide 32）。讲者口述（[0:41:49-0:42:31]）：核心是用核心特征恢复 Y 干预的大小和方向，然后像 DIP 那样正交化剩余干预，等价于回到无 Y 干预的反因果场景。 - 开放挑战（[0:43:55-0:44:30]）：混合因果+反因果的图很难推广。讲者认为这可能等价于因果发现问题（“can we do DA without exact causal discovery?”）。

[0:55 - 1:00] 讨论与总结 - 讨论人 Biwei Huang 提出五个反因果类型（Slide 中），总结因果知识在 DA 中的作用：指出因果方向、干预位置、哪些特征有用、哪些变化可适应。 - 讲者回应：当前 CIRM 定理不覆盖共因影响特征和目标的场景；CIRM 本身是多源域算法（用 CIP 学 T），但理论考察的是单源域到目标域的比较。还指出 DIP 对多源域的适应可简化为挑选最佳单源域。

四、对应论文与开放问题¶

对应论文： - Yuansi Chen & Peter Bühlmann. “Domain Adaptation under Structural Causal Models.”
此报告直接对应这篇论文。从引言与合作者（Peter Bühlmann，ETH Zurich）及报告结构高度吻合可确认。讲者未明确给出 arXiv 或期刊 ID。用户可搜索该题目确认具体版本。

开放问题（每条扎根于转写）： 1. 混合因果图场景的理论拓展（源于 [0:43:55-0:44:02] “Already in the mixed causal and anti-causal setting things has been quite difficult for us”）：当 SCM 同时包含 X→Y 和 Y→X 箭头时，能否用线性 SCM 给出 DIP 或 CIRM 的充分必要条件？讲者称只能通过因果发现（找 Y 的父节点）才能规约到反因果，但这是否必要？ 2. 共因干预（同时改变 X 和 Y 的潜在因子）（源于讨论人的提问和讲者回应 [0:57:03-0:57:27] “the current theorem on CIRM will not be able to deal with latent factors that influence both feature and target variables”）：当干预向量 \(\mathbf{a}\) 对 X 和 Y 有共享成分时，能否用类似近端因果推断（DIIV/ proximal causal inference）的机制进行识别？讲者提到参考 Dominic 的论著（可能是 D’Amour 的 work），但未详细展开。 3. 因果发现与域适应的计算复杂度/等价性（源于讲者结尾问题 [0:46:44-0:46:50] “Is exact causal inference discovery necessary to solve domain adaptation problem?”）：给出一个具体实例，证明给定（反事实）完全因果图能多项式时间解 DA，而只给观测数据则等价于一个已知难的因果发现问题（如因果结构学习）？这是否能为 DA 的“统计-计算折衷”奠定连接？ 4. 非线性 SCM 下的定量保证（源于 [0:45:04-0:45:07]：“Just trying to adapt from a linear model to a more complicated and neural network model”）：讲者用合成数据和 UCI 数据验证，但缺乏对非线性函数类（如 DANN 擅长的 CNN 映射 \(v\)）的理论结果。DIP 类方法在非线性 SCM 中保持成功/失败的模式？当函数类 \(v\) 是超参数化神经网络时，前述的正交性直觉还成立吗？ 5. CIRM 特征使用与多元源域最优加权（源于 [0:59:00-0:59:31] 讲者对话：“the idea is mostly trying to choose the source domain that works best for DIP and then pick that source domain” 但 “in general we're not sure how to adapt DIP”）：当 ≥2 个源域可用时，是否存在一个最优加权组合源域来训练 CIRM 而非仅选最佳单源域？这与 Dong &Shen (2018) 的 ensemble 方法有何关系？

Maintained by 陈星宇 · Homepage · Source on GitHub

Domain adaptation under structural causal models¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论