Domain adaptation under structural causal models¶
讲者: Yuansi Chen
讨论人: Biwei Huang
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-03-08
主题: 因果推断
视频: https://youtu.be/d-5KomewQis · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告属于因果视角下的域适应 (Domain Adaptation, DA) 理论这一子方向。该子方向追问的核心问题是:在什么条件下,利用目标域的无标签数据能系统性优于“仅用源域有标签数据 (SrcPool)”这个基线? 如果源域和目标域之间没有任何结构关系,DA 问题本身是病态的(“no free lunch”)。
奠基与主流路线: * VC 理论 + 分布散度路线 (Ben-David et al., 2007, 2010; Mansour et al., 2009):将 DA 视为在源域上做 ERM,目标域风险上界由源域风险加上一个源-目标分布散度项(如 HΔH 散度)控制。本质上是悲观视角——散度项必须显式或隐式地被控制。 * 不变性假设路线: * 协变量偏移 (Covariate Shift):假设条件分布 \(P(Y|X)\) 跨域不变,边缘分布 \(P(X)\) 变化。不改变预测规则,只需要重新加权或调整目标域特征分布。 * 标签偏移 (Label Shift):假设 \(P(X|Y)\) 不变,边缘 \(P(Y)\) 变化。常用于反因果预测,如 Lipton et al. (2018)。 * 分布鲁棒优化 (DRO):假设目标域在源域的一个散度球内,针对最坏情况的分布做优化。 * 结构因果模型 (SCM) 路线:Pearl & Bareinboim (2014) 最早用 SCM 形式化 DA,但未对流行方法(如域不变投影 DIP)进行机理分析。讲者 Chen 的工作站在这条线上,但向前推进了一大步:用线性 SCM 具体刻画了 DIP 方法成功与失败的条件,并由此设计新的算法 CIRM。
当前 Frontier / 这场报告的站位: 在讲者之前,DIP 类方法(DANN, TCA, M3SDA 等)在计算机视觉上取得巨大成功,但其成功条件基本是经验性的。讲者的关键贡献是:在(1) 线性 SCM、(2) 加性噪声、(3) shift 干预假设下,严格证明了 DIP 的表现完全由因果方向(因果 vs 反因果)和干预位置(是否对 Y 干预)决定。 具体来说: - 成功必要条件: (a) 反因果生成(Y → X), (b) 无 Y 干预 (a_Y = 0), (c) DIP 的匹配度量匹配了干预类型(如均值匹配适合均值漂移干预)。 - 失败典型场景: 因果生成 (X → Y)、有 Y 干预。 在此基础上,讲者提出了 CIRM (Conditionally Invariant Residual Matching),在保留 DIP 优点的前提下处理 Y 干预问题。如讲者自述,当因果/反因果混合时,问题难度急剧上升(可能等价于因果发现,见 [1:00:02-1:00:10])。
有把握的关键工作: - Schölkopf et al. (2012) “On Causal and Anticausal Learning”:提出“因果方向决定域适应能否获益”这一核心直觉,是该报告的基础。参见 Slide 11-12。 - Ganin et al. (2016) “Domain-Adversarial Training of Neural Networks (DANN)”:4000+ 引用的 DIP 实现,用生成对抗网络做分布匹配。 - Heinze-Deml & Meinshausen (2017) “Conditional Variance Penalty” (幻灯用 “Heinze-Deml and Meinshausen 2017” 表述,论文可能是 "Conditional Variance Penalties and Domain Shift Problem" 相关):提出 CIC(条件不变成分)假设及 CIP 算法,这是讲者 CIRM 的直接前身。 - Pearl & Bareinboim (2014) “Transportability Across Probabilistic and Causal Systems” (转写为 “Bahrain boeing”,应是 Bareinboim):SCM 用于 DA 的早期严格工作。
二、最小内核 / 一个最简例子¶
符号与模型(线性 SCM 噪声干预):
考虑一个线性 SCM 同时生成源域 \(P^m\) 和目标域 \(\tilde{P}\)。所有变量用向量表示:
- 可观测: \(\mathbf{X} \in \mathbb{R}^d\)(特征向量),\(Y \in \mathbb{R}\)(标签/响应)。
- 参数与潜在量:
\(B \in \mathbb{R}^{d \times d}\)(特征间的因果图);
\(\mathbf{b} \in \mathbb{R}^d\)(Y 对 X 的因果影响);
\(\boldsymbol{\omega} \in \mathbb{R}^d\)(X 对 Y 的因果影响);
\(\mathbf{a} = (\mathbf{a}_X^\top, a_Y)^\top\) 是干预向量,跨域变化(源域 \(a^m\) vs 目标域 \(\tilde{a}\));
\(\boldsymbol{\varepsilon} = (\boldsymbol{\varepsilon}_X^\top, \varepsilon_Y)^\top\) 是零均值噪声,跨域同分布。 - 因果/反因果结构: 通过括号中的零子矩阵表示 Y 不会因果影响自身。如果 \(\boldsymbol{\omega} = \mathbf{0}\) 且 \(\mathbf{b} \neq \mathbf{0}\),则因果流为 \(Y \to \mathbf{X}\)(反因果);如果 \(\boldsymbol{\omega} \neq \mathbf{0}\) 且 \(\mathbf{b} = \mathbf{0}\),则为 \(\mathbf{X} \to Y\)(因果)。两者可混合。
最简特例:反因果 + 无 Y 干预 (d=2, 无噪声)
假设:
- \(d = 2\),\(\mathbf{X} = (X_1, X_2)\)。
- \(\boldsymbol{\omega} = \mathbf{0}\),\(\mathbf{b} = (1, 1)^\top\)。因此结构是:
此时,预测任务是学习 \(f(X) = \beta_1 X_1 + \beta_2 X_2\) 预测 \(Y\)。
DIP 的做法(线性、均值匹配):
为什么 DIP 成功?
- 目标最优解是 \((\beta_1^*, \beta_2^*) = (0.5, 0.5)\)(因为 \(Y = (X_1 + X_2 - a_1 - a_2)/2\))。
- 直接 OLS 源域会学到 \(\beta\) 接近 \((1, 0)\) 或 \((0, 1)\),因为源域 \(a=(1,1)\) 导致 \(X_1\) 和 \(X_2\) 高度相关,预测规则被干预拖偏。
- DIP 的均值匹配约束等价于让 \(\beta\) 与源-目标干预差向量 \((a^m - \tilde{a}) = (2,2)\) 正交,即 \(\beta_1 + \beta_2 = 0\)。该正交性加上 OLS 损失,迫使 \(\beta\) 向 \((0.5, 0.5)\) 方向回缩,从而匹配目标域最优。
- 这个例子直观展示:DIP 的约束就是用牺牲一个自由度(正交方向)来换取对抗干预漂移。 理论结果 Corollary 1 给出在 i.i.d. 高斯干预下,DIP 的目标风险 \( \approx \sigma^2 (1 + \rho \|\mathbf{b}\|_2^2)(1 - c/d) \),其中 \(c/d\) 项(\(d\) 为维度)正是此自由度代价。
三、报告主体:讲者讲了什么¶
[0:00 - 0:05] 背景与问题设定 - 讲者以“奶牛在不同场景”和“跨医院肿瘤预测”为例,强调 DA 的实用性和失败案例。定义 DA 问题:有 M 个源域(有标签)和一个目标域(无标签),目标是使目标域风险 \(\tilde{R}(f)\) 小。 - 基线:SrcPool(简单合并所有源域数据训练)。讲者指出如果没有源-目标结构假设,DA 问题在一般意义上无解(“no free lunch”)。 - Slide 7-9:展示 DA 在 DomainNet (>76% accuracy vs SrcPool ~10%)、Amazon Sentiment、Digit Classification 上的大力成功。
[0:05 - 0:20] DIP 方法与现有理论框架 - 讲者聚焦于 DIP(域不变投影) 方法族。一般形式:
[0:20 - 0:40] 核心分析:线性 SCM 下 DIP 的成败条件 - Slide 18-19:引入线性 SCM(带噪声/Shift干预),并定义候选方法:OLSTar(Oracle,全知目标域数据)、Causal(真实结构)、OLSSrc(仅用源域)、DIP。 - Slide 21-22:三个关键例子: 1. 因果预测 (Ex1):X → Y。Y 是 X 的函数,目标域 X 的分布变化不改变 P(Y|X)。DIP 表现极差(目标风险 16.33 vs Causal/Oracle 的 0.2)。 2. 反因果预测 + 无 Y 干预 (Ex2):Y → X。DIP 接近 Oracle(0.086 vs 0.040),大幅优于 OLSSrc(2.600)。DIP 成功。 3. 反因果预测 + Y 干预 (Ex3):Y 也受干预漂移。DIP 惨败(4.066 vs Oracle 0.040)。 - 讲者用 UCI 因果数据集 验证 DIP 的失败:DNA Splice-junction 和 Chess 上 DIP 准确率低于 OLSSrc(Slide 23)。 - Theorem 1 (Informal):充分条件 包括:线性 SCM、反因果、无 Y 干预、DIP 匹配度量匹配干预类型。在此条件下,DIP 目标风险 ≈ DIP 源风险 ≈ Oracle 目标风险。随后 Corollary 1 给出高斯 i.i.d. 干预下的显式风险,量级匹配 (\(1-c/d\) 代价)。讲者口述([0:34:00-0:34:06])给出几何直觉:DIP 牺牲一个自由度来正交化干预差向量。 - Slide 25 近似总结:当源-目标干预差向量方向随机时,DIP 超出 Oracle 成本仅为 \(O(1/d)\)。
[0:40 - 0:55] 新方法 CIRM 与讨论 - Slide 28:为什么 Y 干预打破 DIP?因为匹配 \(\beta^\top X\) 的分布不再意味着匹配条件分布 \(X|Y\)。我们希望匹配 \(X|Y\),但目标域无 Y。 - CIC 假设(来自 Heinze-Deml & Meinshausen 2017):存在一个变换 \(T\) 使得 \(T(X) | Y\) 的条件分布跨域不变(Slide 29-30)。 - CIP 算法:从多源域中学习 \(T\),通过添加惩罚项使 \(T(X)\) 的条件分布跨源域对齐(Slide 31)。讲者用眼镜检测例子解释:核心特征(眼镜)不变,风格特征(背景、性别)被干预,CIP 抽出核心特征。 - CIRM 算法:两步。先用 CIP 跨源域学到 \(T(X)\) 作为 Y 的代理。然后用带约束的 DIP,但约束从“匹配 \(\beta^\top X\) 的均值”改为“匹配 \(\beta^\top X_{\text{mod}}\) 的均值”,其中 \(X_{\text{mod}}\) 是 X 和 \(T(X)\) 的函数(Slide 32)。讲者口述([0:41:49-0:42:31]):核心是用核心特征恢复 Y 干预的大小和方向,然后像 DIP 那样正交化剩余干预,等价于回到无 Y 干预的反因果场景。 - 开放挑战([0:43:55-0:44:30]):混合因果+反因果的图很难推广。讲者认为这可能等价于因果发现问题(“can we do DA without exact causal discovery?”)。
[0:55 - 1:00] 讨论与总结 - 讨论人 Biwei Huang 提出五个反因果类型(Slide 中),总结因果知识在 DA 中的作用:指出因果方向、干预位置、哪些特征有用、哪些变化可适应。 - 讲者回应:当前 CIRM 定理不覆盖共因影响特征和目标的场景;CIRM 本身是多源域算法(用 CIP 学 T),但理论考察的是单源域到目标域的比较。还指出 DIP 对多源域的适应可简化为挑选最佳单源域。
四、对应论文与开放问题¶
对应论文:
- Yuansi Chen & Peter Bühlmann. “Domain Adaptation under Structural Causal Models.”
此报告直接对应这篇论文。从引言与合作者(Peter Bühlmann,ETH Zurich)及报告结构高度吻合可确认。讲者未明确给出 arXiv 或期刊 ID。用户可搜索该题目确认具体版本。
开放问题(每条扎根于转写): 1. 混合因果图场景的理论拓展(源于 [0:43:55-0:44:02] “Already in the mixed causal and anti-causal setting things has been quite difficult for us”):当 SCM 同时包含 X→Y 和 Y→X 箭头时,能否用线性 SCM 给出 DIP 或 CIRM 的充分必要条件?讲者称只能通过因果发现(找 Y 的父节点)才能规约到反因果,但这是否必要? 2. 共因干预(同时改变 X 和 Y 的潜在因子)(源于讨论人的提问和讲者回应 [0:57:03-0:57:27] “the current theorem on CIRM will not be able to deal with latent factors that influence both feature and target variables”):当干预向量 \(\mathbf{a}\) 对 X 和 Y 有共享成分时,能否用类似近端因果推断(DIIV/ proximal causal inference)的机制进行识别?讲者提到参考 Dominic 的论著(可能是 D’Amour 的 work),但未详细展开。 3. 因果发现与域适应的计算复杂度/等价性(源于讲者结尾问题 [0:46:44-0:46:50] “Is exact causal inference discovery necessary to solve domain adaptation problem?”):给出一个具体实例,证明给定(反事实)完全因果图能多项式时间解 DA,而只给观测数据则等价于一个已知难的因果发现问题(如因果结构学习)?这是否能为 DA 的“统计-计算折衷”奠定连接? 4. 非线性 SCM 下的定量保证(源于 [0:45:04-0:45:07]:“Just trying to adapt from a linear model to a more complicated and neural network model”):讲者用合成数据和 UCI 数据验证,但缺乏对非线性函数类(如 DANN 擅长的 CNN 映射 \(v\))的理论结果。DIP 类方法在非线性 SCM 中保持成功/失败的模式?当函数类 \(v\) 是超参数化神经网络时,前述的正交性直觉还成立吗? 5. CIRM 特征使用与多元源域最优加权(源于 [0:59:00-0:59:31] 讲者对话:“the idea is mostly trying to choose the source domain that works best for DIP and then pick that source domain” 但 “in general we're not sure how to adapt DIP”):当 ≥2 个源域可用时,是否存在一个最优加权组合源域来训练 CIRM 而非仅选最佳单源域?这与 Dong &Shen (2018) 的 ensemble 方法有何关系?
Maintained by 陈星宇 · Homepage · Source on GitHub