When few labeled target data suffice: a theory of semi-supervised domain adaptation via fine-tuning from multiple adaptive starts¶
讲者: Wooseok Ha
讨论人: Jason Kluswoski
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-10-21
主题: 因果推断
视频: https://youtu.be/3EJrhuW1zVA · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2507.14661 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
1.1 子方向:半监督域适应(SSDA)的理论¶
域适应(Domain Adaptation, DA)是迁移学习的一个分支,目标是利用一个或多个有标签的源领域数据,在目标领域上学习预测模型,允许源与目标分布不同。根据目标领域可获得的监督类型,分为:
- 无监督域适应(UDA):目标领域有大量无标签数据,无标签。
- 域泛化(Domain Generalization, DG):目标领域完全无数据。
- 半监督域适应(SSDA):目标领域有少量标签 + 大量无标签数据。这是最贴近实际(标签昂贵、未标注数据丰富)的场景,也是本报告的主题。
尽管SSDA在应用中很常见(如医学影像、物体识别),但理论理解非常有限。现有理论文献(如Li et al. 2022, Xiong et al. 2023)通常直接假设回归系数在源和目标之间发生稀疏变化(即“转移学习”),而忽略了数据生成层面的结构。本报告采用另一条路线:用结构因果模型(SCM)显式建模分布转移如何通过干预产生,再分析SSDA的性能。
1.2 奠基与主流路线¶
- 因果视图下的域适应:Schölkopf et al. (2012) 区分了“因果”和“反因果”数据生成方向,指出在反因果方向(Y→X)下,边际分布移位不影响条件分布 P(Y|X)。Chen & Bühlmann (2021) 进一步将这一观点用于UDA,证明当生成方向为因果时,DIP(Domain-Invariant Projection)等匹配边际分布的方法无法改善回归性能。本报告承袭这一框架。
- UDA方法:DIP(试图匹配源和目标特征边际分布)和CIP(Conditional Invariant Penalty,匹配多个源环境中特征给定Y的条件分布)是主流算法,但缺乏目标标签时可能失效(label-flipping特征、过于保守)。
- 转移学习(transfer learning):Li et al. (2022), Xiong et al. (2023) 等假设回归系数本身在稀疏方向上变化,直接对参数施加结构。本报告不同:干预发生在数据生成机制的特定部分(B矩阵、噪声、反因果权重),参数变化是衍生的。
1.3 本报告站在哪里¶
本报告首次在线性SCM框架下为SSDA提供理论保证:它证明了针对三种典型干预类型(稀疏连通性、混杂加性、反因果权重)设计的微调策略可以达到minimax最优率(目标标签数 n(0) 上的 \(r/n(0)\),r为干预自由度)。当干预类型未知时,提出MASFT算法,通过多个UDA初始化的微调并进行模型选择,达到近乎最优的率(额外log因子)。这项工作建立了SSDA的minimax理论,并揭示了“正确的初始化(即匹配干预类型的UDA估计)”比“更多目标标签”更关键的见解。
关键引用(均来自幻灯片/报告): - 反因果UDA失效:Schölkopf et al. (2012), Chen & Bühlmann (2021) - 标签翻转特征:Zhao et al. (2019), Johansson et al. (2019) - CIP和CIC可识别性:Wu, Chen, Ha, Yu (2025) - 标准转移学习假设:Li et al. (2022), Xiong et al. (2023)
(注:以上引用若存在ASR误听的可能,应核对原文。幻灯片明确列出了这些引用。)
二、最小内核 / 一个最简例子¶
2.1 符号与模型¶
考虑线性反因果SCM(报告Slide 14):
对于环境 \(m \in \{0 (\text{target}), 1, \dots, M (\text{source})\}\),
其中: - \(Y \in \mathbb{R}\) 是根节点,先被生成(如从标准正态)。 - \(X \in \mathbb{R}^d\) 是 \(Y\) 的子节点,通过线性方程生成:\(X = B X + b Y + \epsilon_X\)。这意味着 \(X = (I - B)^{-1}(b Y + \epsilon_X)\)。 - \(B\) 是 \(d\times d\) 稀疏矩阵(编码X内部因果关系),\(b\) 是 \(d\times 1\) 反因果权重向量。 - 源和目标之间的分布转移由 \(B, b, \epsilon\) 的干预引起。
可观测数据: - 每个源环境 \(m\):有标签样本 \(\{X_i^{(m)}, Y_i^{(m)}\}_{i=1}^{n^{(m)}}\),无标签样本 \(\{\tilde X_i^{(m)}\}_{i=1}^{n_u^{(m)}}\)。 - 目标环境 \(0\):有标签样本 \(\{X_i^{(0)}, Y_i^{(0)}\}_{i=1}^{n^{(0)}}\)(少量),无标签样本 \(\{\tilde X_i^{(0)}\}_{i=1}^{n_u^{(0)}}\)(大量)。
Estimand:目标回归函数 \(f^*(x) = \mathbb{E}[Y^{(0)} \mid X^{(0)}=x]\);在线性假设下,存在最优线性系数 \(\beta^* = \arg\min_\beta \mathbb{E}[(Y^{(0)} - \beta^\top X^{(0)})^2]\)。目标绩效:目标超额风险 \(\delta\mathcal{R}^{(0)}(\hat f) = \mathbb{E}[\ell(\hat f(X^{(0)}), Y^{(0)})] - \min_f \mathbb{E}[\ell(f(X^{(0)}), Y^{(0)})]\)。
2.2 最简例子:稀疏连通性(SC)干预,一个源,\(d=3\)¶
假设 \(M=1\),一个源环境。数据生成:
- \(Y^{(1)} \sim N(0,1)\),\(Y^{(0)} \sim N(0,1)\) 相同。
- \(B^{(1)}\) 和 \(B^{(0)}\) 只在第1列不同,其余2列相同。即干预改变了 \(X_1\) 的父节点到 \(X_1\) 的因果机制,具体如幻灯片例1([0:27:05]附近):
Source:
X1 = 2*X2 + 2*X3 + b*Y + noise
X2 = noise
X3 = noise
Target:
X1 = -2*X2 - 2*X3 + b*Y + noise
X2 = noise
X3 = noise
因此,源和目标中 \(Y\) 与 \(X_2, X_3\) 的偏相关系数相同,而与 \(X_1\) 的偏相关系数发生符号翻转。这意味着源OLS估计 \(\hat\beta^{(1)}_{\text{OLS}}\) 与目标最优 \(\beta^*\) 之间的差只在 \(X_1\) 方向上非零(即1-稀疏)。在SSDA设置中,仅有少量目标标签 \(n^{(0)} \ll d\),但我们可以利用源估计的稀疏误差结构,只微调稀疏方向:用目标标签对 \(\hat\beta^{(1)}_{\text{OLS}}\) 进行带 L0/L1 约束的微调,从而获得率 \(r/n^{(0)} = 1/n^{(0)}\),而目标-only方法率为 \(d/n^{(0)} \gg 1/n^{(0)}\)。
三、报告主体:讲者讲了什么¶
[0:00:04–0:01:35] 开场与概述¶
- 主持人介绍:讲者 Wooseok Ha,KAIST,合作者 Yuansi Chen (ETH Zürich)。
- 讲者感谢并概述内容:动机、问题设置、线性SCM下的SSDA、三种干预下的微调算法、仿真结果。
[0:01:55–0:06:04] 动机:分布移位导致模型失败¶
- Camelyon17 数据集(医院间肿瘤识别)说明分布移位;ERM 在 WILDS 基准上从ID到OOD平均下降22.9% (Koh et al. 2021)。
- 更多例子:ImageNet模型在风格/草图变换下性能下降 (Radford et al. 2021);CNN的纹理偏好 (Geirhos et al. 2022)。
[0:06:04–0:08:01] 问题设置¶
- 给出源/目标数据的符号定义(幻灯片6),区分UDA、DG、SSDA。
- SSDA:少量目标标签 + 大量无标签目标数据 + 丰富源数据。
[0:08:09–0:11:00] 基线方法¶
- 简单基线:OLS-Pool(合并所有源数据训练)、OLS-Tar(仅用目标标签训练)。
- 高级UDA/DG方法:DIP(领域不变投影,匹配源和目标特征边际分布)和CIP(条件不变惩罚,匹配多个源中特征给定Y的条件分布)。
- CIP可识别CIC(条件不变分量)当源环境足够多时 (Wu, Chen, Ha, Yu 2025)。
[0:11:02–0:15:00] UDA方法的失败场景¶
- 反因果方向下,DIP不比源OLS更好([0:12:21]附近引Schölkopf et al. 2012, Chen & Bühlmann 2021)。
- 存在“标签翻转”特征时DIP失败([0:13:31]附近,彩色MNIST例子,引自Zhao et al. 2019, Johansson et al. 2019)。
- CIP过于保守,导致次优性能([0:14:38]附近引Wu, Chen, Ha, Yu 2025)。
[0:15:12–0:18:00] SSDA的动机与核心问题¶
- SSDA希望目标超额风险低于 target-only 或 UDA/DG 方法。
- 能否达到minimax最优率?定义minimax框架([0:16:31]附近)。
- 核心问题:SSDA能否超越基线?什么结构可被利用来高效使用目标标签?
- 贡献:针对三种干预类型设计微调策略,并联合模型选择的MASFT算法。
[0:18:36–0:21:00] 线性SCM框架¶
- 引入反因果线性SCM([0:20:13]附近,幻灯片14),解释Y→X方向在医学诊断和图像识别中的实例。
- 三种干预类型(幻灯片14):
- 稀疏连通性(SC):B矩阵在 \(r\) 列发生变化。
- 混杂加性(CA):噪声 \(\epsilon_X, \epsilon_Y\) 因 \(r\) 维未观测混杂Z改变。
- 反因果权重(AW):向量的b在 \(r\) 维子空间内变化。
[0:21:10–0:24:47] 与现有转移学习的对比¶
- 现有方法直接假设回归系数变化(如β稀疏变化),而本工作将变化归因于数据生成过程的干预([0:23:10]附近)。
- 当建模分布偏移更直观地在数据生成层面时,本方法更易处理。
[0:24:47–0:26:46] 目标-only minimax下界¶
- 定义Oracle估计量 \(\beta^*\)。
- 定理:在反因果线性SCM下,目标-only方法(仅使用 \(n^{(0)}\) 个标签和无标签数据)的minimax下界为 \(\gtrsim d/n^{(0)}\)([0:25:30]附近)。表明当 \(n^{(0)} \ll d\) 时,超额风险无法低于常数。
[0:26:46–0:31:02] 两个启发例子¶
- SC例子([0:27:05]):通过数值例子展示源和目标在B矩阵第1列变化,导致OLS-Src与Oracle之差稀疏。因此可在稀疏方向上微调。
- 均值偏移例子([0:29:06]):展示DIP+均值匹配惩罚可提取2维共同特征,剩下1维需用目标标签微调。
关键结论:高效使用标签依赖于分布偏移的类型([0:31:00]附近)。
[0:31:23–0:37:10] CA(混杂加性)干预下的微调算法与理论¶
- SC干预详细数据生成模型(幻灯片21)。
- 定理:下界为 \(\gtrsim r/n^{(0)}\)([0:32:48])。
- 方法:DIP with covariance matching penalty → 估计 \(\hat\beta^{(1)}_{DIP}\) 位于 \(d-r\) 维子空间;微调仅在正交的 \(r\) 维方向上进行(公式参见幻灯片22)。
- 定理:FT-DIP(1) 的超额风险上界为 \(c \cdot \frac{r \log(1/\delta)}{n^{(0)}} + \text{small terms from source/unlabeled}\)(幻灯片23)。当源/无标签样本足够大时,主项为 \(r/n^{(0)}\),达到minimax最优。
[0:37:10–0:40:00] SC干预下的微调¶
- 稀疏连通性干预下,OLS-Src与Oracle之差在 \(r\) 个协变量上稀疏(幻灯片24)。
- 下界:\(\gtrsim r/n^{(0)}\)。
- 方法:带 L1 约束的微调(借鉴Lasso)。定理显示上界为 \(c \cdot \frac{r \log d}{n^{(0)}} + \text{small terms}\),达到minimax最优([0:39:54]附近)。
[0:40:01–0:42:42] AW(反因果权重)干预下的微调¶
- AW干预:b向量在源之间变化,变化方向位于 \(r\) 维子空间(假设可被源域观察到的扰动方向张成)。
- 此处不允许使用无标签目标数据([0:41:03])。
- 方法:CIP with mean matching penalty 从多个源中提取 \(d-r\) 维条件不变特征;然后在 \(r\) 维上微调(幻灯片25附近)。
- 定理:同样达到 \(r/n^{(0)}\) 率。
[0:42:42–0:44:30] MASFT:多自适应启动微调¶
- 当干预类型未知时,训练L个UDA估计(DIP for CA、OLS-Src for SC、CIP for AW 等),对每个进行微调,再在hold-out验证集上选最好的([0:43:40]附近)。
- 模型选择仅需 \(\log L\) 量级的额外样本。
- 定理:MASFT可达到与已知干预类型时相同的率(仅多log因子)。
[0:44:30–0:46:27] 总结与开放问题¶
- 总结:SSDA理论框架,无通用微调算法,UDA初值微调可达到minimax最优,MASFT处理未知干预。
- 开放问题:扩展到非线性SCM、线性函数类之外、高效微调在潜在特征空间、理解微调动力学与DA假设的关系。
[0:46:34–0:59:08] Q&A与讨论者评论¶
- 讨论者Jason Klusowski总结:强调弹性结构假设、三方法、minimax最优性、MASFT模型选择。提出扩展非线性、鲁棒性(模型误设)问题。
- 讲者回应:非线性依赖UDA理论进展;鲁棒性可采用分布鲁棒优化思路。
- 额外问题:混合干预(如SC+CA)能否顺序结合?讲者认为可能但未仔细研究。
四、对应论文与开放问题¶
4.1 对应论文¶
- arXiv 2507.14661:题目与报告相同 “When few labeled target data suffice: a theory of semi-supervised domain adaptation via fine-tuning from multiple adaptive starts”,作者 Wooseok Ha, Yuansi Chen。报告内容与该arXiv版本一致(幻灯片明确标注Joint work with Yuansi Chen,且摘要吻合)。
- 报告中提到的相关论文(可查):
- Wu, Chen, Ha, Yu (2025) 关于 CIC 可识别性(未给出具体标题,可能为 “When are conditional invariant components identifiable?” 或类似,需核实)。
- Chen & Bühlmann (2021) 用于UDA失效的论点。
- Li et al. (2022), Xiong et al. (2023) 作为转移学习代表。
(注:以上引用的论文标题可能不精确,应基于arXiv或领域知识核实。报告未提供完整参考文献列表。)
4.2 开放问题(扎根于转写)¶
- 扩展到非线性SCM和非线性函数类([0:46:01] 讲者总结 & [0:46:48] Q&A)
- 问题来源:讲者明确列出为开放问题,并在Q&A中承认主要挑战在于UDA理论本身对非线性模型不成熟。
- 如何在潜在特征空间中进行高效微调([0:46:13] 讲者提到)
- 问题来源:总结时提到“develop some efficient fine tuning in the latent feature space”。
- 理解微调动力学与域适应假设的关系([0:46:21] 讲者)
- 问题来源:总结时提到“understand the relationship between the fine-tuning dynamics and domain adaptation assumptions”。
- 模型误设下的鲁棒性(来自讨论者 [0:55:02] 以及讲者回应 [0:58:07])
- 问题来源:讨论者问“how robust are these methods to model misspecification?”,讲者认为当前理论要求精确模型,尚未研究;可尝试结合分布鲁棒优化。
- 混合干预(如SC+CA)的联合处理(来自主持人/讨论者 [1:00:46])
- 问题来源:主持人提问“hybrid shift”,讲者猜测可顺序应用但未分析。
- 更深层的扩展:deep extensions(讨论者 [0:55:02] 提及)
- 问题来源:讨论者提到“deep extensions”,讲者回应UDA非线性的理论困难。
Maintained by 陈星宇 · Homepage · Source on GitHub