When few labeled target data suffice: a theory of semi-supervised domain adaptation via fine-tuning from multiple adaptive starts¶

讲者: Wooseok Ha
讨论人: Jason Kluswoski
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-10-21
主题: 因果推断
视频: https://youtu.be/3EJrhuW1zVA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2507.14661 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

1.1 子方向：半监督域适应（SSDA）的理论¶

域适应（Domain Adaptation, DA）是迁移学习的一个分支，目标是利用一个或多个有标签的源领域数据，在目标领域上学习预测模型，允许源与目标分布不同。根据目标领域可获得的监督类型，分为：

无监督域适应（UDA）：目标领域有大量无标签数据，无标签。
域泛化（Domain Generalization, DG）：目标领域完全无数据。
半监督域适应（SSDA）：目标领域有少量标签 + 大量无标签数据。这是最贴近实际（标签昂贵、未标注数据丰富）的场景，也是本报告的主题。

尽管SSDA在应用中很常见（如医学影像、物体识别），但理论理解非常有限。现有理论文献（如Li et al. 2022, Xiong et al. 2023）通常直接假设回归系数在源和目标之间发生稀疏变化（即“转移学习”），而忽略了数据生成层面的结构。本报告采用另一条路线：用结构因果模型（SCM）显式建模分布转移如何通过干预产生，再分析SSDA的性能。

1.2 奠基与主流路线¶

因果视图下的域适应：Schölkopf et al. (2012) 区分了“因果”和“反因果”数据生成方向，指出在反因果方向（Y→X）下，边际分布移位不影响条件分布 P(Y|X)。Chen & Bühlmann (2021) 进一步将这一观点用于UDA，证明当生成方向为因果时，DIP（Domain-Invariant Projection）等匹配边际分布的方法无法改善回归性能。本报告承袭这一框架。
UDA方法：DIP（试图匹配源和目标特征边际分布）和CIP（Conditional Invariant Penalty，匹配多个源环境中特征给定Y的条件分布）是主流算法，但缺乏目标标签时可能失效（label-flipping特征、过于保守）。
转移学习（transfer learning）：Li et al. (2022), Xiong et al. (2023) 等假设回归系数本身在稀疏方向上变化，直接对参数施加结构。本报告不同：干预发生在数据生成机制的特定部分（B矩阵、噪声、反因果权重），参数变化是衍生的。

1.3 本报告站在哪里¶

本报告首次在线性SCM框架下为SSDA提供理论保证：它证明了针对三种典型干预类型（稀疏连通性、混杂加性、反因果权重）设计的微调策略可以达到minimax最优率（目标标签数 n(0) 上的 \(r/n(0)\)，r为干预自由度）。当干预类型未知时，提出MASFT算法，通过多个UDA初始化的微调并进行模型选择，达到近乎最优的率（额外log因子）。这项工作建立了SSDA的minimax理论，并揭示了“正确的初始化（即匹配干预类型的UDA估计）”比“更多目标标签”更关键的见解。

关键引用（均来自幻灯片/报告）： - 反因果UDA失效：Schölkopf et al. (2012), Chen & Bühlmann (2021) - 标签翻转特征：Zhao et al. (2019), Johansson et al. (2019) - CIP和CIC可识别性：Wu, Chen, Ha, Yu (2025) - 标准转移学习假设：Li et al. (2022), Xiong et al. (2023)

（注：以上引用若存在ASR误听的可能，应核对原文。幻灯片明确列出了这些引用。）

二、最小内核 / 一个最简例子¶

2.1 符号与模型¶

考虑线性反因果SCM（报告Slide 14）：

对于环境 \(m \in \{0 (\text{target}), 1, \dots, M (\text{source})\}\)，

\[\begin{pmatrix} X^{(m)} \\ Y^{(m)} \end{pmatrix} = \begin{pmatrix} B^{(m)} & b^{(m)} \\ 0 & 0 \end{pmatrix} \begin{pmatrix} X^{(m)} \\ Y^{(m)} \end{pmatrix} + \begin{pmatrix} \epsilon_X^{(m)} \\ \epsilon_Y^{(m)} \end{pmatrix},\]

其中： - \(Y \in \mathbb{R}\) 是根节点，先被生成（如从标准正态）。 - \(X \in \mathbb{R}^d\) 是 \(Y\) 的子节点，通过线性方程生成：\(X = B X + b Y + \epsilon_X\)。这意味着 \(X = (I - B)^{-1}(b Y + \epsilon_X)\)。 - \(B\) 是 \(d\times d\) 稀疏矩阵（编码X内部因果关系），\(b\) 是 \(d\times 1\) 反因果权重向量。 - 源和目标之间的分布转移由 \(B, b, \epsilon\) 的干预引起。

可观测数据： - 每个源环境 \(m\)：有标签样本 \(\{X_i^{(m)}, Y_i^{(m)}\}_{i=1}^{n^{(m)}}\)，无标签样本 \(\{\tilde X_i^{(m)}\}_{i=1}^{n_u^{(m)}}\)。 - 目标环境 \(0\)：有标签样本 \(\{X_i^{(0)}, Y_i^{(0)}\}_{i=1}^{n^{(0)}}\)（少量），无标签样本 \(\{\tilde X_i^{(0)}\}_{i=1}^{n_u^{(0)}}\)（大量）。

Estimand：目标回归函数 \(f^*(x) = \mathbb{E}[Y^{(0)} \mid X^{(0)}=x]\)；在线性假设下，存在最优线性系数 \(\beta^* = \arg\min_\beta \mathbb{E}[(Y^{(0)} - \beta^\top X^{(0)})^2]\)。目标绩效：目标超额风险 \(\delta\mathcal{R}^{(0)}(\hat f) = \mathbb{E}[\ell(\hat f(X^{(0)}), Y^{(0)})] - \min_f \mathbb{E}[\ell(f(X^{(0)}), Y^{(0)})]\)。

2.2 最简例子：稀疏连通性（SC）干预，一个源，\(d=3\)¶

假设 \(M=1\)，一个源环境。数据生成：

\(Y^{(1)} \sim N(0,1)\)，\(Y^{(0)} \sim N(0,1)\) 相同。
\(B^{(1)}\) 和 \(B^{(0)}\) 只在第1列不同，其余2列相同。即干预改变了 \(X_1\) 的父节点到 \(X_1\) 的因果机制，具体如幻灯片例1（[0:27:05]附近）：

Source:  
X1 = 2*X2 + 2*X3 + b*Y + noise  
X2 = noise  
X3 = noise  

Target:  
X1 = -2*X2 - 2*X3 + b*Y + noise  
X2 = noise  
X3 = noise

因此，源和目标中 \(Y\) 与 \(X_2, X_3\) 的偏相关系数相同，而与 \(X_1\) 的偏相关系数发生符号翻转。这意味着源OLS估计 \(\hat\beta^{(1)}_{\text{OLS}}\) 与目标最优 \(\beta^*\) 之间的差只在 \(X_1\) 方向上非零（即1-稀疏）。在SSDA设置中，仅有少量目标标签 \(n^{(0)} \ll d\)，但我们可以利用源估计的稀疏误差结构，只微调稀疏方向：用目标标签对 \(\hat\beta^{(1)}_{\text{OLS}}\) 进行带 L0/L1 约束的微调，从而获得率 \(r/n^{(0)} = 1/n^{(0)}\)，而目标-only方法率为 \(d/n^{(0)} \gg 1/n^{(0)}\)。

三、报告主体：讲者讲了什么¶

[0:00:04–0:01:35] 开场与概述¶

主持人介绍：讲者 Wooseok Ha，KAIST，合作者 Yuansi Chen (ETH Zürich)。
讲者感谢并概述内容：动机、问题设置、线性SCM下的SSDA、三种干预下的微调算法、仿真结果。

[0:01:55–0:06:04] 动机：分布移位导致模型失败¶

Camelyon17 数据集（医院间肿瘤识别）说明分布移位；ERM 在 WILDS 基准上从ID到OOD平均下降22.9% (Koh et al. 2021)。
更多例子：ImageNet模型在风格/草图变换下性能下降 (Radford et al. 2021)；CNN的纹理偏好 (Geirhos et al. 2022)。

[0:06:04–0:08:01] 问题设置¶

给出源/目标数据的符号定义（幻灯片6），区分UDA、DG、SSDA。
SSDA：少量目标标签 + 大量无标签目标数据 + 丰富源数据。

[0:08:09–0:11:00] 基线方法¶

简单基线：OLS-Pool（合并所有源数据训练）、OLS-Tar（仅用目标标签训练）。
高级UDA/DG方法：DIP（领域不变投影，匹配源和目标特征边际分布）和CIP（条件不变惩罚，匹配多个源中特征给定Y的条件分布）。
CIP可识别CIC（条件不变分量）当源环境足够多时 (Wu, Chen, Ha, Yu 2025)。

[0:11:02–0:15:00] UDA方法的失败场景¶

反因果方向下，DIP不比源OLS更好（[0:12:21]附近引Schölkopf et al. 2012, Chen & Bühlmann 2021）。
存在“标签翻转”特征时DIP失败（[0:13:31]附近，彩色MNIST例子，引自Zhao et al. 2019, Johansson et al. 2019）。
CIP过于保守，导致次优性能（[0:14:38]附近引Wu, Chen, Ha, Yu 2025）。

[0:15:12–0:18:00] SSDA的动机与核心问题¶

SSDA希望目标超额风险低于 target-only 或 UDA/DG 方法。
能否达到minimax最优率？定义minimax框架（[0:16:31]附近）。
核心问题：SSDA能否超越基线？什么结构可被利用来高效使用目标标签？
贡献：针对三种干预类型设计微调策略，并联合模型选择的MASFT算法。

[0:18:36–0:21:00] 线性SCM框架¶

引入反因果线性SCM（[0:20:13]附近，幻灯片14），解释Y→X方向在医学诊断和图像识别中的实例。
三种干预类型（幻灯片14）：
稀疏连通性（SC）：B矩阵在 \(r\) 列发生变化。
混杂加性（CA）：噪声 \(\epsilon_X, \epsilon_Y\) 因 \(r\) 维未观测混杂Z改变。
反因果权重（AW）：向量的b在 \(r\) 维子空间内变化。

[0:21:10–0:24:47] 与现有转移学习的对比¶

现有方法直接假设回归系数变化（如β稀疏变化），而本工作将变化归因于数据生成过程的干预（[0:23:10]附近）。
当建模分布偏移更直观地在数据生成层面时，本方法更易处理。

[0:24:47–0:26:46] 目标-only minimax下界¶

定义Oracle估计量 \(\beta^*\)。
定理：在反因果线性SCM下，目标-only方法（仅使用 \(n^{(0)}\) 个标签和无标签数据）的minimax下界为 \(\gtrsim d/n^{(0)}\)（[0:25:30]附近）。表明当 \(n^{(0)} \ll d\) 时，超额风险无法低于常数。

[0:26:46–0:31:02] 两个启发例子¶

SC例子（[0:27:05]）：通过数值例子展示源和目标在B矩阵第1列变化，导致OLS-Src与Oracle之差稀疏。因此可在稀疏方向上微调。
均值偏移例子（[0:29:06]）：展示DIP+均值匹配惩罚可提取2维共同特征，剩下1维需用目标标签微调。

关键结论：高效使用标签依赖于分布偏移的类型（[0:31:00]附近）。

[0:31:23–0:37:10] CA（混杂加性）干预下的微调算法与理论¶

SC干预详细数据生成模型（幻灯片21）。
定理：下界为 \(\gtrsim r/n^{(0)}\)（[0:32:48]）。
方法：DIP with covariance matching penalty → 估计 \(\hat\beta^{(1)}_{DIP}\) 位于 \(d-r\) 维子空间；微调仅在正交的 \(r\) 维方向上进行（公式参见幻灯片22）。
定理：FT-DIP(1) 的超额风险上界为 \(c \cdot \frac{r \log(1/\delta)}{n^{(0)}} + \text{small terms from source/unlabeled}\)（幻灯片23）。当源/无标签样本足够大时，主项为 \(r/n^{(0)}\)，达到minimax最优。

[0:37:10–0:40:00] SC干预下的微调¶

稀疏连通性干预下，OLS-Src与Oracle之差在 \(r\) 个协变量上稀疏（幻灯片24）。
下界：\(\gtrsim r/n^{(0)}\)。
方法：带 L1 约束的微调（借鉴Lasso）。定理显示上界为 \(c \cdot \frac{r \log d}{n^{(0)}} + \text{small terms}\)，达到minimax最优（[0:39:54]附近）。

[0:40:01–0:42:42] AW（反因果权重）干预下的微调¶

AW干预：b向量在源之间变化，变化方向位于 \(r\) 维子空间（假设可被源域观察到的扰动方向张成）。
此处不允许使用无标签目标数据（[0:41:03]）。
方法：CIP with mean matching penalty 从多个源中提取 \(d-r\) 维条件不变特征；然后在 \(r\) 维上微调（幻灯片25附近）。
定理：同样达到 \(r/n^{(0)}\) 率。

[0:42:42–0:44:30] MASFT：多自适应启动微调¶

当干预类型未知时，训练L个UDA估计（DIP for CA、OLS-Src for SC、CIP for AW 等），对每个进行微调，再在hold-out验证集上选最好的（[0:43:40]附近）。
模型选择仅需 \(\log L\) 量级的额外样本。
定理：MASFT可达到与已知干预类型时相同的率（仅多log因子）。

[0:44:30–0:46:27] 总结与开放问题¶

总结：SSDA理论框架，无通用微调算法，UDA初值微调可达到minimax最优，MASFT处理未知干预。
开放问题：扩展到非线性SCM、线性函数类之外、高效微调在潜在特征空间、理解微调动力学与DA假设的关系。

[0:46:34–0:59:08] Q&A与讨论者评论¶

讨论者Jason Klusowski总结：强调弹性结构假设、三方法、minimax最优性、MASFT模型选择。提出扩展非线性、鲁棒性（模型误设）问题。
讲者回应：非线性依赖UDA理论进展；鲁棒性可采用分布鲁棒优化思路。
额外问题：混合干预（如SC+CA）能否顺序结合？讲者认为可能但未仔细研究。

四、对应论文与开放问题¶

4.1 对应论文¶

arXiv 2507.14661：题目与报告相同 “When few labeled target data suffice: a theory of semi-supervised domain adaptation via fine-tuning from multiple adaptive starts”，作者 Wooseok Ha, Yuansi Chen。报告内容与该arXiv版本一致（幻灯片明确标注Joint work with Yuansi Chen，且摘要吻合）。
报告中提到的相关论文（可查）：
Wu, Chen, Ha, Yu (2025) 关于 CIC 可识别性（未给出具体标题，可能为 “When are conditional invariant components identifiable?” 或类似，需核实）。
Chen & Bühlmann (2021) 用于UDA失效的论点。
Li et al. (2022), Xiong et al. (2023) 作为转移学习代表。

（注：以上引用的论文标题可能不精确，应基于arXiv或领域知识核实。报告未提供完整参考文献列表。）

4.2 开放问题（扎根于转写）¶

扩展到非线性SCM和非线性函数类（[0:46:01] 讲者总结 & [0:46:48] Q&A）
问题来源：讲者明确列出为开放问题，并在Q&A中承认主要挑战在于UDA理论本身对非线性模型不成熟。
如何在潜在特征空间中进行高效微调（[0:46:13] 讲者提到）
问题来源：总结时提到“develop some efficient fine tuning in the latent feature space”。
理解微调动力学与域适应假设的关系（[0:46:21] 讲者）
问题来源：总结时提到“understand the relationship between the fine-tuning dynamics and domain adaptation assumptions”。
模型误设下的鲁棒性（来自讨论者 [0:55:02] 以及讲者回应 [0:58:07]）
问题来源：讨论者问“how robust are these methods to model misspecification?”，讲者认为当前理论要求精确模型，尚未研究；可尝试结合分布鲁棒优化。
混合干预（如SC+CA）的联合处理（来自主持人/讨论者 [1:00:46]）
问题来源：主持人提问“hybrid shift”，讲者猜测可顺序应用但未分析。
更深层的扩展：deep extensions（讨论者 [0:55:02] 提及）
问题来源：讨论者提到“deep extensions”，讲者回应UDA非线性的理论困难。

Maintained by 陈星宇 · Homepage · Source on GitHub