Multi-Source Learning with Minimax Optimization: From Adversarial Robustness to Causal Invariance¶

讲者: Zijian Guo
讨论人: Kaizheng Wang
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-05-06
主题: 因果推断
视频: https://youtu.be/1X9691nTTc8 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

报告人 Zijian Guo (Rutgers University) 在这次 OCIS 报告中，将三篇（系列）自己在多源学习（Multi-Source Learning）上的工作放在统一框架下梳理。这个框架的核心是 minimax optimization：

\[f^* := \arg\min_{f \in \mathcal{F}} \max_{T \in \mathcal{C}} \mathbb{E}_{X,Y\sim T} \ell(X,Y; f)\]

这个子方向在追问什么？
传统的单源监督学习假定训练与测试数据独立同分布。但在多医院、多批次、多基因谱系数据中，分布偏移（distribution shift）是常态。核心问题是：如何从多个有标签的源数据集，去学习一个对目标群体 有良好预测性能且稳健（robust） 的模型？目标群体可能是完全无标签的（无监督域适应），或有少量标签（有监督迁移学习），或是仅关心环境之间共享的不变（invariant）因果机制。

当前的奠基与主流路线：
- Distributionally Robust Optimization (DRO)：构造一个不确定集（ambiguity set），对其中最坏情况的风险做优化。经典方法包括基于 \(f\)-散度的 DRO（如 Duchi & Namkoong, 2018），但这里的不确定集定义来自多源混合。
- Invariant Risk Minimization (IRM) (Arjovsky et al., 2019) 及其变种（如 ICP: Peters et al., 2016）：通过寻找在所有环境中风险不变的特征来识别因果模型。
- Transfer learning 与 domain adaptation：统计界更倾向于在稀疏线性模型下建立理论（如 Li et al., 2022, Bastani 等人），强调误差率。

这场报告的站位：
Guo 的三篇工作统一在“通过改变不确定集 \(\mathcal{C}\) 来控制信息量”这一思路下： 1. 无监督域适应（Distributionally Robust ML）：\(\mathcal{C}\) 是所有源环境条件均值的凸组合，使模型对任意目标域（无标签）的 worst-case performance 有保证。 2. 有监督迁移学习（Guided Adversarial Robust Transfer Learning, GART）：\(\mathcal{C}\) 被进一步约束在目标域的已有标签之上，使模型在目标上不退化太多，从而更精准。 3. 因果不变性学习（Negative Weight DRO）：\(\mathcal{C}\) 被放大到包含负权重（即允许环境之间做差分），从而迫使模型在所有环境中风险相等，以此识别因果系数。

这样一条“不确定集由小到大”（从正单形到放大的负权单形）的谱系，是其最鲜明的贡献。

提名关键工作（标注确定性）：
- Meinshausen & Bühlmann (2015), Annals of Statistics: 首次提出在多源线性模型中对 minimax（拜占庭）稳健的估计。这是其第一个定理的直接前驱。
- Peters, Bühlmann & Meinshausen (2016), JRSS-B: ICP，通过枚举子集做因果不变性学习。
- Fan, Fang, Gu & Zhang (2024), Annals of Statistics: ELLIS，用离散优化逼近不变模型。
- Rothenhäusler, Meinshausen, Bühlmann & Peters (2021), JRSS-B: Anchor Regression，引入 additive intervention 框架。
- Z. Wang, Bühlmann & Guo (2023): Distributionally Robust Machine Learning with Multi-source Data. arXiv:2309.02211. (报告的基础)
- Xiong, Guo & Cai (2023): Guided Adversarial Robust Transfer Learning. arXiv:2309.06534. (报告的第二部分)
- Z. Wang, Hu, Bühlmann & Guo (2024): Causal Invariance Learning via Efficient Optimization of a Non-Convex Objective. arXiv:2412.11850. (报告的第三部分)
- Guo (2024), JASA: Statistical Inference for Maximin Effects. (与第一部分直接相关)

二、最小内核 / 一个最简例子¶

符号与模型：
- 有 \(L\) 个源环境，每个源环境 \(l \in \{1,\dots,L\}\) 提供有标签样本 \(\{X^{(l)}_i, Y^{(l)}_i\}_{i=1}^{n_l}\)，假设

\[Y^{(l)} = f^{(l)}(X^{(l)}) + \varepsilon^{(l)}, \quad \mathbb{E}[\varepsilon^{(l)}|X^{(l)}]=0.\]

- 目标环境（只有一个）提供无标签样本 \(\{X^{Q}_j\}_{j=1}^{n_Q}\)，来自分布 \(Q_X\)。条件均值 \(f^{(0)}(x) = \mathbb{E}[Y^Q|X^Q=x]\) 未知。
- Estimand（目标）：找到一个预测模型 \(f\)，使得它在目标分布下的可解释方差（reward）\(R_T(f) = \mathbb{E}_{T}[(Y)^2 - (Y-f(X))^2]\) 尽可能大，但只能通过无标签 \(X\) 做保证。

最简特例（\(L=2\)，线性模型，无 prior）：
令 \(f^{(1)}(x)=a^\top x,\; f^{(2)}(x)=b^\top x\)，且 \(\mathcal{F}\) 是所有线性函数。则 Guo 的核心定理（幻灯片 p.11）说：

\[f^* = \arg\min_{f\in\mathcal{F}} \max_{T\in\mathcal{C}} R_T(f) = \gamma^*_1 f^{(1)} + \gamma^*_2 f^{(2)},\]

其中

\[(\gamma^*_1, \gamma^*_2) = \arg\min_{\gamma\in\Delta_2} \gamma^\top \Gamma \gamma, \quad \Gamma_{k,l} = \mathbb{E}_{Q_X}[f^{(k)}(X)f^{(l)}(X)].\]

换言之，最优解是源条件均值的某个凸组合，权重 \((\gamma^*_1,\gamma^*_2)\) 由目标协变量分布 \(Q_X\) 对源函数做投影得到：\(\gamma^*\) 是最小二乘意义下使组合函数 \(\sum \gamma_l f^{(l)}\) 的 \(L^2(Q_X)\) 范数最小的点。几何上，如果 \(f^{(1)}, f^{(2)}\) 在 \(Q_X\) 下是正交的，那么 \(\gamma^*\) 会将权重更多地赋给在目标域下“更稳定”或“更匹配”的那个源。

为什么这行得通？
因为 \(\mathcal{C}\) 被定义为 \(\{T = (Q_X, T_{Y|X}) : T_{Y|X} = \sum_{l} q_l P^{(l)}_{Y|X}, q\in\Delta_L\}\) —— 所有可能的源条件均值加权组合。最大化最坏情况奖励等价于找一个在所有这样的混合分布下奖励都好的 \(f\)，其解正是凸组合。将 \(f(l)\) 预先估计后，就可以转化为一个低维（\(L\times L\)）的二次规划。

从最简到复杂：
- 对于有目标标签的情况（GART），定义约束集 \(\mathcal{C}(\tau)\)，使每个候选 \(T\) 在目标数据上的预测误差不比目标真实模型（由标签估计）差太多，交回上述二次规划形式但限定在 \(\gamma\) 的可行集为 \(\mathcal{S}(\tau)\)。
- 对于因果不变性（NegDRO），把可行集从正单形放大到带负权重的单形：\(\gamma_l \ge -\gamma\)，从而迫使优化结果同时让风险相等。

三、报告主体：讲者讲了什么¶

[0:00:46 – 0:04:57] 引言与框架
- 问题动机：多源数据（多医院、多批次、多人种）遇到分布偏移，需要找出可共享的稳定信息。
- 确立主题：使用 minimax optimization（不是 minimax 统计最优性），定义 \(f^* = \arg\min_f \max_{T\in\mathcal{C}} \mathbb{E}_{T}[\ell]\)；通过改变 \(\mathcal{C}\) 来解决三种问题：DRO → 迁移学习 → 因果不变性。

[0:04:57 – 0:17:08] 第一部分：Distributionally Robust ML (Wang, Bühlmann & Guo, 2023)
- 设定：无监督域适应——源有标签，目标仅 \(\mathbf{X}\)。
- 不确定类：

\[\mathcal{C}(Q_X) = \left\{ T = (Q_X, T_{Y|X}): T_{Y|X} = \sum_{l=1}^L q_l P^{(l)}_{Y|X}, q\in\Delta_L \right\}.\]

这是未经约束的源混合（Dominic 提问时确认了这是任意凸组合，不限制形式 [0:10:27–0:10:41]）。
- 用 reward（explained variance）而非损失来定义 minimax：

\[f^* = \arg\max_f \min_T R_T(f), \quad R_T(f) = \mathbb{E}_T[Y^2 - (Y-f(X))^2].\]

- 核心定理（population 版本，p.11）：若 \(\mathcal{F}\) 是凸集且包含所有 \(f^{(l)}\)，\(\mathcal{H}\) 是凸子集，则

\[f^*_{\mathcal{H}} = \sum_{l=1}^L \gamma^*_l f^{(l)}, \quad \gamma^* = \arg\min_{\gamma\in\mathcal{H}} \gamma^\top \Gamma \gamma,\; \Gamma_{kl} = \mathbb{E}_{Q_X}[f^{(k)} f^{(l)}].\]

几何含义：minimax 解是源函数的某个凸组合，权重由在目标协变量分布下的 \(L^2\) 投影大小决定。
- 估计（finite-sample）：
1. 用 ML 训练每个 \(\hat{f}^{(l)}\)。
2. 构造 \(\hat{\Gamma}_{kl} = n_Q^{-1} \sum \hat{f}^{(k)}(X^Q_j)\hat{f}^{(l)}(X^Q_j)\)。
3. 但直接 plug-in 有偏差。讲者强调了偏差修正：使用源数据中的 \(Y^{(l)} = f^{(l)}(X^{(l)}) + \varepsilon^{(l)}\)，

\[\frac{1}{n_l} \sum_i \hat{f}^{(k)}(X^{(l)}_i) \big(\hat{f}^{(l)}(X^{(l)}_i)-Y^{(l)}_i\big)\]

可以近似代替 cross-term 中的未知部分。[0:14:30–0:16:30] 这里是双 ML / 去偏 ML 思想的直接应用。
- 结论：经过偏差修正后的 plug-in 估计量在率上有可证明的改善（更多细节见 paper）。

[0:17:11 – 0:30:00] 第二部分：Guided Adversarial Robust Transfer Learning (GART) (Xiong, Guo & Cai, 2023)
- 设定变化：目标域也提供少量有标签数据（supervised domain adaptation, linear model）。
- 不确定类被扩大为混合物（源+目标）再通过目标数据过滤：

\[\mathcal{C}(\tau) = \left\{ T\in\mathcal{C}(Q_X): \mathbb{E}_{Q}[\mathbb{E}_{T|Q}(Y - \bar{Y})^2] \le \mathbb{E}_Q[(Y - \mathbb{E}_{Q}[Y|X])^2] + \tau \right\},\]

\(\tau\) 是一个容忍参数（默认 \(1/n_Q\)）。它保留了那些在目标数据上预测误差不超过基准噪声过多的分布。
- 行为（幻灯片 p.20, Eq (1)-(2)）：解仍为线性组合 \(\beta_{\text{GART}} = \gamma_0\beta^{(0)} + \sum_{l=1}^L \gamma_l\beta^{(l)}\)，但 \(\gamma\) 的可行集变为

\[\mathcal{S}(\tau) = \left\{ \gamma\in\Delta_{L+1}:\; \mathbb{E}_{(X,Y)\sim Q}\big[ ( X^\top \sum_{l=0}^L \gamma_l \beta^{(l)} - Y )^2\big] \le \mathbb{E}_{(X,Y)\sim Q}[(X^\top\beta^{(0)}-Y)^2] + \tau \right\}.\]

即强制组合模型的预测风险不远超目标单模型。
- 理论结果（p.22–23）（关键词：slide 上的定理，讲者 [0:23:58–0:26:00] 解释）：
- 假设源/目标都满足稀疏线性模型（lasso 速率 \(\|\hat{\beta}^{(l)}-\beta^{(l)}\|_2^2 \lesssim k_l \log p / N_l\) 等）。
- 令 \(\alpha = \min_{q\in\Delta_L} \|\beta^{(0)}-\sum_l q_l\beta^{(l)}\|_2^2\) 为源混合与目标最短距离（模型偏移量）。
- 则 \(\|\hat{\beta}_{\text{GART}}-\beta^{(0)}\|_2^2 \lesssim \min\Big( \underbrace{\frac{k_0\log p}{n_Q}}_{\text{target only}},\; \alpha + \tau + \underbrace{\frac{L}{n_Q}}_{\text{estimation of }\gamma} + \max_{l} \underbrace{\frac{k_l\log p}{N_l}}_{\text{source lasso error}} \Big)。\)
- 关键自适应性：若源混合接近目标（\(\alpha\lesssim n_Q^{-1}\)，即模型偏移小），则 GART 的误差率远优于 target-only；否则退化为 target-only rate。它是一个数据驱动的模型选择：不必事先知道哪些源有用。
- 应用：HDL 遗传预测（[0:26:00–0:29:52]）。UK Biobank 数据（white 400K, black 6.6K, Asian 9.4K, others 3.8K），target 为 white-black 混合（50人）。GART 权重图显示它自动分配目标与最相关来源的权重（[0:28:00] 两张权重图）。在 MSE 改善上，GART > Source Mixture > Maximin, TransLasso > TransGLM，且在通用性（在外样本 MGB Others 上评估）上也最好。讲者将此归因于 DRO 的 worst-case 性质：即对未来分布小幅改变的稳健性。

[0:30:06 – 0:46:23] 第三部分：Negative Weight DRO → Causal Invariance Learning (Z. Wang, Hu, Bühlmann & Guo, 2024)
- 问题设定从“预测目标”转变为“识别跨环境不变的因果模型”。
- Toy example（线性 SCMM 于 p.30）：

\[X^{(l)}_1 = \varepsilon_1^{(l)},\quad Y^{(l)} = X^{(l)}_1 + \varepsilon_Y^{(l)},\quad X^{(l)}_2 = Y^{(l)} + \varepsilon_2^{(l)},\]

其中 \(\varepsilon_2^{(l)}\) 的方差随环境 \(l\) 变化。因此 \(X_1\) 是因果的（对 Y 的效应不变），\(X_2\) 是因果后代（对 Y 的回归系数随环境异质）。
- 经典不变性学习（ICP, ELLIS）：枚举子集 \(S\)，检查模型在所有环境下的风险是否相等 — 组合爆炸。
- NegDRO 关键思想（幻灯片 p.32–33）：
- 定义负权单形：\(U(\gamma) = \{ w\in\mathbb{R}^L: \sum w_l = 1, \min_l w_l \ge -\gamma \}\)。
- 优化：

\[b^\gamma_{\text{Neg}} = \arg\min_{b} \max_{w\in U(\gamma)} \sum_{l=1}^L w_l \mathbb{E}[(Y^{(l)} - b^\top X^{(l)})^2].\]

- 当 \(\gamma\to\infty\)，它等价于（幻灯片 p.33）：

\[b^\infty_{\text{Neg}} = \arg\min_{b} \mathbb{E}[(Y^{(l)} - b^\top X)^{(l)}] \quad \text{s.t.}\quad \mathbb{E}[(Y^{(l)} - b^\top X)^{(l)}] \equiv \text{const across } l.\]

即强制所有环境风险相等（不变结构），同时最小化这个共同风险。
- 关键挑战 1（因果可识别性，p.35–37）：在什么条件下不变风险模型唯一且等于因果系数 \(\beta^*\)？
- 施加加性干预结构（系统 (7)–(8)）：设

\[\begin{pmatrix} Y^{(l)} \\ X^{(l)} \end{pmatrix} = \mathbb{B} \begin{pmatrix} Y^{(l)} \\ X^{(l)} \end{pmatrix} + \begin{pmatrix} \eta_Y \\ \eta_X \end{pmatrix} + \begin{pmatrix} 0 \\ \delta^{(l)} \end{pmatrix},\]

即干预只作用在协变量的外生噪声上（\( \delta^{(l)}\) 可改变均值/方差）。
- 条件 2（等价于条件 1）：存在 \(w_0\in\Delta_L\) 使得

\[\lambda = \lambda_{\min}\left( \sum_l \big( w_{0,l} - 1/L \big) \mathbb{E}[\delta^{(l)} \delta^{(l)\top}] \right) > 0.\]

直觉：存在一个正权组合，使得其干预协方差矩阵“严格大于”均匀权组合；这度量了环境之间的“正交性”或异质程度。
- 该条件几乎充要：若成立，最优解唯一且等于 \(\beta^*\)；若不成立可构造反例（p.37 显示）。
- 关键挑战 2（非凸全局优化，p.38–40）：目标函数 \(\Phi(b)\) 对 \(b\) 非凸，常规方法可能陷入局部最优。
- 报告提出了一个稳定性引理（[0:42:28–0:43:44] 讲者重点解释）：

\[\|b - \beta^*\|_2 \le \frac{C}{\lambda} \left( \frac{\sigma_Y^2}{1+\gamma L} + \|\nabla_b \Phi_\mu(b)\|_2 \right) + \frac{C}{\sqrt{\lambda}}\left( \sqrt{\mu} + (p/n)^{1/4} \right),\]

（\(\Phi_\mu\) 是加了一个对偶变量的二次惩罚的稳定版本）。
这意味着：只要找到梯度接近零的点 \(b\)，它就必然接近真实参数，与全局收敛性无关。这是半凸性或“良性非凸性”（benign non-convexity）的一种具体表现。
- 基于此，可以运行简单梯度下降（交替优化权重与模型参数），获得收敛率为

\[\|\hat{b} - \beta^*\|_2 \lesssim \frac{\sigma_Y^2}{1+\gamma L} + \left(\frac{M^2}{T}\right)^{1/4} + \left(\frac{p}{n}\right)^{1/4},\]

当样本量足够大时最后两项趋于 0，只要足够多的环境（\(L\)）和/或足够大的 \(\gamma\)，误差率就消失。
- 仿真验证（p.42–43）：展示 \(\lambda>0\) 时，不同 \(L\) 和 \(n\) 下的误差衰减符合理论（特别是 \(n^{-1/4}\) 的缓慢率，讲者承认这是当前实现的局限，呼吁通过变量筛选来改进 [0:58:51–0:59:30]）。

[0:46:00 – 1:02:00] 讨论与 Q&A（Kaizheng Wang 主持）
- Kaizheng 总结：三种问题对应 DRO → 有监督域适应 → 不变性学习，其差异仅在于 \(\mathcal{C}\) 的信息密度。
- 提出的开放问题（原文及讲者回应）：
1. 如何超越线性模型？（欲使损失在不同环境间直接可比，非线性下难度大增。讲者回答：第 1、2 两部分已有初步非线性扩展（ongoing），但因果不变性部分极难，目前只对 additive intervention + 线性模型有完整理论。）
2. 协变量偏移的精确刻画？（第 1、2 两部分可接密度比加权处理，但对非重叠区域无能为力，是开放问题。）
3. 稀疏性的显式利用？（当前 NegDRO 不强制稀疏，可否通过引入变量选择来提高效率？讲者认为可能可行，是未来方向。）
4. finite-sample 误差的收缩能否超越 \(n^{-1/4}\)？（讲者同意目前不可能是最优率，提出先做变量筛选再 pooled 回归的改进思路。）

四、对应论文与开放问题¶

（a）报告对应的论文（全部有 arXiv / 期刊记录）：
1. Z. Wang, P. Bühlmann, Z. Guo (2023). "Distributionally Robust Machine Learning with Multi-source Data." arXiv:2309.02211.
2. X. Xiong, Z. Guo, T. Cai (2023). "Guided Adversarial Robust Transfer Learning." arXiv:2309.06534.
3. Z. Wang, Y. Hu, P. Bühlmann, Z. Guo (2024). "Causal Invariance Learning via Efficient Optimization of a Non-Convex Objective." arXiv:2412.11850.
4. Z. Guo (2024). "Statistical Inference for Maximin Effects: Identifying Stable Associations Across Multiple Studies." JASA, 119(547), 1968–1984. （与第一部分理论紧密相关）

（转录中“collaborators: Peter Bühlmann, Tianxi Cai, Nicolai Meinshausen, Yihong Gu”在 p.46/48 被确认。）

（b）报告留下的开放问题（每条均扎根于转写稿）

模型丧失闭式解后的计算与推断 ([0:22:00–0:22:14], Dominic 提问)：对于非平方损失（logistic, 0-1 loss）DRO 问题，如何有效求解？是否仍能得到解析组合结构，还是必须依赖通用 minimax 算法？
协变量分布严重不重叠时的处理 ([0:57:58–0:58:40], Kaizheng 提问 + 讲者回答)：当前框架通过密度比加权已隐含处理轻度的 covariate shift，但当 positivity 假设被违反（如某些 \(X\) 区域在目标域出现但所有源域缺失），如何识别或界定外推风险？
不变性学习超出 additive intervention 假设 ([0:59:50–1:00:10], 讲者自认局限)：NegDRO 对 do-intervention（硬干预直接改变因果图）或更一般非加性干预的理论保证还不存在。这是一个巨大的 open gap。
非凸率的改进 ([0:58:51–0:59:30], 讲者回应 Kaizheng 的特别问题)：当前 NegDRO 的有限样本率会出现 \((p/n)^{1/4}\) 这样的慢率。能否通过变量筛选 + “筛选后 pooling” 将率提升到通常的 \(\sqrt{k\log p/n}\)？
稀疏性与组合权重估计的交互 ([0:56:18–0:56:28], Kaizheng 提问)：如果因果模型是稀疏的（大多数 \(X_j\) 无效），显式施加稀疏约束是否会改善权重 \(\gamma\) 和最终定理的风险率？

以上开放问题只罗列、不做可行性判断。

Maintained by 陈星宇 · Homepage · Source on GitHub

Multi-Source Learning with Minimax Optimization: From Adversarial Robustness to Causal Invariance¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论