跳转至

Talk #1: Causally motivated shortcut removal using auxiliary labels (Maggie Makar)

讲者: Maggie Makar
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-08-10
主题: 因果推断
视频: https://youtu.be/R555VwMXSZ4 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2108.03849 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

子方向:机器学习中的虚假关联(shortcut) 问题,即模型在训练数据中利用非因果的统计关联(例如图像背景与前景对象的相关性)作出预测,当测试分布下这种关联发生变化时性能急剧下降。这是深度学习可泛化性(Out-of-Distribution Generalization)的核心挑战之一。奠基工作包括 Beery et al.(ECCV 2018)的“Recognition in Terra Incognita”(被讲者引用),近期代表性路线有:不变风险最小化(IRM)(Arjovsky et al., 2019)、分布鲁棒优化(DRO)(Sagawa et al., 2020)、以及因果表示学习。本报告属于因果视角的一支:利用因果图(DAG)显式建模主标签、辅助标签(潜在的混淆变量)、图像表示之间的结构,并据此设计训练目标以消除对辅助标签的依赖。

核心思想:将鲁棒性要求转化为寻找一个“理想分布” \(P^\circ\),其中辅助标签 \(V\) 与主标签 \(Y\) 独立(类比随机对照试验)。从观测到的非理想分布出发,通过重要性加权映射到 \(P^\circ\),再施加表示层的最大均值差异(MMD)惩罚,鼓励表示不包含 \(V\) 的信息。这比纯统计不变性(如 IRM)更直接地利用了因果结构。

该工作在本子方向中的位置:它结合了因果加权(来自因果推断中处理混淆的经典工具)与表示层面的独立性正则化(类似域自适应中的 MMD)。报告的独到之处在于: - 不需要假设测试分布的具体形式,只需考虑“改变 \(V\)\(Y\) 的相关性”这类偏移(由因果 DAG 定义)。 - 给出了 有限样本泛化误差界,分解为结构风险项(由 MMD 控制)和学习风险项(由 Rademacher 复杂度控制),并证明因果正则化同时降低两项,带来 效率提升(而非仅鲁棒性)。 - 强调 盲目施加 MMD 惩罚而不修正采样偏差 会导致有偏估计,必须有加权步骤。

关键引用:Makar, M., Packer, B., Moldovan, D., Blalock, D., Halpern, Y., & D'Amour, A. (2021). “Causally motivated shortcut removal using auxiliary labels.” arXiv:2105.06422. (注意:用户给出的候选论文 arXiv:2108.03849 (Imbens et al.) 是关于面板数据工具变量法的,与本次报告无关;应以此 arXiv:2105.06422 为准。合作者名单确认自幻灯片。)


二、最小内核 / 一个最简例子

模型符号与可观测数据: - \(Y \in \{0,1\}\):主标签(如:牛=1, 骆驼=0)。 - \(V \in \{0,1\}\):辅助标签(如:草地=1, 沙地=0)。 - \(X\):高维图像像素。 - 训练样本 \((X_i, Y_i, V_i) \overset{\text{i.i.d.}}{\sim} P_S\)(源分布)。 - 因果 DAG(幻灯片 Fig. 12):

\[Y \rightarrow X^* \rightarrow X, \quad V \rightarrow X, \quad Y \text{ 与 } V \text{ 相关(双向虚线)}.\]
其中 \(X^*\) 是由主标签决定的“对象特征”(如牛的花纹),\(V\) 直接影响背景外观;\(Y\)\(V\) 之间无因果边,但存在相关性(在训练数据中,牛多出现在草地,骆驼多出现在沙地)。 - 目标:学习预测器 \(f(X) = h(\Phi(X))\)(表示 \(\Phi\) 后接分类器 \(h\)),使其在 所有与 \(P_S\) 只有 \(P(Y,V)\) 不同的目标分布 \(P_T\) 上表现良好(即对 \(Y\)-\(V\) 相关性变化鲁棒)。

最简特例(\(d=1\) 表示、线性模型、二值变量): - 设表示 \(\Phi(X) \in \mathbb{R}\),最终分类器为 sigmoid:\(\hat{Y} = \sigma(w_Y \Phi(X) + w_V V)\)。但这里我们希望表示本身不包含 \(V\) 的信息,因此更自然的做法是 \(\hat{Y} = \sigma(w \cdot \Phi(X))\),且 \(\Phi(X)\)\(V\) 独立。 - 理想分布 \(P^\circ\) 下的性质:\(Y \perp V\)。在 \(P^\circ\) 中,给定 \(Y=1\)\(V=1\) 的概率与给定 \(Y=0\) 时相同。如果训练数据恰来自 \(P^\circ\),则最小化标准 logistic loss 可得到渐近无偏的预测器。 - 但训练数据来自非理想 \(P_S\)(例如 \(P_S(V=1|Y=1)=0.9, P_S(V=1|Y=0)=0.1\))。为恢复独立性,计算权重

\[u_i = \frac{P(V=v_i)}{P(V=v_i|Y=y_i)},\]
使得加权后的经验分布中 \(V\)\(Y\) 近似独立。 - 学习目标:
\[\min_{\Phi, h} \sum_{i=1}^n u_i \cdot \ell(y_i, h(\Phi(x_i))) + \alpha \cdot \widehat{\text{MMD}}^2\big( \{\Phi(x_i): V_i=0\}, \{\Phi(x_i): V_i=1\} \big),\]
其中 \(\ell\) 为 logistic loss,\(\widehat{\text{MMD}}\) 用高斯核计算。第二项惩罚表示分布在不同 \(V\) 取值下的差异,鼓励 \(\Phi(X) \perp V\)。 - 核心直觉:加权修正了采样偏差,MMD 惩罚直接削减表示中包含的 \(V\) 信息,从而保证在测试分布 \(P_T\)(可能 \(P_T(Y,V)\) 不同于 \(P_S\))上,预测器不会因为 \(V\) 的变化而失效。


三、报告主体:讲者讲了什么

以下按时间顺序([H:MM] 大致时间戳)整理讲者的叙述,结合幻灯片校正 ASR 转写错误。

[0:01–0:04] 问题背景 - 介绍深度学习模型依赖“shortcuts”(捷径/虚假关联)的现象:训练准确率高,但若测试时相关性打破则性能骤降。例子:牛/骆驼分类,模型实际使用背景(草地/沙地)做预测。 - 目标:构建对单一 shortcut 鲁棒的模型(不试图穷举所有 shortcut)。

[0:04–0:07] 因果 DAG 定义 - 幻灯片 Fig. 12:主标签 \(Y\) → 对象特征 \(X^*\) → 图像 \(X\);辅助标签 \(V\)(背景)也影响 \(X\)\(Y\)\(V\) 之间有双向虚线表示“相关但不因果”。 - 希望在所有仅改变 \(Y\)-\(V\) 相关性的目标分布族上表现一致。这由因果 DAG 自然定义。

[0:07–0:11] 渐近鲁棒性:理想分布 \(P^\circ\) - 定义“理想分布” \(P^\circ\)\(V \perp Y\)(相当于随机化)。如果训练数据来自 \(P^\circ\),则渐近最优预测器自动对任意 \(P_T\) 鲁棒(因为 \(X^*\) d-分离了 \(Y\)\(X\) 中的 \(V\) 信息)。 - 类比随机对照试验(RCT)。

[0:11–0:15] 有限样本分析:泛化误差分解 - 泛化误差:\(R(P_T) - \hat{R}_{P^\circ}\)(目标分布风险减去训练误差)。 - 通过添加/减去 \(R(P^\circ)\) 分解为: - 结构风险差距(Structural risk gap):\(R(P_T) - R(P^\circ)\),由分布偏移引起。 - 学习差距(Learning gap):\(R(P^\circ) - \hat{R}_{P^\circ}\),由有限样本导致。 - 引入 MMD(Maximum Mean Discrepancy)衡量表示分布的差异:\(\widehat{\text{MMD}}^2(\mathbb{P}_{\Phi|V=0}, \mathbb{P}_{\Phi|V=1})\)

[0:15–0:20] 结构风险界的定理 - 幻灯片 Proposition:若 \(\widehat{\text{MMD}} \leq \tau\),则结构风险差距 \(\leq 2\tau\)。 - 直觉:MMD 越小,表示越不包含 \(V\) 信息,因此从 \(P^\circ\) 到任何 \(P_T\) 的风险变化被控制住。

[0:20–0:25] 学习差距与 Rademacher 复杂度 - 因果正则化(MMD 惩罚)减少了可行函数类的复杂度,从而降低学习差距。 - 幻灯片示意图:假设有两个特征 \(w_V\)(影响 \(V\))和 \(w_Y\)(影响 \(Y\))。L2 正则化保留一个圆盘,因果正则化将空间收缩到一条窄带(\(|w_V|\) 约等于 0),且不产生偏差(真解 \(w_V=0\) 在带内)。Rademacher 复杂度分析显示因果正则化后的假设空间复杂度更低。

[0:25–0:30] 加权策略的必要性 - 如果训练数据不来自 \(P^\circ\)(即存在 \(Y\)-\(V\) 相关),盲目最小化 MMD 会引入偏差(损失区分主标签所需的信息)。 - 幻灯片 Proposition:通过重要性权重 \(u_i = P(V=v_i)/P(V=v_i|Y=y_i)\) 重新加权,可使加权后的分布“看起来像” \(P^\circ\)(即 \(\mathbb{E}_u[Y,V]\) 独立)。 - 代价:加权增加方差。

[0:30–0:35] 最终目标函数 - 幻灯片 Eq:\(\min \sum_i u_i \ell(y_i, h(\Phi(x_i))) + \alpha \cdot \widehat{\text{MMD}}^2(\cdot)\)。 - MMD 采用高斯核(RBF)的无偏估计,表示在 RKHS 中的范数差。

[0:35–0:40] 实验一:水鸟数据(半模拟) - 数据集:Caltech-UCSD Birds + Places 背景。任务:预测鸟是水鸟(waterbird)还是陆鸟(landbird);辅助标签为背景(水/陆)。 - 训练集固定(\(P(Y=水鸟|坑=水)=0.95\)),测试集变化相关性。比较基准:L2 正则化、加权 L2(用相同权重但不加 MMD)、随机增强(random augmentation)、无加权的 MMD 惩罚。 - 结果(幻灯片 Fig. 29–32):本方法(加权 + MMD)在所有测试相关值下 AUC 最高;无加权的 MMD 方法表现最差,说明直接施加不变性会丢失信息。

[0:40–0:45] 实验二:训练数据来自理想分布 - 训练时 \(P(Y=水鸟|坑=水)=0.5\)(无相关)。此时标准 ERM 应已渐近最优,但本方法仍优于 L2 正则化和增强,说明因果正则化带来了有限样本效率(更紧的泛化界)。

[0:45–0:50] 实验三:CheXpert 胸片 - 任务:预测肺炎(主标签);辅助标签为患者性别。训练时故意降低女性肺炎患者的采样比例(引入偏差)。结果(幻灯片表格):有分布偏移时本方法 AUC 0.75 优于 L2(0.69) 和加权 L2(0.69);无偏移时本方法 0.85 基本持平最佳。

[0:50–结束] Q&A 要点 - 与公平性工作的关系(Nabi & Shpitser 等):目标不同(公平性追求独立,本文追求泛化);加权方案对泛化必要,对纯公平性可能不需要。 - 能否用 KL 散度代替 MMD:理论上可能,但未探索;不同距离度量可能导致不同有限样本保证。

需注意的 ASR 错误: - 转写中多次出现“cal classification”应为“cow/camel classification”。 - “Breath”可能为“brightness”(数据增强中的亮度)。 - “Alex de Moore”应为“Alex D'Amour”(幻灯片确认)。 - 转写对“d-separates”的表述不清晰,已据幻灯片更正。


四、对应论文与开放问题

对应论文(以幻灯片为准,用户给的候选论文不相关): - Makar, M., Packer, B., Moldovan, D., Blalock, D., Halpern, Y., & D'Amour, A. (2021). “Causally motivated shortcut removal using auxiliary labels.” arXiv:2105.06422. (报告同一标题。合作者姓名与幻灯片完全一致。建议查阅 arXiv 获取详细理论证明和实验设置。)

开放问题(每条扎根于转写中的特定位置)

  1. 多个 shortcut 的联合处理
  2. 转写 [0:01:13]:“we're not trying to be exhaustive” – 本文只处理单个已知辅助标签 \(V\)。实际问题中可能存在多个不相关的 shortcut(如性别、年龄、设备厂商)。如何扩展因果 DAG 并同时去除多个独立的虚假关联?是否需要多任务加权或分层 MMD?

  3. 加权策略的方差控制与高维表示

  4. 转写 [0:16:56]:“weighting leads to higher variance estimators” – 当权重 \(u_i\) 极不均匀时(尤其 \(P(V|Y)\) 极端),经验风险项方差增大,可能抵消效率收益。能否引入权重裁剪(clipping)或自归一化加权,并分析其对泛化界的影响?

  5. 辅助标签部分观测或噪声场景

  6. 全文假设 \(V\) 在训练时完全观测且准确标记。若 \(V\) 部分缺失或测量误差(如在 CheXpert 中性别标签通常可靠,但更一般的场景如“图像采集设备”可能不可得),识别和估计如何调整?是否可借助代理变量(proxy)或半监督方法?

  7. MMD 以外的分布距离度量

  8. Q&A [0:27:37]:听众提问“如果用 KL 散度代替 MMD 会怎样?”讲者回答未尝试,但理论上可能。不同度量可能导致不同界(如 Wasserstein 可能给出更紧的对抗性绝对界,但计算更困难)。这为理论比较打开空间。

  9. 因果 DAG 的完全已知假设

  10. 幻灯片假设 DAG 已知(哪个节点是 shortcut)。在实际应用中,可能需要从数据中推断或依赖领域知识。能否将本方法扩展到 因果结构学习 与预测联合优化的框架?

  11. 与泛化性别的理论联系

  12. 工作主要处理“相关性变化”类偏移,但未覆盖其他类型(如 \(P(X|Y)\) 的协变量偏移)。当偏移不仅仅来自 \(Y\)-\(V\) 相关时,本方法是否仍有效?是否能与 不变风险最小化(IRM)域泛化(domain generalization) 的已有有限样本界统一?

Maintained by 陈星宇 · Homepage · Source on GitHub

评论