Talk #1: Causally motivated shortcut removal using auxiliary labels (Maggie Makar)¶

讲者: Maggie Makar
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-08-10
主题: 因果推断
视频: https://youtu.be/R555VwMXSZ4 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2108.03849 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

子方向：机器学习中的虚假关联（shortcut） 问题，即模型在训练数据中利用非因果的统计关联（例如图像背景与前景对象的相关性）作出预测，当测试分布下这种关联发生变化时性能急剧下降。这是深度学习可泛化性（Out-of-Distribution Generalization）的核心挑战之一。奠基工作包括 Beery et al.（ECCV 2018）的“Recognition in Terra Incognita”（被讲者引用），近期代表性路线有：不变风险最小化（IRM）（Arjovsky et al., 2019）、分布鲁棒优化（DRO）（Sagawa et al., 2020）、以及因果表示学习。本报告属于因果视角的一支：利用因果图（DAG）显式建模主标签、辅助标签（潜在的混淆变量）、图像表示之间的结构，并据此设计训练目标以消除对辅助标签的依赖。

核心思想：将鲁棒性要求转化为寻找一个“理想分布” \(P^\circ\)，其中辅助标签 \(V\) 与主标签 \(Y\) 独立（类比随机对照试验）。从观测到的非理想分布出发，通过重要性加权映射到 \(P^\circ\)，再施加表示层的最大均值差异（MMD）惩罚，鼓励表示不包含 \(V\) 的信息。这比纯统计不变性（如 IRM）更直接地利用了因果结构。

该工作在本子方向中的位置：它结合了因果加权（来自因果推断中处理混淆的经典工具）与表示层面的独立性正则化（类似域自适应中的 MMD）。报告的独到之处在于： - 不需要假设测试分布的具体形式，只需考虑“改变 \(V\) 与 \(Y\) 的相关性”这类偏移（由因果 DAG 定义）。 - 给出了 有限样本泛化误差界，分解为结构风险项（由 MMD 控制）和学习风险项（由 Rademacher 复杂度控制），并证明因果正则化同时降低两项，带来 效率提升（而非仅鲁棒性）。 - 强调 盲目施加 MMD 惩罚而不修正采样偏差 会导致有偏估计，必须有加权步骤。

关键引用：Makar, M., Packer, B., Moldovan, D., Blalock, D., Halpern, Y., & D'Amour, A. (2021). “Causally motivated shortcut removal using auxiliary labels.” arXiv:2105.06422. （注意：用户给出的候选论文 arXiv:2108.03849 (Imbens et al.) 是关于面板数据工具变量法的，与本次报告无关；应以此 arXiv:2105.06422 为准。合作者名单确认自幻灯片。）

二、最小内核 / 一个最简例子¶

模型符号与可观测数据： - \(Y \in \{0,1\}\)：主标签（如：牛=1, 骆驼=0）。 - \(V \in \{0,1\}\)：辅助标签（如：草地=1, 沙地=0）。 - \(X\)：高维图像像素。 - 训练样本 \((X_i, Y_i, V_i) \overset{\text{i.i.d.}}{\sim} P_S\)（源分布）。 - 因果 DAG（幻灯片 Fig. 12）：

\[Y \rightarrow X^* \rightarrow X, \quad V \rightarrow X, \quad Y \text{ 与 } V \text{ 相关（双向虚线）}.\]

其中 \(X^*\) 是由主标签决定的“对象特征”（如牛的花纹），\(V\) 直接影响背景外观；\(Y\) 与 \(V\) 之间无因果边，但存在相关性（在训练数据中，牛多出现在草地，骆驼多出现在沙地）。 - 目标：学习预测器 \(f(X) = h(\Phi(X))\)（表示 \(\Phi\) 后接分类器 \(h\)），使其在 所有与 \(P_S\) 只有 \(P(Y,V)\) 不同的目标分布 \(P_T\) 上表现良好（即对 \(Y\)-\(V\) 相关性变化鲁棒）。

最简特例（\(d=1\) 表示、线性模型、二值变量）： - 设表示 \(\Phi(X) \in \mathbb{R}\)，最终分类器为 sigmoid：\(\hat{Y} = \sigma(w_Y \Phi(X) + w_V V)\)。但这里我们希望表示本身不包含 \(V\) 的信息，因此更自然的做法是 \(\hat{Y} = \sigma(w \cdot \Phi(X))\)，且 \(\Phi(X)\) 与 \(V\) 独立。 - 理想分布 \(P^\circ\) 下的性质：\(Y \perp V\)。在 \(P^\circ\) 中，给定 \(Y=1\) 时 \(V=1\) 的概率与给定 \(Y=0\) 时相同。如果训练数据恰来自 \(P^\circ\)，则最小化标准 logistic loss 可得到渐近无偏的预测器。 - 但训练数据来自非理想 \(P_S\)（例如 \(P_S(V=1|Y=1)=0.9, P_S(V=1|Y=0)=0.1\)）。为恢复独立性，计算权重

\[u_i = \frac{P(V=v_i)}{P(V=v_i|Y=y_i)},\]

使得加权后的经验分布中 \(V\) 与 \(Y\) 近似独立。 - 学习目标：

\[\min_{\Phi, h} \sum_{i=1}^n u_i \cdot \ell(y_i, h(\Phi(x_i))) + \alpha \cdot \widehat{\text{MMD}}^2\big( \{\Phi(x_i): V_i=0\}, \{\Phi(x_i): V_i=1\} \big),\]

其中 \(\ell\) 为 logistic loss，\(\widehat{\text{MMD}}\) 用高斯核计算。第二项惩罚表示分布在不同 \(V\) 取值下的差异，鼓励 \(\Phi(X) \perp V\)。 - 核心直觉：加权修正了采样偏差，MMD 惩罚直接削减表示中包含的 \(V\) 信息，从而保证在测试分布 \(P_T\)（可能 \(P_T(Y,V)\) 不同于 \(P_S\)）上，预测器不会因为 \(V\) 的变化而失效。

三、报告主体：讲者讲了什么¶

以下按时间顺序（[H:MM] 大致时间戳）整理讲者的叙述，结合幻灯片校正 ASR 转写错误。

[0:01–0:04] 问题背景 - 介绍深度学习模型依赖“shortcuts”（捷径/虚假关联）的现象：训练准确率高，但若测试时相关性打破则性能骤降。例子：牛/骆驼分类，模型实际使用背景（草地/沙地）做预测。 - 目标：构建对单一 shortcut 鲁棒的模型（不试图穷举所有 shortcut）。

[0:04–0:07] 因果 DAG 定义 - 幻灯片 Fig. 12：主标签 \(Y\) → 对象特征 \(X^*\) → 图像 \(X\)；辅助标签 \(V\)（背景）也影响 \(X\)；\(Y\) 与 \(V\) 之间有双向虚线表示“相关但不因果”。 - 希望在所有仅改变 \(Y\)-\(V\) 相关性的目标分布族上表现一致。这由因果 DAG 自然定义。

[0:07–0:11] 渐近鲁棒性：理想分布 \(P^\circ\) - 定义“理想分布” \(P^\circ\)：\(V \perp Y\)（相当于随机化）。如果训练数据来自 \(P^\circ\)，则渐近最优预测器自动对任意 \(P_T\) 鲁棒（因为 \(X^*\) d-分离了 \(Y\) 与 \(X\) 中的 \(V\) 信息）。 - 类比随机对照试验（RCT）。

[0:11–0:15] 有限样本分析：泛化误差分解 - 泛化误差：\(R(P_T) - \hat{R}_{P^\circ}\)（目标分布风险减去训练误差）。 - 通过添加/减去 \(R(P^\circ)\) 分解为： - 结构风险差距（Structural risk gap）：\(R(P_T) - R(P^\circ)\)，由分布偏移引起。 - 学习差距（Learning gap）：\(R(P^\circ) - \hat{R}_{P^\circ}\)，由有限样本导致。 - 引入 MMD（Maximum Mean Discrepancy）衡量表示分布的差异：\(\widehat{\text{MMD}}^2(\mathbb{P}_{\Phi|V=0}, \mathbb{P}_{\Phi|V=1})\)。

[0:15–0:20] 结构风险界的定理 - 幻灯片 Proposition：若 \(\widehat{\text{MMD}} \leq \tau\)，则结构风险差距 \(\leq 2\tau\)。 - 直觉：MMD 越小，表示越不包含 \(V\) 信息，因此从 \(P^\circ\) 到任何 \(P_T\) 的风险变化被控制住。

[0:20–0:25] 学习差距与 Rademacher 复杂度 - 因果正则化（MMD 惩罚）减少了可行函数类的复杂度，从而降低学习差距。 - 幻灯片示意图：假设有两个特征 \(w_V\)（影响 \(V\)）和 \(w_Y\)（影响 \(Y\)）。L2 正则化保留一个圆盘，因果正则化将空间收缩到一条窄带（\(|w_V|\) 约等于 0），且不产生偏差（真解 \(w_V=0\) 在带内）。Rademacher 复杂度分析显示因果正则化后的假设空间复杂度更低。

[0:25–0:30] 加权策略的必要性 - 如果训练数据不来自 \(P^\circ\)（即存在 \(Y\)-\(V\) 相关），盲目最小化 MMD 会引入偏差（损失区分主标签所需的信息）。 - 幻灯片 Proposition：通过重要性权重 \(u_i = P(V=v_i)/P(V=v_i|Y=y_i)\) 重新加权，可使加权后的分布“看起来像” \(P^\circ\)（即 \(\mathbb{E}_u[Y,V]\) 独立）。 - 代价：加权增加方差。

[0:30–0:35] 最终目标函数 - 幻灯片 Eq：\(\min \sum_i u_i \ell(y_i, h(\Phi(x_i))) + \alpha \cdot \widehat{\text{MMD}}^2(\cdot)\)。 - MMD 采用高斯核（RBF）的无偏估计，表示在 RKHS 中的范数差。

[0:35–0:40] 实验一：水鸟数据（半模拟） - 数据集：Caltech-UCSD Birds + Places 背景。任务：预测鸟是水鸟（waterbird）还是陆鸟（landbird）；辅助标签为背景（水/陆）。 - 训练集固定（\(P(Y=水鸟|坑=水)=0.95\)），测试集变化相关性。比较基准：L2 正则化、加权 L2（用相同权重但不加 MMD）、随机增强（random augmentation）、无加权的 MMD 惩罚。 - 结果（幻灯片 Fig. 29–32）：本方法（加权 + MMD）在所有测试相关值下 AUC 最高；无加权的 MMD 方法表现最差，说明直接施加不变性会丢失信息。

[0:40–0:45] 实验二：训练数据来自理想分布 - 训练时 \(P(Y=水鸟|坑=水)=0.5\)（无相关）。此时标准 ERM 应已渐近最优，但本方法仍优于 L2 正则化和增强，说明因果正则化带来了有限样本效率（更紧的泛化界）。

[0:45–0:50] 实验三：CheXpert 胸片 - 任务：预测肺炎（主标签）；辅助标签为患者性别。训练时故意降低女性肺炎患者的采样比例（引入偏差）。结果（幻灯片表格）：有分布偏移时本方法 AUC 0.75 优于 L2(0.69) 和加权 L2(0.69)；无偏移时本方法 0.85 基本持平最佳。

[0:50–结束] Q&A 要点 - 与公平性工作的关系（Nabi & Shpitser 等）：目标不同（公平性追求独立，本文追求泛化）；加权方案对泛化必要，对纯公平性可能不需要。 - 能否用 KL 散度代替 MMD：理论上可能，但未探索；不同距离度量可能导致不同有限样本保证。

需注意的 ASR 错误： - 转写中多次出现“cal classification”应为“cow/camel classification”。 - “Breath”可能为“brightness”（数据增强中的亮度）。 - “Alex de Moore”应为“Alex D'Amour”（幻灯片确认）。 - 转写对“d-separates”的表述不清晰，已据幻灯片更正。

四、对应论文与开放问题¶

对应论文（以幻灯片为准，用户给的候选论文不相关）： - Makar, M., Packer, B., Moldovan, D., Blalock, D., Halpern, Y., & D'Amour, A. (2021). “Causally motivated shortcut removal using auxiliary labels.” arXiv:2105.06422. （报告同一标题。合作者姓名与幻灯片完全一致。建议查阅 arXiv 获取详细理论证明和实验设置。）

开放问题（每条扎根于转写中的特定位置）：

多个 shortcut 的联合处理
转写 [0:01:13]：“we're not trying to be exhaustive” – 本文只处理单个已知辅助标签 \(V\)。实际问题中可能存在多个不相关的 shortcut（如性别、年龄、设备厂商）。如何扩展因果 DAG 并同时去除多个独立的虚假关联？是否需要多任务加权或分层 MMD？
加权策略的方差控制与高维表示
转写 [0:16:56]：“weighting leads to higher variance estimators” – 当权重 \(u_i\) 极不均匀时（尤其 \(P(V|Y)\) 极端），经验风险项方差增大，可能抵消效率收益。能否引入权重裁剪（clipping）或自归一化加权，并分析其对泛化界的影响？
辅助标签部分观测或噪声场景
全文假设 \(V\) 在训练时完全观测且准确标记。若 \(V\) 部分缺失或测量误差（如在 CheXpert 中性别标签通常可靠，但更一般的场景如“图像采集设备”可能不可得），识别和估计如何调整？是否可借助代理变量（proxy）或半监督方法？
MMD 以外的分布距离度量
Q&A [0:27:37]：听众提问“如果用 KL 散度代替 MMD 会怎样？”讲者回答未尝试，但理论上可能。不同度量可能导致不同界（如 Wasserstein 可能给出更紧的对抗性绝对界，但计算更困难）。这为理论比较打开空间。
因果 DAG 的完全已知假设
幻灯片假设 DAG 已知（哪个节点是 shortcut）。在实际应用中，可能需要从数据中推断或依赖领域知识。能否将本方法扩展到 因果结构学习 与预测联合优化的框架？
与泛化性别的理论联系
工作主要处理“相关性变化”类偏移，但未覆盖其他类型（如 \(P(X|Y)\) 的协变量偏移）。当偏移不仅仅来自 \(Y\)-\(V\) 相关时，本方法是否仍有效？是否能与 不变风险最小化（IRM） 或 域泛化（domain generalization） 的已有有限样本界统一？

Maintained by 陈星宇 · Homepage · Source on GitHub