Partial Transportability for Domain Generalization¶

讲者: Alexis Bellot
讨论人: Adam Li
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-10-22
主题: 因果推断
视频: https://youtu.be/15odVeek524?si=NW_zvhOmf_A6ybcY · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：因果视角下的域泛化（domain generalization）——从点可运输性（transportability）到部分可运输性（partial transportability）。

域泛化的标准任务是：利用来自若干源域（source domains）的标记数据，训练一个预测模型（分类器/回归器），并将其部署到未见过且无标签的目标域上。传统方法依赖“不变性假设”（如协变量偏移、标签偏移、因果不变特征），但统计不变性本身源于底层因果机制的跨域不变性。可运输性理论（Pearl & Bareinboim, 2011; Bareinboim & Pearl, 2013, 2016）将域间关系编码为选择图（selection diagram）——在图结构上标记哪些变量的赋值机制可能跨域变化（通过方形选择节点），哪些保持不变。该理论提供了算法，用于判断给定因果图时，目标域中的某个统计量（如风险、因果效应）是否可以被源域数据唯一识别（即“可运输的”）。

奠基与主流路线： - 可运输性判定：Bareinboim & Pearl 等人开发了利用 do-calculus 和选择图的识别算法（transportability formula），在满足特定图条件时将目标查询表达为源域分布的泛函（点识别）。 - 可运输性的部分识别：当查询不可运输（non-transportable）时，早期工作局限于特定图类或基于单调性假设的界（如 Manski 的界，或 "no confounding" 假设下的界）。一般性的部分可运输性技术之前并不存在。

这场报告站在哪里：
本工作（Jalaldoust, Bellot, Bareinboim, NeurIPS 2024）是第一项为任意选择图下的任意非识别查询提供通用估计技术的研究。它建立在两个技术支柱上： 1. 正则表示（Canonical SCM）（Balke & Pearl 1994; Zhang & Bareinboim 2021）：对于离散内生变量，任何SCM的观测分布、干预分布、反事实分布均可由一个“正则SCM”等价生成，其中外生变量为有限类别的独立响应变量（每个内生变量对应一个）。 2. 神经因果模型（Neural Causal Model, NCM）（Xia et al. 2021; Zelikman et al. 2022）：将SCM的结构函数参数化为神经网络，外生变量取均匀分布，可统一处理离散/连续变量并与梯度下降兼容。

核心贡献：
(1) 正则模型的扩展：证明正则SCM的等价类可以编码可运输性约束（跨域机制不变性），且优化目标函数（如最坏情况风险）是线性规划（离散情形）。
(2) NCM参数化 & 优化：将源域与目标域的SCM联合参数化为共享参数的NCM，把部分可运输性问题转化为约束优化——最大化目标查询（如风险）以得到其最坏情况上界，同时要求模型与源域数据和选择图一致。该优化可通过梯度下降高效求解。
(3) 因果鲁棒优化（Causal Robust Optimization, CRO）：迭代方法，交替进行“给定分类器→求最坏情况SCM→采样对抗数据→训练新分类器”，最终找到在整个兼容模型族上最小化最坏情况风险的预测器。

定位总结：
本工作将“域泛化的性能保证”从点识别推向部分识别，提供了一个可计算、非参数通用（离散变量）、且与图结构一致的界估计框架。它与常规灵敏度分析（如通过模糊系数或替换性假设）不同的地方在于：图结构本身（包括未观测混杂）全部被吸收进参数化中，不需要额外的超参数扰动。

二、最小内核 / 一个最简例子¶

符号与数据¶

变量集 \( \mathbf{V} = \{X, Y\} \)，二值离散，取值 \( \{0,1\} \)。
两个源域 \( M^1, M^2 \)（各有观测分布 \( P^1, P^2 \)）和一个目标域 \( M^* \)（无观测，只有部分结构假设）。
分类器 \( h(x) = \neg x \)（即 \( h(0)=1, h(1)=0 \)）。风险定义为 \( R_{P^*}(h) = E_{P^*}[ \mathbf{1}\{Y \neq h(X)\}] \)。
考虑一个“弓形模型”（bow model）：\( X \) 与 \( Y \) 共享一个未观测混杂 \( U_{XY} \)，且各自还有独立噪声 \( U_X, U_Y \)。

选择图与域间不变性¶

域 \( M^1 \) 与 \( M^* \)：\( \Delta^1 = \{X\} \)（\( X \) 的机制可能变化，\( Y \) 的机制不变）。
域 \( M^2 \) 与 \( M^* \)：\( \Delta^2 = \{Y\} \)（\( Y \) 的机制可能变化，\( X \) 的机制不变）。
选择图：在源域1的图上，指向 \( X \) 的边加选择节点 \( S_1 \)；源域2的图上，指向 \( Y \) 的边加选择节点 \( S_2 \)。

部分可运输性问题¶

目标：求 \( R_{P^*}(h) \) 的最坏情况上界 \( q_{\text{max}} \)，使得对所有与源域分布 \( P^1, P^2 \) 及选择图一致的SCM \( M^* \)，都有 \( R_{P^*}(h) \le q_{\text{max}} \)。

正则SCM参数化（对应 Example 3 转写 [0:22]–[0:25]）¶

每个SCM \( M \) 可由两个独立响应变量 \( R_X, R_Y \) 表示： - \( \text{supp}(R_X) = \{0,1\} \)，决定 \( X \) 的值（\( X = R_X \) 或基于 \( U_{XY} \) 的机制，此处简化）。 - \( \text{supp}(R_Y) = \{y=0, y=1, y=x, y=\neg x\} \)，决定 \( Y = f(R_Y, X) \) 的四种可能函数。对每个域 \( i \)，联合分布 \( P^i(R_X, R_Y) \) 是一个 8 维单纯形中的点。

约束优化（离散情形下是线性规划）¶

\[\begin{aligned} \max_{N^1, N^2, N^*} &\quad Q_{N^*}(Y \neq \neg X) \\ \text{s.t.} &\quad P^{N^1}(r_Y) = P^{N^*}(r_Y) \quad (\text{因 } Y \notin \Delta^1) \\ &\quad P^{N^2}(r_X) = P^{N^*}(r_X) \quad (\text{因 } X \notin \Delta^2) \\ &\quad P^{N^1}(x,y) = P^1(x,y), \quad P^{N^2}(x,y) = P^2(x,y) \end{aligned}\]

其中 \( Q \) 是目标风险。此优化可在有限维参数空间上精确求解（线性目标 + 线性约束），给出紧的上界。

为什么这个例子揭示了核心思想：
即使目标风险不可点识别，正则SCM将复杂的非参数空间压缩为有限维（离散情况），且跨域不变性翻译为简单的参数共享（边缘分布相等）。这构成了“部分可运输性”的可计算基础，并直接推广到更一般的图和NCM参数化。

三、报告主体：讲者讲了什么¶

（时间戳基于转写 [H:MM]，可能偏离视频真实时间）

[0:00–0:08] 开场与背景¶

受邀在OCIS演讲，合作者 Kasra Jalaldoust 和 Elias Bareinboim（Columbia）。
动机：数据驱动范式的局限性（引用 Ioannidis 2005 关于可重复性危机、Donald Campbell 关于外部有效性、Tom Mitchell 关于无先验假设无法泛化）。强调通用化需要超越数据，深入机制假设。

[0:08–0:11] 运输性问题设定¶

定义目标域风险：\( R_{P^*}(h) = E_{P^*}[L(Y, h(X))] \)。
挑战：缺少目标域标签数据，依赖源域分布 \( P^s \) 及选择图（编码哪些机制跨域变化/不变）。
举例：健康、饮食、健身的选择图 [0:10:50]。

[0:11–0:15] 从运输性到部分运输性¶

演示思路：所有可能的底层SCM构成一个大空间，数据+选择图将其缩小为一个子集；若该子集中所有模型产生相同目标风险 → 可运输（点识别）；否则 → 不可运输，但风险的取值被约束在一个区间内。
提出部分可运输性（Definition 4）：目标是被动地给出最坏情况上界 \( q_{\text{max}} \)（worst-case risk）。

[0:15–0:21] 方法概览：离散情形与正则模型¶

主要结果（Theorem 1, p.5 of slides）：当所有观察变量离散时，兼容模型族上的最大风险等于正则SCM族上的最大风险。
正则SCM的定义（Balke & Pearl 1994; Zhang & Bareinboim 2021）：每个内生变量 \( V \) 对应一个外生响应变量 \( R_V \)，其取值个数等于从父节点到 \( V \) 的可能函数个数；结构函数为 \( f_V(\text{pa}_V, r_V) = h^{(r_V)}_V(\text{pa}_V) \)。该表示不丧失表达能力。
关键：离散变量下的约束优化变为线性规划——目标函数和所有约束（跨域机制不变性）都是线性的。幻灯片中明确给出了 Example 3（弓形模型）的优化形式。

[0:21–0:30] 神经因果模型（NCM）参数化与优化¶

NCM 将每个结构函数参数化为神经网络，外生变量取均匀分布（如 uniform(0,1) ，再通过分位数变换）。
Theorem 2：NCM 同样具有表达能力——任意离散SCM产生的分布可由一个NCM等价生成（证明基于正则模型与通用近似定理）。
优势：从线性规划过渡到可微约束优化，可用梯度下降高效求解，适用于更大规模的图与变量。
幻灯片展示了 colored MNIST 实例的图（label Y → grayscale C, color W → colored image Z; 选择节点仅指向 W）。
优化形式：最大化目标风险 \( E_{P^*}[L(Y, h(Z))] \)，约束为 (1) 源域NCM的生成分布匹配观测数据， (2) 参数共享机制（跨域不变的部分使用同一神经网络参数）。

[0:30–0:38] 迭代算法：Causal Robust Optimization (CRO)¶

问题：给定分类器，可使用 Neural-TR 求其最坏情况风险。但如何找到最小化最坏情况风险的分类器？
CRO（Algorithm 2）：
从初始分类器 \( h_1 \) 开始。
调用 Neural-TR → 得到产生最坏情况的 SCM，采样对抗数据 \( D_1 \)。
在 \( D_1 \) 上训练新分类器 \( h_2 \)（最小化经验风险）。
再次调用 Neural-TR → 得到 \( h_2 \) 的最坏情况 SCM，采样 \( D_2 \)。
在 \( D_1 \cup D_2 \) 上训练 \( h_3 \)（最小化最大经验风险）。
迭代直至收敛。
直观：每一步被发现的最坏情况数据“迫使”分类器放弃依赖不稳定特征（如 color），转而依赖稳定特征（如 digit shape）。
在 colored MNIST 上演示三迭代过程：随机预测器→依赖 color 的高性能但脆弱→最终稳定在 digit（最坏情况风险 0.25，等于噪声水平）。

[0:38–0:46] 结论与讨论¶

总结：贡献了评价 + 优化两个层面，核心是将图结构先验整合进可微参数化，实现部分可运输性的端到端求解。
讲者回应 Adam Li（讨论人）的问题：
关于图的可靠性：若图不确定，可用超图（添加更多边/选择节点）得到宽松但正确的界。
关于正则 vs. NCM：实践中推荐 NCM（可微分搜索）；正则模型更适用于小规模离散情况（精确线性规划）。
关于连续变量：理论结果限于离散变量，但 NCM 框架可经验地用于连续数据（需假设函数逼近足够好）。
关于其他统计量：任何目标分布的功能（如因果效应、条件概率）均可作为优化目标，不限于风险。
关于图未知：当前方法需要已知选择图；若只有等价类，需设计新的参数化方式（困难，因图结构影响 NCM 的架构——改变一条边可能合并 C 组件，改变整个分解）。

四、对应论文与开放问题¶

对应论文¶

标题：Partial Transportability for Domain Generalization
作者：Kasra Jalaldoust, Alexis Bellot, Elias Bareinboim
会议：Advances in Neural Information Processing Systems (NeurIPS) 2024
公开版本：arXiv: 待确认（转写中未给出编号，建议使用标题搜索）
主要幻灯片内容与论文摘要一致，本文精读应直接参考该论文得到确切公式与定理陈述。

开放问题（扎根于转写/讨论）¶

扩展到连续观测变量 ([0:53]–[0:54])
讲者明确：“理论结果依赖离散性，连续变量的非参数部分可运输性理论尚不存在（可能需要分布假设或函数形式假设）。”
问题：能否对连续变量设计一个通用的部分可运输性框架（如基于核函数或深度生成模型）？是否能在保持非参数性的同时给出有限样本保证？
图未知（等价类）时的参数化 ([0:56]–[0:58])
讨论中 Kasra 指出：“改变一条边会改变C组件的划分，进而改变NCM架构。”
问题：如何参数化一个图的等价类（如 Markov 等价类或选择图的等价类），使得部分可运输性优化仍能进行？是否可能设计“图无关”的表示（如基于多图的集成界）？
有限样本下的偏差与优化误差
转写中未详细讨论，但算法依赖有限样本经验分布匹配与神经网络的优化近似。
问题：Neural-TR 和 CRO 的统计保证在有限样本下如何？源域匹配约束的偏差会如何传播到最坏情况界的估计？是否存在 finite-sample coverage 的结果？
与其他部分识别方法的连接
讲者提到可扩展到任意目标泛函（如 ATE）。但未讨论该框架与传统部分识别工具（如贝叶斯灵敏度分析、模糊 IV 界）的关系。
问题：正则/NCM参数化是否等价于某些已知的马尔可夫不等式界？能否派生出 semi-parametric 效率界或影响函数以进行 valid confidence interval 构建？
计算复杂度与可扩展性
所有结果针对离散变量或中等规模图；当变量数或类别数增大时，正则模型参数呈指数增长，NCM优化可能遇到高维非凸性问题。
问题：是否存在因子化的参数化（利用因果图的局部分解）来降低复杂度？是否可与 tensor-network 或高阶 U-统计量的计算复杂度分析（研究者兴趣所在）联系起来？

Maintained by 陈星宇 · Homepage · Source on GitHub