Causality and distribution generalization¶

讲者: Jonas Peters
讨论人: Yuansi Chen
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-06-16
主题: 因果推断
视频: https://www.youtube.com/watch?v=pg51RFCIr48 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2006.07433 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

子方向：利用因果结构进行分布泛化（Distribution Generalization via Causal Structure）.

这个方向的核心追问是：当训练数据与测试数据来自不同分布时，能否找到一种预测模型，其性能在合理的分布变化下仍然有保证？ 这里的“合理”是关键——不同的工作用不同方式定义它。奠基性工作包括经典的分布鲁棒优化（Distributionally Robust Optimization, DRO; Ben-Tal et al. 2013, Bertsimas et al. 2018），它将测试分布建模为训练分布在一个度量（如Wasserstein距离）下的邻域，然后求解最坏情况下的风险最小化问题。另一种主流思路是协变量偏移（covariate shift, Shimodaira 2000），它假设联合分布 P(X,Y) 仅在 P(X) 部分发生变化，而条件分布 P(Y|X) 保持不变。

Jonas Peters 这场报告代表了该子方向中的一条重要支线——利用因果模型的具体结构来刻画分布变化。这条支线的基本想法是：训练和测试分布之间的差异，是由底层的结构因果模型（SCM）中某些变量受到干预（intervention）而产生的。这样一来，测试分布就不是任意一个与训练分布“相近”的分布，而是被限制在那些可以通过干预从训练SCM中生成出来的分布。这条支线的主要参考包括： - Invariant Causal Prediction (ICP; Peters, Bühlmann, Meinshausen, JRSS-B 2016)：通过利用多个实验环境（environments）或干预数据，寻找那些在不同环境下保持不变的预测关系（即因果关系），并以此作为分布外泛化的基础。 - IRM (Invariant Risk Minimization; Arjovsky et al., ICML 2019)：一个更一般化的、试图学习在多个训练环境中预测风险梯度不变的表示（representation）的框架。 - Anchor Regression (Rothenhäusler, Bühlmann, Meinshausen, Peters, JRSS-B 2021, arXiv:1801.06229)：本报告的核心方法之一。它提出了一种在预测损失和（由“锚”变量度量的）不变性之间进行显式权衡的线性回归方法。

这场报告的站位：它不满足于仅指出“因果模型是分布泛化的解”，而是深入探讨了一个更微妙的问题：在真实世界中，我们可能并不需要（或无法实现）对任意干预都稳健的因果模型。报告的贡献在于： 1. 提出了一个介于预测（OLS）和因果（IV）之间的连续统，并通过 Anchor 回归显示了如何通过调整参数 γ 在这两者之间插值，从而在预测性能和针对特定强度干预的鲁棒性之间取得平衡。 2. 将不变性原理扩展到非线性动力学系统（如化学反应网络），通过 CausalKinetiX 方法展示其在实际科学问题中的有效性。 3. 建立了一个正式的“分布泛化”理论框架（对应论文 arXiv:2006.07433），用以回答：在何种条件下，一个从观测数据中识别的预测模型能够保证在未知的干预测试分布上也表现良好？这个框架特别强调了线性/函数形式的外推能力（extrapolation） 对于分布泛化的关键性，并为非线性模型的情况给出了正面（在某些假设下的特例）和负面（一般情况不可能）的理论结果。

二、最小内核 / 一个最简例子¶

为了理解这套思路，考虑一个最简单的线性结构因果模型。

模型和数据： - 可观测变量： - Y：响应变量（目标）。 - X：协变量（预测因子）。 - A：一个“锚”变量（anchor）。你可以把它看作一个工具变量，或者是一个指示数据来自哪个环境的环境变量。假设 A 是外生的，且 E[A]=0, Var(A)=1。 - 结构方程： - X = γ_x * A + ε_x - Y = β * X + ε_y - 潜在不可观测量：ε_x 和 ε_y 是零均值噪声，可能相关（即存在未观测的混淆）。 - 训练数据：我们观测到来自这个模型（称为 M）的 i.i.d. 数据 (A, X, Y)。 - 目标（estimand）：我们想找一个线性预测模型 f(X) = b*X 的参数 b，这个模型在某些干预后的分布下性能良好。

最简特例——一个单变量 Anchor 回归：报告的核心思想可以通过 Trade-off 来理解：我们希望 b 既能预测好训练数据（即 E[(Y - bX)^2] 小），又要对测试分布的变化鲁棒。

报告用 Anchor 回归实现了这个权衡，其损失函数为： L(b) = E[(Y - bX)^2] + γ * (E[A(Y - bX)])^2

第一项：预测性 (Prediction)。这鼓励模型在观测分布 M 上有低均方误差。
第二项：不变性 (Invariance)。E[A(Y - bX)] 是残差与锚变量 A 的协方差。如果模型 f(X)=bX 是正确的因果模型（即 b=β），那么由于 A 是外生且与 ε_y 无关的干预变量，这一项应该为0（在总体水平上）。因此，这项惩罚鼓励模型找到使残差与锚无关的解，这导向因果参数。
参数 γ：控制两者之间的权重。
- γ=0：退化为OLS，只关心训练分布上的预测，得到的 b 通常是有偏的（因为 ε_x 和 ε_y 相关导致混淆）。
- γ→∞：迫使第二项为0，即强制 E[A(Y-bX)]=0，这等价于两阶段最小二乘法（TSLS）。当模型可识别时（有足够多的工具变量），b 会收敛到真实的因果参数 β。
- γ 在 (0, ∞) 之间：这正是本报告的创新点。它提供了一个连续的解路径，在预测性能和鲁棒性之间插值。

如何理解这个特例的“分布泛化”？ 报告中的命题（对应 Anchor regression 论文）指出，Anchor 回归的解 b^{AR}_γ 是以下minimax问题的解： b^{AR}_γ = argmin_b max_{δ∈C_γ} E_{M(δ)}[(Y - bX)^2] 其中 M(δ) 是通过对锚变量 A 进行干预（将 A 固定为 δ）得到的分布，C_γ = {δ : ||δ||_2 ≤ sqrt(γ)}。

解读：b^{AR}_γ 最小化了在所有强度不超过 sqrt(γ) 的干预下，最坏情况下的预测风险。当你允许的干预强度 ||δ|| 越大（即 γ 越大），你对抗的测试分布变化就越大，你的解就越接近因果参数 β，但代价是在观测训练数据上的预测性能会变差。这个最简例子完美体现了“预测”与“不变性”的 trade-off。

三、报告主体：讲者讲了什么¶

本报告围绕“分布泛化”这一主题，通过项目和案例层层递进，展示了从线性到非线性、从理论到实践的思考脉络。

Part 1: 动机与基础 [0:02:00 - 0:13:00] - [0:02:47] 讲者开门见山地提出核心问题：在训练和测试分布可能不同的情况下，如何找到一个性能良好的预测模型 f(X)？标准做法是 Minimax 框架：argmin_{f∈F} sup_{˜M∈N(M)} E_˜M[(Y-f(X))^2]，其中 ˜M∈N(M) 是定义在观测模型 M 周围的“邻域”。 - [0:05:17] 讲者引入因果视角。他指出，如果将“邻域”定义为所有对协变量 X 的干预分布（即 I 为所有可能的干预），那么上述 minimax 问题的解就是因果函数 f_causal = E[Y|do(X)]。这是已知结论，但其成立的干预集合极大。 - [0:06:42 - 0:08:40] 通过酵母基因表达数据（Kemmeren et al., 2014）的生动例子说明为什么因果模型是稳健的： - 非因果模型示例：一个预测 Y 的基因模型（如包含孩子节点），在观测数据上表现良好（左图），但当对预测因子进行干预后（右图），模型严重失效。 - 因果模型示例：以基因为直接原因的因果模型，不仅在观测数据上表现可以，在干预后的数据上仍然稳健。 - [0:09:01 - 0:12:05] 问题变为：如何从数据中找到这个因果函数？讲者引入了 不变性 (Invariance) 的概念。关键想法：如果数据来自多个环境（experimental conditions），一个有效的因果模型应该在这些环境间是“不变”的——即 Y 的分布在给定其直接原因的条件下是不变的。讲者用一个例子展示如何通过检测残差与环境标志变量 A 的相关性来判断一个模型是否“不变”。

Part 2: 线性模型的 Trade-off：Anchor 回归 [0:13:00 - 0:22:40] - [0:13:00 - 0:14:50] 讲者提出一个核心洞见：在预测（OLS）和不变性（IV）之间存在着 trade-off。他由此引入 Anchor 回归。具体地，他定义了形如 L(b) = E[(Y-Xb)^2] + γ||E[A^T(Y-Xb)]||^2_2 的损失函数，其中 A 是锚变量（可以是环境指示变量、工具变量等）。 - [0:14:50 - 0:17:00] 讲者解释了参数 γ 的连续谱系： - γ=0：OLS，仅优化预测。 - γ→∞：强制残差与 A 无关，等价于两阶段最小二乘 (TSLS)，当模型可识别时输出因果参数。 - γ∈(0, ∞)：得到介于两者之间的解。 - [0:15:25 - 0:17:10] 讲者给出了 Anchor 回归的 Minimax 解释（Proposition）。在 (X, Y) 遵循一个包含隐藏变量 H 和外生锚 A 的线性 SCM 的假设下，Anchor 回归的解 b^{AR}_γ 恰好是在强度不超过 √γ 的干预下最坏情况预测风险的最小化者。这是本报告的关键理论贡献。 - [0:17:10 - 0:18:30] 讲者通过一个二维参数 (b1, b2) 的等高线图（Level sets）直观展示了这一过程：OLS 和 TSLS 是空间中不同的点，Anchor 回归的解沿着一条路径在它们之间插值，这条路径对应于对 γ 的不同选择。 - [0:19:00 - 0:22:40] (黄色幻灯片, 可看作分支) 讲者指出 Anchor 回归还有另一个动机：改进有限样本性质。他指出 TSLS 在弱工具变量或无识别情况下表现很差（甚至没有有限矩）。Anchor 回归通过引入 γ 作为一种正则化，可以改善这一点。他进一步提出了一个启发式地选择 γ 的方法——PULSE (P-uncorrelated least squares estimator)。其想法是：找到一个 γ，使得对残差 (Yb_n^{γ}) 与锚 A 的相关性检验的 p 值恰好等于 0.05（即，使模型在统计意义上与 invariance 一致，同时最小化 OLS 损失）。对应论文为 (Jakobsen & JP, arXiv:2005.03353)。

Part 3: 实际应用：化学反应网络——CausalKinetiX [0:23:22 - 0:33:57] - [0:23:22] 讲者提出关键挑战：上述线性理论在实际中是否有用？他转向了一个非线性动力学系统的识别问题——美拉德反应 (Maillard reaction)，即奶酪烘烤时产生风味的复杂化学反应网络。 - [0:24:30 - 0:26:30] 问题设定：给定多个实验条件下（不同化学物质的初始浓度）观测到的物种浓度时间序列，目标是学习反应网络的结构（即谁影响谁）和动力学方程（微分方程中的参数）。经典的“非线性最小二乘法”在面对高维数据（411个协变量）时，容易出现过拟合和在未知实验条件下预测失败的问题。 - [0:26:30 - 0:28:50] 讲者展示了他们提出的方法——CausalKinetiX (Pfister, Bauer & JP, PNAS 2019)。该方法的核心思路同样是在预测和不变性之间权衡： - 预测：通过平滑样条估计每个时间点的导数，然后在一个实验条件下用 OLS 拟合候选的动力学模型。 - 不变性：将其他实验条件下的数据作为“环境”，将这些环境下的非线性模型拟合结果作为约束，引入另一个平滑样条中。如果一个模型是真正的因果模型（即，在所有实验条件下动力学方程相同），那么引入这些约束不会显著降低拟合优度。 - [0:29:00 - 0:31:57] 讲者展示了在真实代谢组学数据上的结果。CausalKinetiX 筛选出的顶级模型不仅在样本内拟合良好，在留一实验的跨实验验证（out-of-sample）中，其预测的动力学行为优于其他标准方法（如非线性最小二乘法的变种）。这有力地表明，即使模型是非线性的，围绕不变性的思想也能带来实际收益。

Part 4: 理论框架：当且仅当可以“分布泛化”？ [0:34:00 - 0:46:40] - [0:34:00 - 0:35:20] 讲者从 CausalKinetiX 的经验成功回到理论层面，提出更一般的问题：如何处理非线性模型？他指出现有理论（如 Anchor 回归）强烈依赖于线性外推 (linear extrapolation)，这在非线性模型中基本不可能。 - [0:35:40 - 0:37:25] 他提出了一个正式的“分布泛化”理论框架（对应论文 arXiv:2006.07433）。该框架定义：一个模型 M 能“泛化”到一组干预 I，当且仅当存在一个函数 f*，它对于所有与 M 有相同观测分布 P_M(X,Y) 的模型 M 来说，都是一个近似最小化最坏情况风险的解（ǫ-minimax）。 - [0:37:25 - 0:44:00] 讲者针对一个一般的非线性 SCM，详细讨论了两种关键类型的干预： - 混淆保留干预 (Confounding-preserving)：对 X 的干预没有切断它与隐藏变量 H 的连接。 - 混淆移除干预 (Confounding-removing)：干预切断了 X 和 H 的连接（就像随机实验）。

他总结了在哪种情况下分布泛化是可能的：

干预类型	支撑集 (support) 变化	所需条件	结果
混淆保留 + 至少一个混淆移除 (Well-behaved)	支撑缩减 (Support-reducing)	`A1`: 函数 `f` 在观测支撑上可识别 (如：有足够强的IV)	分布泛化有可能
混淆保留 + 至少一个混淆移除 (Well-behaved)	支撑扩展 (Support-extending) (需要外推)	`A2`: 函数 `f` 具有可外推性质 (如线性函数)	分布泛化有可能 (否则不可能)
干预在 `A` 上	支撑扩展 / 缩减	`A3`: 同样是关于函数 `g` 的可识别性和外推性	类似结果

[0:44:00 - 0:46:40] 讲者点明了这个框架的核心信息：
- 坏消息：对于一般的非线性模型，如果不具有良好的外推性质（如线性），分布泛化在理论上是不可能的。这为像 Anchor 回归这样的非线性泛化尝试敲响了警钟。
- 好消息 (或出路)：存在一类“外推函数类”，例如线性外推的非线性IV模型。讲者提出了一个概念验证方法——NILE (Nonlinear Intervention-robust Linear Extrapolator)，在非线性 IV 设定下通过假设函数在已知支撑外线性变化，实现了分布泛化。他展示了示意图，指出 NILE 在 extrapolation 区域的预测优于标准的非线性 IV 方法。
[0:46:40] 讲者以对这一理论框架的开放态度作结，认为它指出了某些问题的理论极限，同时为在特定假设下设计方法提供了可能性。

四、对应论文与开放问题¶

(a) 对应论文（需与讲者核实）

Anchor 回归: Rothenhäusler, D., Bühlmann, P., Meinshausen, N., & Peters, J. (2021). Anchor regression: heterogeneous data meet causality. Journal of the Royal Statistical Society: Series B, 83(2), 251-279. arXiv:1801.06229.
PULSE: Jakobsen, M. E., & Peters, J. (2020). Distributional Robustness of K-class Estimators and the PULSE. arXiv:2005.03353.
CausalKinetiX: Pfister, N., Bauer, S., & Peters, J. (2019). Learning stable structures in kinetic systems: benefits of a causal approach. Proceedings of the National Academy of Sciences, 116(43), 21523-21531.
分布泛化框架: Christiansen, R., Pfister, N., Jakobsen, M. E., Gnecco, N., & Peters, J. (2021). A causal framework for distribution generalization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(10), 6601-6614. arXiv:2006.07433. (注意，报告时该论文可能还在会议上，arXiv 是 2020-06-22, 接近报告时间)
ICP: Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: identification and confidence intervals. Journal of the Royal Statistical Society: Series B, 78(5), 947-1012.
NILE: 似乎是 arXiv:2006.07433 的一部分，或者是一个单独的概念验证，报告中未给出具体引用（字幕可能有误，待查）。

(b) 开放问题（基于转写）

[强假设与鲁棒性] Anchor 回归的鲁棒性假定：0:40:00 - 0:41:25 讨论者（Yuansi Chen）提出的问题：Anchor 回归对测试数据模型误设是否鲁棒？如果实际的测试干预不符合假设的线性结构模型（例如，干预不在“锚”上，而是直接在 X 上且方式不同），其性能可能比简单使用因果模型更差。讲者回应“I fully agree”。
[Gamma 的选择问题] 0:28:00 - 0:29:30 Gamma (γ) 的选取在实践中是一个难题。讲者提出的 PULSE 是一种启发式方法（选择使p值为0.05的gamma），但讲者不确定这是否是普适的最佳策略。讨论者也提出，如果测试环境已知接近某个训练环境，可能用该环境数据训练更好，而不是求助于 minimax。这指向了如何根据对测试分布的有限信息选择最优的稳健性水平这一问题。
[非线性理论的局限性] 0:42:00 - 0:43:50 讲者在理论部分明确指出，对于无外推性质的通用非线性模型，分布泛化理论上是不可能的。这提出了一个根本挑战：是否存在其他有意义的假设（例如，函数类具有某种低维结构，或干预遵循特定模式）使得非线性分布泛化是可实现的？ NILE 给出了一个特例，但这是否是唯一的方式？
[有限样本保证的不明确性] 0:46:40 讲者在总结 CausalKinetiX 的实践时，明确提到“final sample guarantees I regard as an open question”。尽管 CausalKinetiX 在实证上表现好，但其在非线性动力学系统上的有限样本理论性质（如估计的相合性、收敛速率）尚不明确。

Maintained by 陈星宇 · Homepage · Source on GitHub