Causal invariance in graphical models with latent variables¶

作者: Marco Borriero, Monia Lupparelli, Giovanni M. Marchetti, Veronica Vinciotti
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.13281

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究在因果发现（causal discovery）语境下，如何利用因果不变性（causal invariance）原理，从跨环境（heterogeneous environment）数据中识别目标变量（target variable）的因果父变量集（causal parent set）。核心统计问题是：在因果充分性失效（即存在未观测的潜变量，部分父变量不可见）时，不变性条件是否仍然成立？如果成立，如何刻画观测变量上诱导出的图结构与识别条件？当前该方向的理论成熟度处于半参—参数接口：高斯线性模型下的充要条件已建立，但非参数/半参推广、有限样本检验性质、以及全变量（而非单一目标）的识别仍为开放问题。

发展脉络（history）¶

奠基工作：不变性作为识别的核心工具
Peters et al. (2016) 提出了Invariant Causal Prediction (ICP)：利用从不同环境（e ∈ E）采集的数据，测试所有候选子集 X_S 上 Y|X_S 的条件分布是否跨环境相等（即“不变性”）。若所有父变量都被观测到（causal sufficiency假设成立），则所有满足不变性的子集之交以可控概率包含真实父变量集 X_{P A}（甚至唯一）。留下的口子：ICP假设所有父变量可观测，不处理潜变量。
主要进展：推广不变性到更宽设定与更灵活统计模型
- 常见响应类型：Kook et al. (2025) 将ICP扩展到广义响应（连续/分类/计数/有删失），不限于高斯线性。Polinelli et al. (2026) 利用Pearson风险不变性及因果参数最大化似然，将不变性推向广义线性模型与GAM。
- 分布漂移下的稳健预测：Rothenhäusler et al. (2021) 的 Anchor regression 将不变性松弛为分布稳健性（distributional robustness），允许工具变量假设被违背；Henzi et al. (2025) 将不变性扩展到概率预测（probabilistic prediction），发现在一般分布漂移下不变性不成立，需限制漂移类型。Gnecco et al. (2026) 提出Boosted Control Functions，结合IV与环境异质性处理混杂。
- 隐变量处理的更复杂建模：Rothenhäusler et al. (2019) 的 Causal Dantzig 假设线性SEM+加性扰动，允许相关误差建模潜变量；Long et al. (2023) 利用工具变量+环境数据构建高效混合估计。
  留下的口子：不论上述哪种方法，都没有形式化刻画：当隐父变量是特定构型（过渡节点/源节点）时，诱导混合图上的不变性条件究竟如何（是否保留/如何检验）。
当前 frontier + 本文的位置
当前前沿是将潜变量的图结构（混合图/祖先图）与不变性条件做精确对接。本文的位置：在Peters et al. (2016)的ICP框架下，系统研究了当隐父变量分别为过渡节点（hidden mediator）和源节点（hidden confounder）时，诱导混合图的结构是什么，不变性在什么条件下被保留（Propositions 1–4），并在多变量高斯目标下给出检验该不变性的充要条件（Theorem 1 & 2）。本文直接回答了Gnecco et al. (2026)最近指出的“隐结构对不变性检验的冲击需要进一步研究”这一缺口。本文是ICP方向在有隐变量情况下的必要与充分条件刻画。

子线索聚类¶

线索一：基于环境异质性的预测稳定性（核心不变性测试）
Peters et al. (2016), Kook et al. (2025), Polinelli et al. (2026)。目标：选对Y的父变量。对潜变量的处理较弱（或假设无潜变量）。
线索二：分布漂移下的鲁棒预测
Rothenhäusler et al. (2021; Anchor), Henzi et al. (2025; 不变概率预测), Gnecco et al. (2026; 增强控制函数)。目标：即使有环境变化，也保证泛化风险有界。常利用IV或弱化V1.的强不变性。
线索三：隐变量下的因果效应估计（混合图/工具变量）
Richardson (2003), Sadeghi & Lauritzen (2014)，Zhang (2008)：混合图/祖先图的Markov性质与m-分离。Henckel et al. (2024)：利用混合图的图形工具选择工具变量集。Long et al. (2023)：IV+环境数据的因果效应估计。这些工作直接解决隐变量，但基本不涉及不变性检验。
本文的定位：将线索一（不变性测试） 与 线索三（混合图/隐变量） 对接的新交叉点。

这个方向在追问的核心问题（当前）¶

识别条件的形式化：在什么样的隐父变量构型下，观测变量上的不变性条件仍然等价于识别原DAG中的（部分）父变量集？
检验可行性：给定一个检验不变性的程序，它的有限样本行为（power、level）如何？检验的null是否为真实父变量集？
扩展尺度：能将单个target Y推广到所有观测变量吗？后者将涉及全图d-separation的不变性。

⚠️ 作者的 framing¶

作者把缺口frame成：潜变量使诱导图不再是DAG，甚至不唯一，因此“不清楚不变性还能不能用于识别”。本文“填补了这一缺口”——在过渡节点和源节点两种经典构型下，必然和充分地刻画了诱导混合图上不变性条件的保留与否。
淡化的竞争路线：（1）深层非参数识别：作者在第5节用高斯+线性检验，但整篇文章未提及对非线性f(·)的不变性能否推广（可能作者认为是trivial？但他们没做）。（2）因果图结构学习算法（如FCI、GES）所依赖的条件独立检验路径。（3）直接对隐变量结构施加参数假设的方法（如Causal Dantzig的加性扰动），作者仅在引用中提到它们，而未深入比较。
什么明显该被引/该存在、却没出现在intro里？
这篇论文完全聚焦于父变量识别，却没有讨论指标选择问题（model selection inconsistency under high-dimensional X），也未涉及与多变量Y因果效应方向性（causal orientation）的交叉（如如何区分X→Y和Y→X？这在混合图中可能更难）。另一个微妙缺口是：作者引用了Zhang (2008)的ancestral graph，但未系统解释为何选择混合图而非祖先图作为框架——尽管第4节Proposition 3用反例说明祖先图不满足弱不变性。这个比较值得研究者去查：祖先图在哪些设置下比混合图更好（或更差）？这是本文的一个潜在缺口。

张力¶

无明显“对立引用”。论文内部有张力：Proposition 2（仅源节点）与 Proposition 4（过渡+源+线性假设）之间的限制条件强弱不同，后者的附加条件是线性转移（Γ^T_{P A}H 是线性的）。作者未讨论如果f(X_{P A})非线性而过渡节点有非线性则如何。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（全篇核心记号）： - 环境索引：e ∈ E = {1, 2, …, k}。各环境数据 (Y^e, X^e) 从不同分布下采样。 - 目标变量：Y ∈ ℝ^m（可多元），本文例子中多为m=2。 - 预测变量：X = {X₁, …, X_p} ∈ ℝ^p，全可观测。 - 隐变量：H ∈ ℝ^q，不可观测。 - 真父变量集（不可观测DAG中）：X_{P A}：Y在生成DAG中的可观测父变量；H_{P A}：Y在生成DAG中的隐父变量。 - 增强父变量集（在诱导混合图中被识别为父的观察变量）：X_{gP A} = X_{P A} ∪ X_{P A(H)}。其中X_{P A(H)} 是隐父变量的父变量（观测到的）。 - 待检验的候选父变量集：S ⊂ {1, …, p}，其指示矩阵B ∈ ℝ^p×m，满足 B_ij = 0 当且仅当 X_i ∉ S_j（S_j 是对应Y_j的假设父集）。 - 协方差：Σ (m×m) 为残差协方差；Ω (m×m) 为误差项δ_Y的协方差。 - 相关系数矩阵：Λ_{P A} (p×m)、Γ_{P A} (q×m)、Φ_{P A} (q×p) 等，用于线性表示。

模型（数据生成机制）：论文假设数据来自一个有隐变量的因果DAG，每个节点（变量）的结构方程是： X_i = f_i(X_{P A_i}, δ_i) 其中f_i是确定性函数，误差δ_i相互独立。目标变量Y在DAG中有自己的方程：Y = f(X_{P A}, H_{P A}, δ_Y)。

可观测数据（研究者实际能得到的）： - 对每个环境e，我们能观测到 (Y^e, X^e)。 - 我们不能观测到H（所有潜变量）——所以无法拟合Y对完整父集的回归。 - 我们能观测到的只有X，但Y的“真实”可观测父变量X_{P A}（以及隐父链上的间接父变量X_{P A(H)}）都需要从数据中推断。

想要但观测不到的：Y的真实结构方程、H的分布、以及Y与H的依赖结构（特别是源节点导致的δ_H与X_{P A}的相关）。这些都是由无法验证的假设（如假设H是外生源节点或线性转移）覆盖的。

第二步：最小内核¶

最简特例（首选）：设定：p = 1（仅1个观测变量X，1个潜在变量H），m = 1（单变量目标Y）。H只作为过渡节点（隐藏中介）：X → H → Y。因此，X_{P A} = {X}，H_{P A} = {H}，且暂时X_{P A(H)} = ∅。

模型： - 在生成DAG中：Y = β·H + δ_Y，H = γ·X + δ_H，δ_Y ⊥ {X, H}，δ_H ⊥ X。 - 因此 Y = βγ·X + (β·δ_H + δ_Y)。注意：这是与X可分离的线性形式，且误差项β·δ_H + δ_Y 与 X 独立（因 δ_Y ⊥ X, δ_H ⊥ X）。因此Y|X的条件分布不变。

核心数学问题（最小内核）：本文要回答：当把Y = βγ·X + ε_Y (ε_Y 独立于X)这个“简化”方程给用户看时，用户怎么验它？需要验证跨越E的Y|X分布是否相等（即不变性）。

在此最简特例下的退化解： - 假设2个环境(e=1,2)。对每一个S（因为p=1，所以S要么是空集{∅}，要么是{X}）： - 如果S = {X}：检验Y¹|X¹ 与 Y²|X² 是否相等。 - 如果这通过不变性测试（残差异协方差矩阵Σ₁ = Σ₂），则根据Theorem 1，S = {X}几乎必然等于增强父变量集X_{gP A}（在此例中，X_{gP A} = X，因为过渡节点不产生新父变量）。 - 但这里的关键点是：虽然真实DAG中Y的直接原因是H（不可观测），但不变性检验识别出X作为父变量——这是正确的，因为X是“增强父变量集”（augmented parent）中的成员，而增强父变量集在这个构型下等于观测变量X_{P A}，实际上就是因果识别的正确结果。

为什么这证明有意义？
这说明当隐变量为过渡节点时，不变性测试不会被“误导”——测试者即使完全不知道H存在，只基于X和Y做不变性检验，也能找到正确（但间接）的因果结构。本例子虽然极简单，却是整个Propositions 1 & 4 和 Theorem 1 的核心逻辑验证基础。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：在因果DAG存在未观测父变量（过渡节点/源节点）导致观测变量上的混合图不再唯一的设定下，不变性条件能否以及如何用于识别观测父变量？
核心工具/方法：利用图形边际化（graphical marginalization）将生成DAG投影到acyclic directed mixed graph（混合图）上；并在此混合图下定义弱不变性（weak invariance）。然后对多变量高斯目标建立测试不变性的必要与充分条件，通过验证候选子集S对应的残差协方差矩阵Σ是否跨环境相等（Box's M test）来识别父变量。
主要结论：当隐父变量为过渡节点时，完整不变性保留，增强父变量集可通过Theorem 1的条件恒等识别（等价于协方差拟合）——即无混淆导致Y|X_{gP A} 跨环境分布相同。当隐父变量为源节点（confounder）时，增强父变量集仍可识别，但需弱不变性（仅条件(i)–(ii)而非(iii)），且需工具变量做识别（Theorem 2）；该定理通过对比间接引入的δ_H项与矩条件，给出充要条件。

关键设定与假设¶

假设1（一般DAG结构）：生成DAG D = (V, E)，无反馈、无用于target以外的潜在干预。这是纯因果图的标准假设。
假设2（因果充分性失效）：存在潜变量H，它是部分目标Y_j的父变量。不假设H的分布已知，也不要求H与X_{P A}独立（源节点时正好相反）。
假设3（对target无干预）：所有环境变化不直接干预Y，也不干预H。环境变化源于对X的干预（例如乘性扰动）或分布漂移。这是ICP标准假设。
假设4（多元高斯+线性性，用于检验）：Y | (X_{gP A} 或 X_{P A}) 为多元高斯，且条件期望线性。对混杂情形（Theorem 2），还假设过渡节点对Y的影响是线性的（可分解为Γ^T_{P A}·H）。
相对于已有文献：Peters et al. (2016) 不处理隐变量，本文放宽了因果充分性；Rothenhäusler et al. (2019) 放宽了假设但依赖于更窄的加性扰动模型，本文专注形式化隐变量类型。Long et al. (2023) 用IV+环境，本文对IV的角色（特别是对线性混杂的可识别性）有形式化必要条件。

主要结果¶

结果1：Proposition 1 & 2 & 4 （不变性保留/条件保留）
- Propos.1：仅过渡节点 → 强不变性保留在增强父变量集X_{gP A}上。 - Propos.2：仅源节点 → 弱不变性保留（检验不需要误差独立于X_{P A}，这一条在混杂下失效）。 - Propos.4：过渡+源+线性假设 → 弱不变性保留在X_{gP A}上。

结果2：Theorem 1 （无混杂高斯目标不变性测试的充要条件）
- 定理陈述（简化到单变量m=1理解，原定理用矩阵形式覆盖多变量）：
假设 Y = B^T_{P A}X + ε_Y，ε_Y ~ N(0, σ²)，ε_Y ⊥ X_{gP A}。对候选集S，设矩阵B满足B_ij=0若X_i∉S_j。解得分方程E[(Y-B^TX)X_S^T] = 0得到B。则：S = gP A 和 B = B_{P A} a.s. 当且仅当 E[(Y-B^TX)(Y-B^TX)^T] = Σ。
- 直觉：当且仅当拟合残差协方差等于真实残差协方差Σ时，该候选子集恰好是真实增强父变量集。这本质上是一个似然几何事实：正确模型导致Bartlett's identity（Fisher信息=期望二阶导的负值等）。
- 条件：要求X_{gP A}无混杂：ε_Y ⊥ X_{gP A}。
- 解决的技术难点：验证候选子集S≠真实父集时，总有E[(Y-B^TX)(Y-B^TX)^T] ≠ Σ，即残差协方差必然偏离。这通过返回到似然中的Bartlett恒等式→Y|X~N(B^TX, Σ)→仅对正确父集时恒等才成立（否则空间测度为零）。

结果3：Theorem 2 （有混杂高斯目标不变性测试的充要条件）
- 定理陈述（化繁为简的版本）：
生成模型为 Y = Λ^T_{P A}X + Γ^T_{P A}H + δ_Y，H_{P A} = Φ^T_{P A}X + δ_H (H为源/过渡节点，且混杂源节点导致ε_Y ≠ 0 和 ε_Y ⊥̸ X)。若对候选子集S和对应B，满足： - E[(Y - B^TX)X_S^T] = Γ^T_{P A}E[δ_HX_S^T] （得分方程修正） - E[(Y - B^TX)(Y - B^TX)^T] = Σ = Γ^T_{P A}E[δ_Hδ_H^T]Γ_{P A} + Ω（协方差拟合）则 S = gP A 和 B = B_{P A} a.s.。
- 理解：由于混杂，得分方程多了一项“未修正的δ_H与X_S的协方差”，而协方差方程也多了来自δ_H的额外项。这本质上要求：真实的Σ（残差协方差）必须由“B所对应的残差”与“混杂源δ_H的方差”共同卡住，从而唯一决定。
- 条件：需要观察到工具变量Z来保证B估计的不偏性（否则第一个方程不可识别）。作者在第4节具体使用了IV。

证明路线与技术技巧（Theorem 1为主）¶

整体路线（3步逻辑主干）： 1. 正向“充分性”：S = gP A → 协方差拟合成立（trivial，父变量是正确模型）。 2. 反向“必要性”核心——由协方差拟合反推出S = gP A： - Step 1：似然几何与Bartlett恒等式。作者写出Y, X对的对数似然（高斯）。用 Bartlett’s identity，他们建立：如果协方差恒等成立（Σ），则（期望）二阶Fisher信息等于-score的期望平方。这等价于——Y|X ~ N(B^TX, Σ)且误差独立于X是唯一的可能性。 - Step 2：排除错误父集。对任何错误S，残差方差项必大于Σ（或非恒等变换），导致强度不同。数学上，这通过对1阶和2阶score方程的一致性分析证明只有一组S/B解满足协方差方程。 - Step 3：测度论证。从全参数空间R^pm中，协方差方程解出一个pm-m维的子流形，其Lebesgue测度为0——这几乎必然锁定正确B和S。

关键跳跃点： - 从 “E[(Y-B^TX)(Y-B^TX)^T] = Σ”这一简单的条件到 “Y|X服从N(B^TX, Σ)”。这是通过将协方差方程插入似然一阶条件，证明Fisher信息等于负期望hessian（Bartlett第三恒等式）来实现的。这个“似然式证明”不需要抽样推断，而是用总体分布下的恒等式直接推出。 - Theorem 2从可观测到不可观测的跳跃：他们利用“在环境中保持的ε_Y分布不变性”，将协方差方程改写为 (Y - B^TX - Γ^T_{P A}δ_H) 的前两项J同一结构，从而证明这等价于Y|(X, δ_H)的条件正态性。这种“构建未观测量δ_H的辅助分布”是一个技巧。

技术技巧点名： - Bartlett’s identity（Bartlett恒等式）：用于从E[score·score^T] = -E[hessian] 推断模型的正确定性。这是统计基础技术，放在多元高斯背景下尤为干净。 - 矩阵微积分与向量化：将B^TX转化为 (I_m ⊗ X)^Tb ∈ ℝ^pm 以便求导，这是处理多变量Y的常用技术。 - “测度为0”论证：排除错误解集——这是典型的参数识别证明方法，与debiased ML中的使目标函数唯一最小解类似。 - Box’s M test：用于实际检验不等式Σ₁ = … = Σ_k，相当直接的应用。

真实例子与应用¶

例子1（Section 3.2数值模拟，无混杂）： - 数据/场景：DAG如Fig 2(a)，含8个观测变量X_1..8、3个隐变量H_1,2,3。目标Y是bivariate Gaussian (Y₁,Y₂)。环境1为观测；环境2对X进行乘性干预（误差放大）。 - 方法应用：作者运行Theorem 1的过程——①在X的2⁸子集上遍历，②对每个子集检验残差协方差跨环境相等（Box's M test），③选通过检验+最小平均BIC的集合。在Fig 2(b)的诱导混合图中，正确父集 {X₁,X₂,X₃,X₅}。 - 结果：n=500跨50 replications正确识别率92%——说明无混杂时该过程近乎完美。 - 例子想说明的：在实际可操作的步骤下（Box's M+BIC），Theorem 1的条件转化为高精度的父变量识别。

例子2（Section 4.2数值模拟，有混杂）： - 数据/场景：DAG如Fig 3(a)，增加5个隐变量（H₄, H₅作为confounder）、工具变量Z₁、Z₅。目标同上bivariate。 - 方法应用：使用Theorem 2的步骤（需要先识别哪些变量需要IV，环境2对X的扰动加倍）。 - 结果：n=1000时正确识别率92%（Theorem 2）；同场景直接用Theorem 1（不纠正混杂）仅有18%识别率。这例强烈表明忽略混杂时不变规则崩塌。 - 例子想说明的：理论中的弱不变性条件与评分方程修正是在实践中必不可少的——错过混杂就会错过几乎全部正确父集。

真实数据（Section 5，Sachs等人流式细胞数）： - 数据/场景：11种蛋白质，选择Y=(P38, Erk)为bivariate目标。环境1暴露（观测），环境2使用PMA（PKC活化剂）加全局干预。共9个观测预测量（排除Y自己）。 - 方法应用步骤： 1. 先用Theorem 1（无混杂假设）跑，找到{ Jnk, PKC, Akt }，p=0.60；
2. 突然假装Jnk不可观测。在{X_剩余8}上跑Theorem 1——跳过{p=0.60}(失败)。
3. 改用Theorem 2：假设Jnk为PKC→P38路径上潜在的confounder（根据共识网络），选PIP2， Plcg，Raf，Mek作为PKC的工具变量。→选中{ PKC, Akt}，p=0.55。 - 这个例子想说明的：（a）当潜伏变量Jnk被忽略时，不变性原则不一定完全失效，但需要用正确的混合图框架（Theorem 2）修正；（b）该修正需要一个合理的IV候选集：在已知的因果图上被认为与PKC相关且不与Y直接依赖的变量。这展示了理论与领域知识的结合。

🔎 结论是否比证明窄¶

是。作者在引言中吹嘘的是“目标潜在构型下，不变性识别一般的（隐含non-parametric）父变量集”，但实际上所有检验均基于多元高斯的线性模型假设。Proposition 1和2本身是非参数的（关于分布保持），但“等价条件”的检验（Theorem 1 & 2）完全卡死在高斯且线性这个箱子里。作者没有试图推广到非线性或GLM（即使Polinelli et al.已做了一部分）。
更微妙的是：Proposition 4（混合线性+过渡+源节点）的弱不变性在证明中依赖于机械的线性分解（将Γ^T_{P A}H分解出去），这个显得影响力备比——随便加一个非线性与H相关的Γ^T，不变性很可能崩塌。作者未对此作出任何定性的界限。
显然：本文的核心技术贡献是Theorem 1 & 2的高斯测试形式，但结论阐释语（例如在Sachs例中“causal graph found……”）较强且宽，读者应审慎区分“图形充分识别”概念与“线性假设下测试工具”的实证能力。

四、开放问题（点到为止，扎根具体语句）¶

非高斯/非线性不变性检验
作者在定理中依赖多元高斯+线性，但相关方法（Kook et al., Polinelli et al.）在无潜变量时在GLM/GAM下开展工作。具体扎根：Theorem 1 & 2 均写“Gaussian target”— —能否扩展到囊肿中的指数族或半参模型（需定义它的“跨环境协方等等价”的一个 Bridge 量）？读一下Kook et al. (2025)的tram-GCM测试，看是否可直接吸收为Theorem 1的非高斯推广。
工具变量选择的自动化与弱识别
Theorem 2依赖用户的“先验知识”选择IV（例子中用PIP2, Plcg, Raf, Mek）。具体扎根：作者在Sachs例中选择IV的理由是“这些变量出现在共识网络上作为最强预测”，但“是否自动找到最适IV”在一般设置下未讨论。这是高维稳健性缺口（若p>n且IV众多，IV选择内生与收敛性如何？）。
从单个目标到全体变量的扩展
“未来一个有趣的问题是研究测试所有观察变量而非某一个具体目标的因果不变性。”（Conclusion末句直接给出）。当前所有命题与定理均针对一个特定Y及其父变量集。若要将全图d-separation纳入不变性测试，需要联合测试所有节点的条件独立性不变性——这意味着复杂度与组合爆炸。

（提醒：如需确认第2和第3个问题是否是真gap，建议读Gnecco et al. (2026)的Boosting Control Functions和Ng等关于工具变量模型选择的近期works——前者如果在处理高维IV+混杂时已有建树，则Theorem 2的自动选IV会填充一个真实空白。）

Maintained by 陈星宇 · Homepage · Source on GitHub