Structural restrictions in local causal discovery: identifying direct causes of a target variable¶

作者: Juraj Bodik, Valérie Chavez-Demoulin
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asaf042

一、核心问题与贡献¶

①研究了在单一观测环境下（无需干预或多环境数据）仅从联合分布中识别目标变量直接原因（局部因果结构）的问题。②核心方法是仅对目标变量的数据生成过程施加结构限制（如非线性高斯假设），而对其余变量的机制不作任何假设。③主要贡献是证明了在此局部假设下目标变量父代集合的可识别性定理，并提出了两种有限样本下的估计算法，打破了全局DAG可识别或多环境干预的依赖。

二、基础设定¶

核心概念与符号：
$Y$：目标变量。
$Pa(Y)$：$Y$的直接原因（父代集合），即局部因果结构。
$V$：所有观测变量集合，$V \setminus {Y}$为非目标变量。
Local NLG (Nonlinear Gaussian)：局部非线性高斯假设，仅针对$Y$的生成机制。
关键假设：
Local Structural Restriction (如 Local NLG)：$Y = f(Pa(Y)) + N_Y$，其中$f$非线性，$N_Y \sim \mathcal{N}(0, \sigma^2)$且与$Pa(Y)$独立。统计学含义：利用非线性与高斯噪声的冲突打破条件分布的对称性，实现因果方向的非参数可识别。对比：全局NLG（如Hoyer et al. 2004）要求图中所有节点均满足此机制，本文将其大幅放宽至仅目标节点。
Causal Sufficiency for $Y$：$Y$的所有直接原因均被观测。统计学含义：无遗漏混杂影响$Y$的局部机制。对比：允许非目标变量$V \setminus {Y}$之间存在隐变量混杂，比全局充分性假设弱。
Faithfulness：$P(V)$对真实DAG忠实。统计学含义：条件独立性完全反映d-分离，排除因果马尔可夫等价类中的偶然抵消。
问题背景：全局DAG学习通常需要极强的全局假设（所有节点均满足特定机制），而不变因果预测（ICP）等方法则需要多环境或干预数据。本文针对“如何在仅有单一观测环境且无法对全局机制做强假设时识别局部因果”的不足，与最相关文献的区别：相比Peters et al. (2016)的ICP无需多环境，相比Hoyer et al. (2004)的全局NLG无需全局机制假设。

三、主要定理 / 核心结果¶

原文陈述：若目标变量$Y$的生成机制满足Local NLG（或类似局部结构限制），且$P(V)$满足忠实性假设，则$Pa(Y)$可由观测分布$P(V)$唯一识别，无论$V \setminus {Y}$的生成机制如何。
直观解释：在非线性高斯设定下，因果方向具有不对称性。若$X \to Y$，$Y$的条件分布是非线性+高斯噪声；若反向解释$Y \to X$，则$X$的噪声必依赖于$Y$（非高斯或非独立）。本文证明，这种不对称性只需在目标节点$Y$处存在，即可像“锚点”一样固定住局部因果方向，而其他节点间的线性或离散关系不会破坏这一局部不对称性。
解决了什么技术难点：克服了非目标变量机制任意性带来的干扰。证明了即使$V \setminus {Y}$中存在对称的线性高斯关系（通常不可识别因果方向），也不会污染$Y$与其父代之间的非线性高斯不对称性。
适用条件与局限：必须要求$f$严格非线性（通常要求三阶导数非零）且噪声严格高斯。若$Y$的机制是线性高斯，或存在直接影响$Y$的未观测混杂，则识别性崩溃。

四、证明框架 / 方法设计¶

证明主干逻辑：反证法 + 构造性独立性检验。
拆解为 3-5 个关键逻辑步骤：
定义候选集：对于任意候选父代集$S \subseteq V \setminus {Y}$，构造残差$R_S = Y - \mathbb{E}[Y|S]$。
独立性刻画：若$S = Pa(Y)$，由Local NLG假设，残差$R_S$即为高斯噪声$N_Y$，且$R_S \perp!!!\perp S$。
不对称性推导：若$S \neq Pa(Y)$（遗漏了真父代或误包含了子代），利用DAG的拓扑序与忠实性，证明残差$R_S$中必然混入非高斯成分或依赖于$S$的成分。
唯一性确立：证明满足“残差与输入独立且为高斯”的集合$S$在忠实性假设下唯一，即为$Pa(Y)$。
最关键的技巧性引理或"跳跃点"：在证明误包含子代（如$Y \to X$，将$X$误纳入$S$）时残差不独立的技术步骤中，需要利用条件方差或高阶矩的依赖关系。由于$X$是$Y$的函数，将$Y$对$X$回归会引入反向的统计依赖，此时残差不再是纯高斯噪声，而是与$X$存在不可消除的依赖。这一步巧妙利用了非线性高斯的“不可逆性”阻断了虚假局部结构的产生。
数学工具评价：是经典全局非线性高斯可识别性理论（基于独立成分分析ICA的直觉）在局部Markov边界上的巧妙降维与裁剪，并非全新分析框架，但假设的局部化极具理论美感。

五、与研究者兴趣的关联¶

连接到哪个子方向：观测性数据下的因果识别（特别是放宽全局假设的局部识别策略），与 Proximal CI 的 negative control 设定在“利用局部结构突破不可识别性”上具有精神契合。
可借鉴的核心思路或技术工具：“局部机制锚定”思想。在 Proximal CI 中，我们也是只对混杂的代理变量结构做假设，而不需要对全图建模。本文将全局DAG假设放松到仅目标变量机制的思路，可迁移至研究“当仅有部分变量的代理变量可用时，如何保证因果效应的半参数有效估计与识别”。
值得精读的关键参考文献：
Hoyer et al. (2004) "Nonlinear causal discovery with additive noise models"：全局非线性高斯识别的理论源头，对比阅读可深刻理解局部化假设的数学本质。
Peters et al. (2016) "Causal inference using invariant prediction" (ICP)：多环境局部识别的代表作，对比本文可看清“单环境结构假设”与“多环境不变性假设”在识别因果时的等价与互补关系。

六、延伸思考与练习¶

假设扰动：若将 Local NLG 假设改为“Local LiNGAM”（$Y$为线性机制但噪声非高斯），结论是否依然成立？技术上需要将基于高斯性的残差独立性检验替换为什么工具？（提示：非高斯独立性测度与ICA框架）。
开放问题：如何将此局部识别理论推广至存在隐变量直接混杂$Y$的情况（即放宽 Causal Sufficiency for $Y$）？是否可以结合 Proximal CI 的思路，利用负控制变量作为代理来恢复局部可识别性？
理解检测题：考虑图结构 $X_1 \to Y$, $X_2 \to Y$, $Y \to X_3$，其中$Y = X_1 X_2 + N_Y$ ($N_Y \sim \mathcal{N}(0,1)$)，$X_3 = Y + E_3$ ($E_3 \sim \mathcal{N}(0,1)$)。假设你误以为 $S = {X_1, X_3}$ 是 $Pa(Y)$，请利用非线性高斯的不对称性，论证为什么 $Y$ 对 ${X_1, X_3}$ 回归的残差 $R_S$ 不可能独立于 ${X_1, X_3}$。

Maintained by 陈星宇 · Homepage · Source on GitHub