Tree-based additive noise directed acyclic graphical models for nonlinear causal discovery with interactions¶

作者: Fangting Zhou, Kejun He, Yang Ni
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf089

一、领域脉络与小综述¶

这个方向是什么：非线性因果发现旨在从观测数据中推断变量间的有向无环图（DAG）结构。核心统计/科学问题在于：在无干预的纯观测数据下，DAG 的马尔可夫等价类通常无法被区分（即仅凭条件独立性无法定方向）；要打破等价类实现“因果可识别性”，必须对结构因果函数或噪声分布施加额外约束。本子方向聚焦于“加性噪声模型（ANM）”及其变体，通过限制因果函数的形式（如非线性、非高斯、加性结构）来换取 DAG 的可识别性。当前该方向成熟度较高：在连续、光滑因果函数设定下，可识别性理论已相对完备，算法层面也有基于回归残差独立性检验的成熟流程；但在因果函数不连续、或存在变量交互效应的设定下，理论与算法均存在明显缺口。

发展脉络： - 奠基工作：Shimizu et al. (2006) 提出 LiNGAM，利用非高斯噪声打破等价类，首次在线性设定下实现 DAG 可识别性。Hoyer et al. (2009) 将其推广至非线性加性噪声模型（ANM），证明若因果函数非线性且噪声加性，则除少数“几乎处处不发生”的例外情况，DAG 方向可识别。这确立了“非线性+加性=可识别”的基本范式。 - 主要进展：Peters et al. (2014) 系统化了 ANM 的可识别性理论，给出了更一般的条件，并提出了基于回归残差独立性检验的因果方向推断方法。Zhang & Hyvärinen (2009) 进一步探讨了 Post-nonlinear model（在加性噪声外再加一个非线性输出变换），在更宽的函数类下维持可识别性。 - 当前 frontier：当因果函数包含交互效应（即 \(x_j = f(x_{\text{pa}(j)}) + \epsilon_j\) 中 \(f\) 不可加分解为单变量函数之和）时，传统 ANM 的可识别性条件失效。为容纳交互，两条路线出现：一是用高斯过程（GP）或神经网络表示一般非线性 \(f\)（如 Mooij et al. 2011 的 GP-based 方法，Montagna et al. 2023 的因果神经网络），但作者指出它们“计算代价高昂或缺乏可解释性”；二是放宽加性假设，但如何在放宽后维持可识别性，缺乏理论。 - 本文的位置：本文提出 Tree-based Additive Noise Model (TANM)，用树（分段常数函数）表示因果函数以自然容纳交互项，填补了“非光滑/分段常数因果函数下 DAG 可识别性”的理论缺口，并提供递归与排序搜索算法。

子线索聚类： 1. 可识别性理论线：从 LiNGAM (Shimizu 2006) → ANM (Hoyer 2009) → 一般 ANM 可识别性条件 (Peters 2014) → Post-nonlinear (Zhang & Hyvärinen 2009)。这一簇在解决“什么函数/噪声假设下 DAG 方向可识别”，但均依赖因果函数的连续性/光滑性或加性可分性。 2. 算法与搜索线：基于独立性检验的逐步回归 → Score-based 方法 (如 NOTEARS, Chickering 2002 的排序搜索) → 递归找源节点 (如 Peters 2014 的直接法)。这一簇关注如何在可识别性保证下高效搜索 DAG。 3. 交互与非光滑函数表示线：GP/神经网络表示交互 → 树模型表示交互（本文）。这一簇关注如何用灵活的函数类捕捉交互，同时兼顾计算与可解释性。

核心追问与瓶颈： - 追问1：在因果函数不满足单变量加性可分（即存在交互）时，DAG 是否仍可识别？已知瓶颈：现有 ANM 可识别性证明严重依赖 \(f\) 的连续/光滑/加性可分结构，一旦 \(f\) 是分段常数（如树），原证明中的微分/密度变换技术失效。 - 追问2：如何在容纳交互效应的宽函数类中，维持算法的计算可行性与结果的可解释性？已知瓶颈：GP/神经网络方法计算代价高（搜索空间随节点数指数/超指数增长），且拟合出的 \(f\) 难以解读交互结构。 - 追问3：分段常数/不连续因果函数下的密度变换与可识别性条件如何建立？已知瓶颈：缺乏针对 piecewise 结构的条件分布分解与可识别性刻画。

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“现有 ANM 假设加性可分因果函数，无法捕捉交互；GP/神经网络虽能捕捉交互但计算昂贵且不可解释；因此，用树（分段常数）表示交互是自然且优越的下一步”。这使得 TANM 的提出成为“显然的填补”。 - 淡化或回避的竞争路线：作者淡化了另一条容纳交互的路线——乘性噪声或混合噪声模型（如 \(x_j = f(x_{\text{pa}(j)}) \cdot \epsilon_j\)），这类模型在某些交互设定下也可识别，但未在 intro 中讨论。此外，基于条件独立性检验的约束方法（如 PC 算法）在交互存在时仍能推断骨架，虽无法定方向，但作为 baseline 被提及甚少。 - 明显该被引却未出现的：离散 ANM 或条件独立性在离散变量上的可识别性工作（如 Peters et al. 2011 对离散变量因果发现的探讨）。树模型产生的分段常数变量本质上接近离散化/区间化变量，离散因果发现的可识别性条件与本文的 piecewise 条件应有深刻联系，未引此线略显缺口。此外，基于样条/分段线性等非光滑但连续函数的因果发现工作也未引，这些是介于“光滑”与“分段常数”之间的中间地带，值得研究者去查。

张力：未见明显对立引用。各被引工作更多是互补关系：LiNGAM 处理线性非高斯，ANM 处理非线性加性，GP/神经网络处理一般非线性交互，本文处理分段常数交互。但隐含张力在于：Peters et al. (2014) 证明 ANM 在“几乎处处”可识别时，明确排除了 \(f\) 为常数函数的情况（此时方向不可识别）；而本文的树模型在每个叶节点上正是常数函数。本文如何在这个“常数函数导致不可识别”的已知结论旁边建立新的可识别性条件（依赖 piecewise 结构而非单段常数），是理论与前作的关键张力点，也是本文理论贡献的核心。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚 - \(p\)：变量数/节点数，DAG 中节点集合 \(V = \{1, \ldots, p\}\)。 - \(\text{pa}(j)\)：节点 \(j\) 在 DAG 中的父节点集合，是我们要推断的因果结构。 - \(X_j\)：节点 \(j\) 的随机变量，为连续型（实值）。 - \(\epsilon_j\)：节点 \(j\) 的噪声变量，假设相互独立，且与 \(\text{pa}(j)\) 独立。分布未知，密度存在。 - \(f_j\)：节点 \(j\) 的因果函数，本文中为树函数，即基于 \(\text{pa}(j)\) 的分段常数函数。 - 模型（TANM）：数据生成机制为 \(X_j = f_j(X_{\text{pa}(j)}) + \epsilon_j\)，对所有 \(j \in V\)。若 \(\text{pa}(j) = \emptyset\)（源节点），则 \(X_j = \epsilon_j\)。树函数 \(f_j\) 通过对父节点空间的递归二分划分（如 CART 树的构造）生成，在每个划分区域（叶节点）上取常数。这意味着 \(f_j\) 可自然包含父节点间的交互效应（如 \(X_1 > 0\) 且 \(X_2 < 1\) 时取值 \(c\)，否则取值 \(d\)）。 - 可观测数据：\(n\) 个独立同分布样本 \(\{(X_1^{(i)}, \ldots, X_p^{(i)})\}_{i=1}^n\)，即 \(p\) 维连续变量的观测矩阵。我们观测到各变量的联合分布，想要推断但观测不到的是 DAG 结构（\(\text{pa}(j)\) 对所有 \(j\)）及因果函数 \(f_j\)。噪声 \(\epsilon_j\) 不可观测，只能通过 \(X_j - f_j(X_{\text{pa}(j)})\) 识别。

第二步：最小内核——两节点、单交互项的分段常数因果方向识别 剥掉所有 \(p > 2\) 的搜索复杂性，核心数学困难在 \(p=2\) 时已完全暴露：给定两个变量 \(X_1, X_2\)，其联合分布由 TANM 生成，要判断因果方向是 \(X_1 \rightarrow X_2\) 还是 \(X_2 \rightarrow X_1\)。

最简特例设定：\(X_1 = \epsilon_1\)（源节点），\(X_2 = f(X_1) + \epsilon_2\)，\(\epsilon_1 \perp \epsilon_2\)。\(f\) 是一棵深度为 1 的树（即单个分裂点）：\(f(X_1) = c_1\) 若 \(X_1 \leq t\)，\(f(X_1) = c_2\) 若 \(X_1 > t\)。\(c_1 \neq c_2\)（否则 \(f\) 为常数，方向不可识别）。\(\epsilon_1, \epsilon_2\) 密度分别为 \(p_1, p_2\)。
可识别性要证的命题：在真实方向 \(X_1 \rightarrow X_2\) 下，反向模型 \(X_1 = g(X_2) + \eta_1\)（\(g\) 为任意树函数，\(\eta_1 \perp X_2\)）无法完美重构联合分布 \(P(X_1, X_2)\)，除非在极特殊的参数设置下（本文的“例外条件”不成立）。
为什么原 ANM 证明失效：原 ANM 证明（Hoyer 2009; Peters 2014）依赖 \(f\) 的连续可微性，通过对条件密度 \(p(x_2 | x_1)\) 关于 \(x_1\) 求导，利用加性噪声的平移结构导出反向方向下密度必须满足的矛盾约束。但在本例中，\(f\) 在 \(t\) 处跳跃，\(p(x_2 | x_1)\) 在 \(x_1 = t\) 处不连续，求导操作非法，原证明链条断裂。
本文怎么破（核心想法）：放弃微分，改用条件分布的 piecewise 结构与可分性。在真实方向下，\(X_2 | X_1\) 的分布是两个平移后的 \(p_2\) 的混合（以 \(X_1 \leq t\) 或 \(> t\) 为混合权重），即 \(p(x_2 | x_1) = p_2(x_2 - c_1)\) 若 \(x_1 \leq t\)，\(= p_2(x_2 - c_2)\) 若 \(x_1 > t\)。关键性质：条件分布的形状（由 \(p_2\) 决定）在 \(x_1\) 的不同区间上不变，仅发生平移（由 \(c_1, c_2\) 决定）。反向方向下，若 \(X_1 = g(X_2) + \eta_1\) 且 \(g\) 为树，则 \(X_1 | X_2\) 的分布也是分段常数平移的混合，但其分段结构由 \(g\) 的分裂点决定，混合权重由 \(X_2\) 的边际分布（本身是 \(p_1\) 与平移 \(p_2\) 的卷积混合）决定。本文的 identifiability 条件本质上要求：真实方向下条件分布的 piecewise 平移结构，无法被任何反向树函数 \(g\) 与独立噪声 \(\eta_1\) 所生成的 piecewise 平移结构所匹配，除非真实 \(f\) 的分裂点与平移量满足特定代数关系（即例外条件）。这个条件通过对比两方向下条件分布的“区间-平移对应表”来验证，完全避开了微分。

三、这篇论文做了什么¶

三句话： ①研究了在因果函数为分段常数（树构造）且包含交互效应时，DAG 的可识别性与拓扑排序估计问题； ②核心工具是树函数的 piecewise 平移结构分析（替代传统微分分析）与递归源节点识别+score-based 排序搜索； ③主要结论是给出了 TANM 的新可识别性条件（基于条件分布的 piecewise 结构与交互项可分性），并证明在强交互存在时，TANM 算法在推断精度与计算效率上优于 GP/神经网络 ANM 方法。

关键设定与假设：在第二节最小记号基础上补全： - TANM 定义：\(X_j = f_j(X_{\text{pa}(j)}) + \epsilon_j\)，\(f_j\) 为基于 \(X_{\text{pa}(j)}\) 的树函数（如 CART 回归树），叶节点取常数，分裂点基于父节点值。树允许交互（如分裂路径先按 \(X_1\) 分，再按 \(X_2\) 分）。 - 假设1（加性噪声与噪声独立性）：\(\epsilon_j\) 相互独立，且 \(\epsilon_j \perp X_{\text{pa}(j)}\)。与传统 ANM 一致。 - 假设2（树函数非退化）：\(f_j\) 不是常数函数（即树至少有一个分裂点，叶节点值不全相同）。这是避开“常数因果函数导致方向不可识别”的必要条件，对应 Peters et al. (2014) 的排除条件。 - 假设3（可识别性条件，核心新增）：本文给出具体的例外条件，当真实模型不满足这些例外条件时，DAG 方向可识别。例外条件涉及：真实方向下树函数的分裂点与平移量（叶节点常数差），不能使得反向方向下存在另一棵树与噪声能重构相同的条件分布 piecewise 结构。统计含义：因果函数的结构（哪些父节点参与分裂、分裂点在哪、叶节点值差多少）必须足够“不对称”，使得反向方向的任何树+噪声组合都无法模仿这种不对称的 piecewise 平移模式。相比已有文献，此条件放宽了对 \(f\) 连续/光滑的要求，但新增了对 piecewise 结构不对称性的要求。 - 假设4（交互项可分性）：树函数虽包含交互，但其结构仍可分解为对父节点空间的划分。本文未要求 \(f_j\) 是单变量函数之和，突破了传统 ANM 的加性可分限制。

主要结果： - 定理1（TANM 可识别性）：在假设1-3下，TANM 生成的 DAG 是可识别的，即从联合分布可唯一恢复因果方向（除满足例外条件的极少数参数设置）。直觉：真实方向的 piecewise 平移结构携带了“分裂变量与平移变量”的不对称信息，反向方向无法复制这种不对称。必要条件：\(f_j\) 非常数、噪声独立、例外条件不成立。解决的技术难点：在 \(f\) 不连续、密度不可微下，建立条件分布的 piecewise 结构对比框架，替代传统微分框架。 - 定理2（递归源节点识别的一致性）：在样本量 \(n \to \infty\) 时，基于回归残差独立性检验的递归算法能以概率 1 正确识别所有源节点（即拓扑排序的最前节点）。条件：TANM 可识别性成立、树拟合与独立性检验的一致性。直觉：源节点无父节点，其残差（即自身）与任何其他变量的拟合值独立；非源节点的残差与其父节点拟合值不独立。 - 算法结果（排序搜索的计算代价）：Score-based ordering search 在 \(p\) 个节点下的搜索空间为 \(O(p!)\)（所有可能排序），本文采用贪心/剪枝策略，实际计算代价在模拟中表现为随 \(p\) 多项式增长（具体界未给理论证明，依赖模拟观察）。

证明路线与技术技巧： - 整体路线（可识别性定理1）： 1. 写出真实方向下联合密度的分解：\(p(x_1, x_2) = p_1(x_1) \cdot p_2(x_2 - f(x_1))\)，其中 \(f\) 为树，\(p_2\) 为噪声密度。 2. 分析 \(p(x_2 | x_1)\) 的 piecewise 结构：在 \(x_1\) 的不同区间（由树的分裂点定义），\(p(x_2 | x_1)\) 是 \(p_2\) 的不同平移（由叶节点常数定义）。 3. 假设反向方向成立：\(p(x_1, x_2) = q_2(x_2) \cdot q_1(x_1 - g(x_2))\)，\(g\) 为某树，\(q_1\) 为反向噪声密度。 4. 分析反向方向下 \(p(x_1 | x_2)\) 的 piecewise 结构：在 \(x_2\) 的不同区间（由 \(g\) 的分裂点定义），\(p(x_1 | x_2)\) 是 \(q_1\) 的不同平移。 5. 对比两方向的 piecewise 结构：真实方向的“区间划分基于 \(x_1\)、平移基于 \(x_2\)”与反向方向的“区间划分基于 \(x_2\)、平移基于 \(x_1\)”必须全局匹配。推导出：这种全局匹配要求真实 \(f\) 的分裂点、平移量与 \(p_1, p_2\) 的形状满足特定代数方程（例外条件）。 6. 证明例外条件在一般参数空间中测度为零或极小，从而可识别性“几乎处处”成立。 - 关键跳跃点：步骤5中，如何从“两方向 piecewise 结构的全局匹配”推导出具体的例外代数条件。难点在于：两方向的区间划分与平移是交织的（真实方向的区间由 \(x_1\) 定义，但反向方向的区间由 \(x_2\) 定义，\(x_2\) 本身又依赖 \(x_1\)），形成循环依赖。作者通过固定分裂点与平移量，将匹配条件转化为密度函数形状的方程，利用 \(p_1, p_2\) 的独立性打破循环。 - 技术技巧点名： - Piecewise density decomposition：用树的结构将条件密度分解为区间上的平移密度，替代连续密度的微分分解。用在定理1证明的全过程，是本文最核心的技术替代。 - Independence of noise densities：利用 \(\epsilon_1 \perp \epsilon_2\)，将真实方向与反向方向的密度形状方程解耦，使得匹配条件只能依赖分裂点与平移量的代数关系，而非密度的任意形状。用在步骤5的解耦。 - Recursive source node identification：基于残差独立性检验逐步剔除源节点，用在算法层面，保证拓扑排序的起点正确。 - Score-based ordering search with pruning：对剩余节点搜索最优排序，评分函数基于树拟合的残差独立性（似然/独立性评分的近似），用在算法的排序阶段。

真实例子与应用： - 数据/场景：乳腺癌蛋白质–蛋白质交互网络推断。数据来自乳腺癌蛋白质表达数据集（具体来源论文正文应给出，摘要提及），包含 \(p\) 个蛋白质的连续表达水平，\(n\) 个样本。 - 怎么用上去：将 TANM 拟合到蛋白质表达数据上，推断蛋白质间的因果 DAG（哪个蛋白质的表达影响哪个），树函数的交互结构对应“蛋白质复合体”效应（多个蛋白质同时高/低表达时才影响下游蛋白质）。 - 得到什么结果：推断出的 DAG 与已知生物学交互（蛋白质复合体形成机制）部分吻合，树函数的分裂路径揭示了哪些蛋白质的组合对下游有因果效应。与 GP/神经网络 ANM 相比，TANM 推断的交互结构更易解读（树的分裂路径直接对应蛋白质组合条件）。 - 想说明什么：验证 TANM 在真实交互存在时的适用性与可解释性优势，展示树函数如何捕捉“复合体”这种交互效应（这是纯加性 ANM 无法捕捉的）。

🔎 结论是否比证明窄： - 本文的算法一致性（定理2）仅在“树拟合与独立性检验一致性”的假设下证明，但实际算法中树的拟合（CART）与独立性检验（如 HSIC）在有限样本下的收敛速率与误差传播，未给出非渐近界或有限样本保证。这是理论结论（渐近一致性）比实际算法保证（有限样本表现）更宽的地方。 - 可识别性定理1的“例外条件测度极小”声明，在 \(p > 2\) 且树深度 \(> 1\) 的一般设定下，证明可能仅是直觉性论述或依赖特定密度族（如连续密度），未对所有可能密度严格证明测度为零。研究者应核查正文定理1证明的最后一步，确认“测度为零”是否在一般密度下严格成立，还是仅在特定密度族（如解析密度）下成立。

四、开放问题（点到为止，扎根具体语句）¶

可识别性条件在更一般 piecewise/sieve 设定下的推广：本文的可识别性条件针对树函数（分段常数），若因果函数为分段线性、分段多项式或更一般的 sieve 函数（不连续但非纯常数），piecewise 平移结构变为 piecewise 线性/多项式结构，可识别性条件如何修改？扎根在本文定理1的证明仅依赖“叶节点常数”这一性质，分段线性下平移变为斜率变换，条件分布的结构对比需重建。
有限样本下树拟合误差与独立性检验误差的传播界：定理2假设树拟合与独立性检验一致性，但未给收敛速率。在有限 \(n\) 下，树拟合的过拟合/欠拟合如何影响残差独立性检验的 power，进而影响源节点识别与排序的误差率？扎根在本文算法部分缺乏非渐近误差界。
高维 \(p\) 下排序搜索的计算代价理论界：模拟观察计算代价随 \(p\) 多项式增长，但未给理论证明。Score-based ordering search 在 TANM 下的搜索空间是否可被有效剪枝至多项式级，或在何种条件下存在多项式时间算法？扎根在本文算法部分仅给模拟观察，未给计算复杂度定理。
离散/区间化变量与 TANM 可识别性的联系：树函数将连续变量区间化，本质接近离散化。本文未引离散 ANM 的可识别性工作（如 Peters et al. 2011），TANM 的可识别性条件与离散因果发现的可识别性条件是否有等价或包含关系？扎根在本文 intro 缺失离散因果发现的引用线索，值得研究者去查。

Maintained by 陈星宇 · Homepage · Source on GitHub

Tree-based additive noise directed acyclic graphical models for nonlinear causal discovery with interactions¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论