Causal inference on process graphs: Causal structure and effect identification¶

作者: Nicolas-Domenic Reiter, Jonas Wahl, Andreas Gerhardus, Jakob Runge
来源: Bernoulli
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向的核心问题是：在时间序列依赖下，如何从观测数据中识别并估计变量间的因果关系？具体而言，当数据来自一个结构向量自回归（SVAR）过程（即线性、平稳、离散时间的因果时间序列模型）时，能否从频域表示——谱密度矩阵——中恢复因果结构（图）和量化因果效应，尤其是当存在未观测的潜在混淆变量时。当前成熟度：这是一个交叉领域，融合了结构方程模型（SEM）的图识别理论、时间序列的频域分析和代数统计方法，但已有工作大多在时域处理时间序列图（节点多、复杂度高），频域路径相对新且不成熟。

发展脉络（history）¶

奠基工作：图模型因果识别的基础框架（~1990s-2000s）。

因果推断的图模型基础由Judea Pearl等人建立，其中d-分离刻画了贝叶斯网络中条件独立性的图论对应。对于线性高斯SEM，Wright的路径规则（path-rule）给出了协方差对参数的显式参数化。Trek分离（Sullivant et al., 2008, [3]）进一步推广了d-分离，刻画了混合图（含双向边表示潜在混淆）中协方差矩阵子矩阵的秩条件。这是代数因果推断的支柱。Drton等（2010, [16]）和Foygel等（2011, [17]）系统研究了线性SEM的全局/通用可识别性，其中half-trek准则（HTC）给出了判定边系数可识别性的充分性条件。这些工作奠定了“从协方差矩阵代数性质反推因果关系”的路线。

主要进展：时间序列因果图与条件独立性方法（~2010s-2020s）。

时间序列的因果推断大量采用“时间序列图”（time series graph），其中每个时间点每个变量的值都以一个节点表示，边表示滞后或同期依赖。Runge等（2017, [8]；2019, [2]; 2020, [11]）发展了基于条件独立性的因果发现算法（PCMCI, PCMCI+），并在地球系统科学中广泛验证。Gerhardus & Runge（2020, [14]）将其扩展到存在潜在混淆的场景。Eichler & Didelez（2009, [15]）将图干预理论与Granger因果结合。但这些方法都在时域操作、节点数随时间窗增加而爆炸，且平滑地依赖强faithfulness假设。

当前Frontier：频域路径与代数方法（~2022-）。

本文作者系列工作（Reiter et al., 2023, Part I, [6]）提出“过程图”（process graph）——将每个整条时间序列过程压缩成一个节点，边表示在同一或不同时间点的依赖关系，从而获得有限图。这利用了SVAR的频域等价表述。本文（当前论文）在此之上，证明过程图的d-和t-分离信息可被谱密度矩阵上的代数约束（低秩/零子行列式）完整表征，并借鉴Barber等（2022, [5]）的半跋涉（half-trek）准则的“潜在因子”推广版本（LF-HTC）到频域，判断受潜在混淆的频域因果效应是否可通过谱密度的有理运算识别。

本文的位置：本文是将经典SEM的代数识别理论（trek分离、half-trek准则）从时域协方差矩阵迁移到频域谱密度矩阵的首次系统尝试，开辟了“频域图识别”的子路线。它填补了“从谱密度矩阵而非协方差矩阵进行因果识别”的理论空白。

子线索聚类¶

线索A（条件独立性/时域方法）：Runge等（2017, 2019, 2020, [8, 2, 11]）、Gerhardus & Runge（2020, [14]）、Assaad等（2022, [13]）。以条件独立性检验为工具，在时域时间序列图上发现因果结构。不考虑或仅局部处理潜在混淆，计算量大、依赖faithfulness假设。本文的竞争/补充：本文称频域方法更紧凑、计算更简洁且能处理全局潜在效应。
线索B（代数图识别理论，i.i.d.设定）：Drton等（2010-2018, [16, 18]）、Foygel等（2011, [17]）、Sullivant等（2007-2008, [4, 3]）、Weihs等（2017, [19]）、Barber等（2022, [5]）。在i.i.d.线性高斯SEM中研究边系数的可识别性，核心工具是trek规则、half-trek准则。本文的直接前驱：本文直接扩展了[5]的LF-HTC到频域过程图。
线索C（频域/过程图/代数方法）：Reiter等（2023, Part I, [6]）、当前论文。利用谱密度矩阵和谱trek规则（spectral trek rule）建立频域参数化与过程图的对应关系。当前论文在这之上加入分离判断与识别性准则。是线索B的“时间序列频域版本”。

这个方向在追问的核心问题¶

Q1 结构恢复：如何从谱密度矩阵的代数约束唯一恢复过程图的结构（哪些边存在/方向）？
Q2 识别问题：在过程图中，当一个频域因果效应被潜在变量混淆时，如何判断它能否从谱密度矩阵中唯一识别？
Q3 计算可行性：识别的判据是否可多项式时间检验？对应的估计量是否有一致性或收敛速度保证？
Q4 与经典时域方法的关系：频域识别的条件比时域时间序列图的条件更弱还是更强？两者是否存在非平凡的信息差距？

⚠️ 作者的 framing（必须明确标注为作者说法）¶

作者把缺口frame成：“时域时间序列图因无限节点而复杂，过程图作为紧凑表示+频域处理是更原则性且简洁的选择。”
作者淡化了什么：时域方法（线索A）在实践中的成功（已经大量的实证验证）、时域识别的渐近性质的扎实理论（许多工作给出了一致性和收敛率）。作者也未对比频域估计的统计误差——从有限样本谱密度估计（可能需cut-off、平滑）出发，识别性的代数条件是否在估计中有实际意义，本文全是确定性代数结果。
什么明显该被引/该存在、却没出现在intro里？：没有引用经典“谱分析”教材（如Brockwell & Davis）来补足读者对谱密度估计的统计特性了解。未引用任何非高斯频域因果推断工作（如高阶累积量方法，虽然[22]做了非Gaussian i.i.d.的拓展），这可能是一个故意的clustering选择——本文始终在Gaussian线性框架内。另外，没有引用任何针对高频金融数据使用谱密度做动态因果推断的工作，这些应用的读者很可能好奇本文的假设在它们上是否满足。

张力¶

未见明显对立引用。线索B与线索C之间是“i.i.d. vs. 时间序列/时域 vs. 频域”的互补关系，无结论冲突。线索A与方法B/C之间在“识别的充分条件”上可能隐含张力（时域条件独立性是否需要更多数据假设 vs.频域代数条件更简洁），但本文未直接讨论，属于可深查的机会。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：

\( p \)：过程个数（每个过程是一条完整的时间序列，例如“降水量”或“GDP”）。
\( T \)：离散时间点索引（过去到现在，无穷延伸）。
\( X_t = (X_{1,t}, \ldots, X_{p,t})^\top\)： \( p \)维随机向量，在时间 \(t\) 的可观测值。
\( B_0, B_1, B_2, \ldots \)： \( p \times p \) 实系数矩阵。\( B_0\) 的主对角线为0（因为 \(B_0\) 描述同期效应，变量不能同时是自己的原因；但\([B_0]_{ij}, i\neq j\) 表示变量\(j\)在同期对变量\(i\)的直接效应）。\( B_\tau\)（\(\tau \ge 1\)）是滞后\(\tau\)时刻的系数矩阵。
\(\varepsilon_t\)： \(p\)维白噪声向量，\(\mathbb E[\varepsilon_t] = 0\)，\(\mathrm{Cov}(\varepsilon_t) = \Sigma_\varepsilon\)（对角或非对角？若允许潜在混淆则非对角）。\(\varepsilon_t\)与所有过去值\(X_{t-\tau}, \tau>0\)独立。
SVAR(\(\infty\))模型（结构向量自回归，无限阶）：
\[X_t = B_0 X_t + B_1 X_{t-1} + B_2 X_{t-2} + \cdots + \varepsilon_t,\]
移项得：\((I - B_0) X_t = \sum_{\tau=1}^\infty B_\tau X_{t-\tau} + \varepsilon_t\)。假设\(I - B_0\)可逆，则有简化形式。
过程图 \(G\)：一个有向图（可含自环，表示滞后效应），顶点集为\([p] = \{1,\ldots,p\}\)。边 \(j \to i\)存在当且仅当存在某个滞后\(\tau \ge 0\)使得\([B_\tau]_{ij} \neq 0\)（若\(\tau=0\)即为同期边）。注意：过程图不记录滞后长度信息（只关心有无影响）。
频域传递函数：\(\Phi(z) = [I - B_0 - \sum_{\tau\ge 1} B_\tau z^\tau]^{-1}\)（对复数\(z\)），其中\(z\)是单位圆上的复数（Freuqency variable）。
谱密度矩阵：\( S(\omega) = \frac{1}{2\pi} \Phi(e^{-i\omega}) \Sigma_\varepsilon \Phi(e^{-i\omega})^*\)，\(\omega \in [-\pi, \pi]\)。是所有频率上\(p \times p\)正定Hermitian矩阵。
频域因果效应（frequency-domain causal effect） \(\Lambda(\omega)\)：传递函数的特定子矩阵，解释为在频域\(\omega\)上从变量\(j\)到变量\(i\)的直接效应（具体定义见论文）。

模型：线性SVAR过程（可无限阶、平稳、因果可逆，即\(\det(I-B_0) >0\)且多项式可逆所有根在单位圆外）。过程图上每一条边对应某个\(B_\tau\)项中的非零系数。潜在外生过程：未观测的\(q\)个额外过程（节点\(p+1,\ldots,p+q\)）也可能通过向可观测过程节点发射边而产生混淆，它们在谱密度里表现为误差非对角。

可观测数据：研究者只有谱密度矩阵 \(S(\omega)\)（在每个频率\(\omega\)上的一个\(p\times p\)矩阵），且是在渐近意义上“已知”或在无限长时间序列下能以任意精度估计的。不可观测的是：\(B_\tau\)系数矩阵、\(\Sigma_\varepsilon\)、潜在过程的数量与结构、边的符号等等，都需要从\(S(\omega)\)推断。

第二步：最小内核——最简特例¶

这不是一个“先有特例再推广”的内部技术结构，其核心困难是：

最小命题（核心困难）：给定一个过程图 \(G\)（有向图，可能有潜在节点），判定从谱密度矩阵 \(S(\omega)\) 出发，是否存在一种算法（仅仅涉及有理运算：加、乘、除、取子行列式、矩阵求逆）来唯一求解某个给定的频域因果效应 \(\Lambda_{i\leftarrow j}(\omega)\)。

关键想法：将谱密度矩阵\(S(\omega)\) 写成谱trek乘积的矩阵形式（类似协方差矩阵的trek rule在谱域版本）。然后，d-和t-分离信息就转化为谱密度子矩阵的秩条件（某子矩阵的行列式是否恒为零；某一参数化是否使子矩阵的秩小于满秩）。识别性则是：利用谱密度的一部分子矩阵，构造有理方程系统解出\(\Lambda_{i\leftarrow j}(\omega)\)；如果这一方程系统中总可以被“逐步消去未知参数”且解唯一（在几乎全体参数上），就说此效应是“有理可识别”。

最简例子（取自论文，用记号说明）：

设 \(p=2\)（两个可观测过程节点1、2），且过程图为：

\[1 \rightarrow 2\]

即：只有从过程1指向过程2的（可能同期或滞后）直接效应。无潜在过程。误差向量 \(\varepsilon_t\) 有对角协方差矩阵（无混淆）。此时，频域因果效应 \(\Lambda_{2\leftarrow 1}(\omega)\) 是多少？在简化模型中：\(\Phi(z)\)是下三角矩阵（因为只有1→2，没有2→1），具体求逆可知\(\Lambda_{2\leftarrow 1}(\omega)\)是谱密度比\(\frac{S_{21}(\omega)}{S_{11}(\omega)}\)的一个简单有理函数（实际上就是传递函数中对应项）。由于谱密度所有元素都可观测，这一识别通过有理运算（除法）直接成立。此处有理可识别性等于：效应可以由谱密度有理表示——且它是唯一的。这对应“无混淆过程图中，无阻布的路径”由此链式法则得到识别（古典IV特例也可看成一个源极节点的协整回归）。

更复杂的最小困难例：若在过程图上节点1和2都连接至一个潜在混淆因子H（由误差相关表示，无单独节点节点）。则在协方差简图中（过程图已合并潜在混淆为双向边），要从\(S(\omega)\)恢复一个被混淆的直接效应，就需要求解一个隐含着H贡献的结构方程，唯一性的获得需要H对其他变量的边际独立性，或杠杆变量instrumental变量。这正是半跋涉准则（half-trek）在频域下的角色：判断是否存在足够的“湍流路径”可以逐块恢复边的系数。

读者现在握有所有记号：过程图\(G\)、谱密度\(S(\omega)\)、频域因果效应\(\Lambda\)。困难和想法是：从\(S(\omega)\)的代数约束（行列式、子矩阵秩）中，找到过程图的结构信息（分离），再通过有理方程的解确定效应。

三、这篇论文做了什么（重心，≥45%）¶

三句话¶

研究问题：对于SVAR过程（时间序列图压缩为过程图），研究从谱密度（频域）进行因果结构发现（过程图的d-和t-分离）和因果效应识别（频域效应的有理可识别性）的充分性条件。
核心工具：谱TreK规则（将谱密度参数化与过程图节点间路径求和联系起来），和潜在因子半跋涉准则（LF-HTC，一种图论算法，通过在过程图上检查“半跋涉系统”的存在性来判定可识别性）。
主要结论：(a) 过程图的d-和t-分离信息可以由谱密度矩阵上的代数约束（具体的子矩阵行列式恒为零的条件）完整刻画；(b) 将LF-HTC从i.i.d.线性SEM推广到过程图并证明，如果过程图上存在一个LF-HTC，则被潜在过程混淆的频域因果效应可通过谱密度有理运算唯一识别（generic identifiability）。

关键设定与假设¶

在第二节最小内核基础上补全全套设定：

过程图 \(G\)：有限有向图，顶点集\(V = V_O \cup V_L\)，其中\(V_O\)是\(p\)个可观测过程节点，\(V_L\)是\(q\)个潜在过程节点。边集\(E\)包含有向边\(j\to i\)（表示存在直接因果效应）以及残差协方差指示的潜在混淆结构（隐性节点通过双向边表示，标准技巧）。
时间序列图 vs. 过程图：一个时间序列图是无限扩展的（每个时间点一个节点），过程图是将所有时间点上的同一个过程聚为一个节点，边代表跨任意滞后的效应。作者引用自己的Part I工作[6]证明了：d-分离和t-分离（t-separation，处理不可分离性的混合图分离准则）在过程图上可以忠实地对应时间序列图上的对应分离。
可观测量假设：研究者已知谱密度矩阵\(S(\omega)\)对所有\(\omega\)（取无穷长时间序列\(T\to\infty\)）。但未知的\(B_\tau\)系数、\(\Sigma_\varepsilon\)潜在节点等是待推断的。这个设定等价于已知全频域协方差信息（即已知所有自协方差序列\(\Gamma(h)\)）。
参数假设：(a) 模型为线性高斯；(b) 平稳且因果可逆（所有零点单位圆外，保证谱密度正定）；(c) 参数满足generic条件（即参数取值一般性地避开代数子集）。作者强调generic identifiability——识别性在参数几乎全体处成立，虽不能排除退化解。
假设关于导出图的“边际化”：过程图与时间序列图之间通过一种代数投影（来自[25]）相互转换，保证分离关系一致。本文假设过程图是给定的（或从谱密度通过后者代数约束恢复得到，不过恢复的充分性在定理中给出）。
对比已有文献：相比[5]的LF-HTC，本文的要求是过程图可以包含自环（因为滞后效应），并且必须依赖谱密度而非协方差。相比时域识别工作[15,21]，本文利用谱密度绕过时间图无限节点的复杂性，但没有要求任何faithfulness假设，而是用代数秩条件。

主要结果¶

结果1：d-和t-分离由谱密度代数约束刻画（定理3）。

陈述：设\(G\)是过程图（含潜在节点），\(A,B,C \subseteq V_O\) 是可观测节点子集。如果\(A\)和\(B\)被\(C\)在图中d-分离（或t-分离，针对混合图），则谱密度矩阵的子矩阵\(S_{A\cup C, B\cup C}(\omega)\)的某一行列式函数恒等于零（作为\(\omega\)的函数）——更具体说是它的“合理子矩阵”的秩小于满秩。反之，在一类普遍性假设下，若某行列式恒为零，则必须在图上存在对应的分离。作者称之为“谱密度约束与图分离的完备对应”。

直觉：d-分离在协方差矩阵下的代数等价是经典trek分离（子矩阵秩条件）。谱密度是全频域的协方差，trek rule搬移到频域依然成立（谱trek rule, [37]），因此同样的线性代数分解在每一频率\(\omega\)上成立。但\(\omega\)是连续变量，约束以恒为零的函数形式出现，而不是在某个离散点上相等。在每个频率上的恒等零约束给出图结构信息——判别两个节点间是否无d-连接路径。

技术难点：需证明“恒为零”这一条件的代数等价性与“分离”对应的充分必要条件。这避不开代数几何（map的代数独立性）和graph isomorphism。

结果2：频域因果效应的有理可识别性准则（定理4 / LF-HTC 拓展）。

陈述：对过程图上任何一个可观测节点\(i\)和其父节点集合\(\mathrm{pa}(i)\)，若存在一个LF-HTC（潜在因子半跋涉准则），则从过程\(j\)到\(i\)的频域因果效应\(\Lambda_{i\leftarrow j}(\omega)\)是可识别的（即存在一个仅用谱密度矩阵元素的有理运算表达的估计量）。LF-HTC在此的表述是：(a) 对每个父节点\(j \in \mathrm{pa}(i)\)，存在一个半跋涉（half-trek）\(\tau\)（这是一条从\(j\)到某个辅助节点的路径，不经过特定节点集）、不经过潜在混淆节点、且满足与残差矩阵约束的线性独立条件的一组合集。

直觉：核心机制与[5]相似：利用“半跋涉”构造出可观测协方差之外的线性方程组，逐一解出系数。在频域中，每一个频率是一个独立“视图”；解方程则是逐频域进行。若某频率下方程条件数差，整体参数map仍为唯一，属于generic。

必要条件：需要有父节点与子节点间的足够单调且“主题清醒”的半跋涉来产生线性独立的方程，其中潜在节点的贡献可被消除。

证明路线与技术技巧（理论型）¶

整体路线（以定理3为例）：

步骤1：谱trek规则。利用[6]已证明的谱trek规则：\( S(\omega) = \sum_{\text{paths } \pi \text{ from } a \to b} \text{product of coeffs} \times \text{some factor}\)。将谱密度写成一个多项式/有理函数的生成矩阵。
步骤2：矩阵分解。通过图分解引入节点排序，把\(S(\omega)\)写成\((\text{Diag}^{-1}) \cdot \Upsilon \cdot \Gamma\)的矩阵乘积形式（类似于下三角×对角×上三角）。其中\(\Upsilon,\Gamma\)中的条目是路径和。
步骤3：子矩阵秩等价于。从子矩阵\(S_{A\cup C,B\cup C}\)中提取的子块，其行列式是多项式（在自由参数上），零维条件是某些系数组合消失（即：路径的接管被阻塞）。经典代数图论（Sullivant[3]）的trek分离论证可直接迁移到频域版本，每个频率的局部trek分离条件与参数化一致，零约束在所有频率成立等价于图上的阻塞。
步骤4：方向性。反之，若某行列式恒为零，则必须对应路径数量不足——除非图中存在潜在图关系导致“意料之外”的零。作者引用代数几何中关于投射簇维数的经典引理，说明generic条件下不会出现意外的零，从而得出分离。

关键跳跃点： - 从离散时间点上的trek对应到连续频率上“所有\(\omega\)上成立”的条件。这是利用传递函数的解析性完成的：非常数的解析函数只能有孤立零点，而非恒零。所以若某多项式（在参数空间中）在每一频率都等于零，则多项式必须是恒零，即对应图约束。 - “generic”带彩色细节：本文用parametric代数集合之外的普遍性，但未说明当参数落入非通有子集（退化）时边系数不可识别的精确概率或测量零点。每个frequency点可能放大辖域，但整体参数数有限，这是一个小心使用“generic”的隐性代价。

技术技巧点名： - 谱TreK规则：从Wright路径规则和[3]的trek rule推广到频域（利用Z变换）。用在路线Step1。 - 矩阵秩分解：写成三角分解形式（步骤2），用Gauss消元标记。 - 代数几何维数论证（generic set = Zariski开集）用于分离/逆推充分性（步骤3-4）。 - 半跋涉系统：应用Berge lemma与图论中的嫁接定理构建半跋涉系统的存在性，是References [5]的直接延伸。

真实例子与应用¶

本文为纯理论（无实证例子）。无真实数据实验或模拟案例。作者在引言中提到方法“在仿真数据上可试验”，但论文正文内未包含任何数值结果。这是常见于首篇理论论文（建框架）的模式：仅设代数条件，估计量的一致性与有限样本性质留待后续工作。

🔎 结论是否比证明窄¶

有多处：定理3（关于d/t-分离的代数刻画）的“反之”方向（若代数约束成立则图分离）作者仅在补充充分假设（generic no excess zero conditions）下声明为“可证但稍繁”或仅引用[3,48]论证，未给出本设置下完整的新证明。文末明确写：第4节的LF-HTC推广直接应用了Barber等[5]未变动引理，来适应“频域”需要的核心论证实际上完全等价（参数矩阵的结构仅将协方差替换为谱密度，不同频率下均成立——但频域传递函数的矩阵结构不同（可能无穷阶），严谨性取决于[6]的谱trek rule在有无潜在节点时都适用，作者此处严谨引用旧工作，无新论证低频域特有困难。

四、开放问题（点到为止，扎根具体语句）¶

非高斯/非线性情形的频域刻画。作者在结论称“线性高斯假设可弱化为独立噪音”，但未证明。本文定理3和定理4的代数证明完全依赖谱密度多项式/有理参数化，非高斯可能失去/改变代数结构（高频矩须包含额外信息，参见[22]的i.i.d.案例），是一个明确缺口。
充分性与必要性的gap。LF-HTC是有理可识别的充分条件，非必要。引言指出“gap进一步缩小是活跃方向”，但正文未量化频域下的gap。研究者可从[17]（原i.i.d.情形）关于HTC的gap模拟入手，在过程图上做类似模拟，寻找频域下新的必要条件。
从谱密度估计到实施。识别性为代数后，实际估计需估谱密度（需cut-off、平滑或窗宽选择），引入估计误差，当前完全无理论——没有给出一个识别后的估计量、它的rate或置信区间。这扎根于作者明确提出的future work部分。
非参数SVAR（核方法） 或时变参数，核在频域是否仍有“代数约束”编码的分离性？无文章讨论。离当前设定较远，但若研究者熟悉RKHS，该处可能打开新路线。
计算可行性：多项式时间的LF-HTC算法在过程图上的部署与原本在i.i.d. SEM是相同的（图规模为节点数p+t节点数，但过程图节点数只有p+ q，且潜在节点图规模可指数级？大图上的半跋涉检查是否NP-hard？[17]论文对图规模多项式，但被引[5]的LF-HTC直接是用多项式动态规划在图上实现的，所以此路不堵。但本文未实现这一算法，是作者自己的future work。

Maintained by 陈星宇 · Homepage · Source on GitHub